Подсчёт повторений слов в тексте

parsing, семантический анализ

Существует ли сабж для консоли? С умением работать с UTF? Заранее благодарю за ответ.

Ссылка

← Сортировка внутри файла по количеству слов в линии

вывод значения заданного проперти →

grep -c

anonymous
(23.08.15 21:46:38 MSK)

Ссылка

wc ж, не?

upd: похоже что не всегда, значит смесь из sed «s/ /\n/» , sort и uniq -c

anTaRes ★★★★
(23.08.15 22:01:59 MSK)
Последнее исправление: anTaRes 23.08.15 22:06:30 MSK (всего исправлений: 1)

Ссылка

unixway, ёпт:

tr ' ' '\n' | sort -u | wc -l

ziemin ★★
(23.08.15 22:05:01 MSK)

Ответ на: комментарий от ziemin 23.08.15 22:05:01 MSK

sort -u

sort |uniq

cat отсутствует. на троечку

anonymous
(23.08.15 22:07:29 MSK)

Ответ на: комментарий от ziemin 23.08.15 22:05:01 MSK

Тьфу. Тебе повторы. Тогда

tr ' ' '\n' | sort | uniq -c

ziemin ★★
(23.08.15 22:10:55 MSK)

Ссылка

Ответ на: комментарий от anonymous 23.08.15 22:07:29 MSK

Я через <<EOF проверял. Так можно?

ziemin ★★
(23.08.15 22:12:00 MSK)

Ссылка

perl -MEncode -Xlne '$w{ lc decode_utf8 s/[,.?!]//r }++ for split; END{ print "$_ $w{$_}" for keys %w }'

Deleted
(23.08.15 23:09:38 MSK)

Ссылка

С поддержкой морфологии? Для какого языка?

anonymous
(24.08.15 04:50:47 MSK)

Всё не то. Нужна утилита, которая после анализа файла выдаёт список всех употреблённых слов и их количество. Каждое слово отдельно нет смысла искать, тексты могут быть размером в несколько мегабайт.

IPR ★★★★★
(24.08.15 09:53:49 MSK) автор топика

Ответ на: комментарий от anonymous 24.08.15 04:50:47 MSK

Просто считать и отдавать слова в порядке от наибольшего к наименьшему.

IPR ★★★★★
(24.08.15 09:54:34 MSK) автор топика

Ссылка

... | sed 's/\W\+/\n/g' | awk '{h[$0]++}; END {for (k in h) print h[k], "<===", k}' | sort -k1n

anonymous
(24.08.15 10:16:55 MSK)

Ссылка

Ответ на: комментарий от IPR 24.08.15 09:53:49 MSK

      1 анализа
      1 быть
      1 в
      1 всех
      1 Всё
      1 выдаёт
      1 и
      1 искать,
      1 их
      1 Каждое
      1 количество.
      1 которая
      1 мегабайт.
      1 могут
      1 не
      1 несколько
      1 нет
      1 Нужна
      1 отдельно
      1 после
      1 размером
      1 слов
      1 слово
      1 смысла
      1 список
      1 тексты
      1 то.
      1 употреблённых
      1 утилита,
      1 файла

anonymous
(24.08.15 23:50:21 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Сортировка внутри файла по количеству слов в линии

General

вывод значения заданного проперти →

Похожие темы