LINUX.ORG.RU

wc ж, не?

upd: похоже что не всегда, значит смесь из sed «s/ /\n/» , sort и uniq -c

anTaRes ★★★★ ()
Последнее исправление: anTaRes (всего исправлений: 1)

unixway, ёпт:

tr ' ' '\n' | sort -u | wc -l

ziemin ★★ ()
Ответ на: комментарий от ziemin

sort -u

sort |uniq

cat отсутствует. на троечку

anonymous ()
perl -MEncode -Xlne '$w{ lc decode_utf8 s/[,.?!]//r }++ for split; END{ print "$_ $w{$_}" for keys %w }'
chinarulezz ★★★★★ ()

С поддержкой морфологии? Для какого языка?

anonymous ()

Всё не то. Нужна утилита, которая после анализа файла выдаёт список всех употреблённых слов и их количество. Каждое слово отдельно нет смысла искать, тексты могут быть размером в несколько мегабайт.

IPR ★★★★★ ()
Ответ на: комментарий от anonymous

Просто считать и отдавать слова в порядке от наибольшего к наименьшему.

IPR ★★★★★ ()
... | sed 's/\W\+/\n/g' | awk '{h[$0]++}; END {for (k in h) print h[k], "<===", k}' | sort -k1n
anonymous ()
Ответ на: комментарий от IPR
      1 анализа
      1 быть
      1 в
      1 всех
      1 Всё
      1 выдаёт
      1 и
      1 искать,
      1 их
      1 Каждое
      1 количество.
      1 которая
      1 мегабайт.
      1 могут
      1 не
      1 несколько
      1 нет
      1 Нужна
      1 отдельно
      1 после
      1 размером
      1 слов
      1 слово
      1 смысла
      1 список
      1 тексты
      1 то.
      1 употреблённых
      1 утилита,
      1 файла
anonymous ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.