[нужен скрипт] подсчет количества слов

0

2

помогите, в скриптах не сильно селен, есть подозрение что в awk это будет сделано в 2 команды, ну всеже:

ест текстовый файл (несколько слов в одной строке, а строк много), нужно скормить его скрипту, чтобы он вывел в виде таблицы слово - количество вхождений

///Упс, немного забыл, строка может содержат группу символов, «&&», так вот, считать слова можно только в тех строки что их содержат, и только после последнего вхождения && в строку

///знаки препинания перед подсчетом надо заменить наверное на пробдеы, чтобы не вносили «погрешность», ну или добавть аргументы к sed ))

/// да еше, прописные буквы заменить на строчные, перед подсчетом

для чего нужно (чтобы понять постановку задачи)

задача проста, есть файлы СУБТИТРОВ, на инглише, пытаюсь смотреть с ними, так вот, чтобы не сильно часто ерзать в словарь (конешно да я понимаю что значение слова зависит от контекста) - перед просмотром, хочу получить список вхождения слов, но отсортированный и без дубликатов, чтобы ВНЕЗАПНО не уловить сюжет

Ссылка

← [CentOs] VPS Оперативка

[openntpd] Проблема →

man uniq

soomrack ★★★★★
(24.12.11 22:05:00 MSK)

Ответ на: комментарий от soomrack 24.12.11 22:05:00 MSK

ну вообще, в одной строке может быть несколько слов

Windos7
(24.12.11 22:08:01 MSK) автор топика

Ответ на: комментарий от Windos7 24.12.11 22:08:01 MSK

$ echo может быть несколько слов |sed -r 's/[[:space:]]+/\n/g'
может
быть
несколько
слов

~~uzbl~~ ★
(24.12.11 22:10:46 MSK)

Ответ на: комментарий от uzbl 24.12.11 22:10:46 MSK

а прикрутить подсчет?

Windos7
(24.12.11 22:15:42 MSK) автор топика

Вариант:

#!/bin/awk -f

BEGIN {
  FS = "[^А-Яа-я]+"
}
{
  for( i = 1; i <= NF; i++ )
    table[$i]++
}
END {
  delete table[""]
  for (w in table )
    print table[w], w
}

Подходит?

~~OldFatMan~~ ☆
(24.12.11 22:18:40 MSK)

Ответ на: комментарий от Windos7 24.12.11 22:15:42 MSK

cat «file.txt» | sed -r 's/[[:space:]]+/\n/g' | uniq -icu
например так

marvin_yorke ★★★
(24.12.11 22:20:23 MSK)

Ответ на: комментарий от marvin_yorke 24.12.11 22:20:23 MSK

-icd то есть

marvin_yorke ★★★
(24.12.11 22:21:11 MSK)

Ссылка

Ответ на: комментарий от OldFatMan 24.12.11 22:18:40 MSK

Дополнение

Пардон, это у меня скриптик для обработки исключительно русскоязычных текстов был. Для универсальности можно разделители записать, как

FS = «[^A-Za-zА-Яа-я]+»

Тогда и не только русские слова считаться будут.

~~OldFatMan~~ ☆
(24.12.11 22:31:14 MSK)

Ссылка

какое ещё слово? о_О

последовательность символов, разделённых пробелами? другими разделителями, типа точки, запятой итп? слова только латиницей? минус (дефис) входит в слово? переносы учитывать? или любой язык? азиатские языки тоже на слова парсить?

arsi ★★★★★
(24.12.11 22:34:09 MSK)

Ответ на: комментарий от arsi 24.12.11 22:34:09 MSK

слова - латиница/кирилица, считать можно только в тех строках что содержат символы «&&», и только после последнего их вхождения,

да, про знаки припоминания не подумал, знаки припоминания по идее просто заменить, на пробелы перед подсчетом, чтобы не вносили дисболанс

Windos7
(24.12.11 22:36:49 MSK) автор топика

Ответ на: комментарий от arsi 24.12.11 22:34:09 MSK

если б он сформулировал задачу так, он бы и решение написал без тебя

anonymous
(24.12.11 22:37:34 MSK)

Ответ на: комментарий от Windos7 24.12.11 22:36:49 MSK

%$#&@, чтоб я ещё кому что-нибудь стал подсказывать до тех пор, пока условие задачи не будет полностью сформулировано!!!... ;)

«В правильно сформулированном вопросе содержится больше половины ответа» (с)

~~OldFatMan~~ ☆
(24.12.11 22:41:37 MSK)

Ответ на: комментарий от anonymous 24.12.11 22:37:34 MSK

> если б он сформулировал задачу так, он бы и решение написал без тебя

конечно, ведь в правильно сформулированной задаче содержится овер 95% ответа на неё ;)

arsi ★★★★★
(24.12.11 22:44:58 MSK)

Ответ на: комментарий от OldFatMan 24.12.11 22:41:37 MSK

да ладно Вам,

уже почти работает

cat test | sed -r 's/[[:space:],.]+/\n/g' | sort | uniq -c

осталось «прикрутить», чтобы работало, только после «определенных» символов, допустим после «&&»

Windos7
(24.12.11 22:48:04 MSK) автор топика

Ответ на: комментарий от arsi 24.12.11 22:44:58 MSK

ок!

Windos7
(24.12.11 22:52:09 MSK) автор топика

Ответ на: ок! от Windos7 24.12.11 22:52:09 MSK

выложи уже пример файла и не имей людям мозг

silw ★★★★★
(24.12.11 22:54:56 MSK)

Ссылка

Ответ на: комментарий от Windos7 24.12.11 22:48:04 MSK

примерно так:

perl -ne '/[^\s,.]+/&&++$t{$_}}{print"$_\t$t{$_}\n"for keys%t'

// не проверял (страшно!) :)

arsi ★★★★★
(24.12.11 22:55:23 MSK)

Ответ на: комментарий от Windos7 24.12.11 22:48:04 MSK

Наверное, что-то вроде:
... |sed -rn '/.+&&(.+)/{s//\1/;s/[[:space:][:punct:]]+/\n/g;p}'

~~uzbl~~ ★
(24.12.11 22:57:26 MSK)

Ответ на: комментарий от arsi 24.12.11 22:55:23 MSK

хотфикс: в первом случае не $t{$_} а $t{$&}.

arsi ★★★★★
(24.12.11 22:59:24 MSK)

Ответ на: комментарий от arsi 24.12.11 22:55:23 MSK

блин… в смысле…

perl -ne '(split"&&")[-1]=~/[^\s,.]+/&&++$t{$&}}{print"$_\t$t{$_}\n"for keys%t'

зы: что ещё за «0x1 is not a legal XML character» и почему оно кушает мои «$&»? >_<"

arsi ★★★★★
(24.12.11 23:09:22 MSK)

Ссылка

Ответ на: комментарий от arsi 24.12.11 22:59:24 MSK

(страшно!)
хотфикс: в первом случае
блин… в смысле…

Сферический разработчик на PERL™ в вакууме.

anonymous
(24.12.11 23:10:01 MSK)

Ссылка

$ wc --help | wc -w

anTaRes ★★★★
(24.12.11 23:16:46 MSK)

Ответ на: комментарий от anTaRes 24.12.11 23:16:46 MSK

а, ну да никак не могу заставить себя читать еще и постановку задачи а не только заголовок
ответ на «[нужен скрипт] подсчет количества уникальных слов» был бы другой :)

anTaRes ★★★★
(24.12.11 23:27:12 MSK)

Ответ на: комментарий от anTaRes 24.12.11 23:27:12 MSK

таки wc + предфильтрация sed.

~~drBatty~~ ★★
(24.12.11 23:40:52 MSK)

Ссылка

grep -wio 'word' file.txt | wc -l

alius-miles
(25.12.11 03:07:04 MSK)

Ссылка

нужно скормить его скрипту, чтобы он вывел в виде таблицы слово - количество вхождений

ответ:

 #!/bin/bash
 # Usage: wordcount.sh file_with_word_list file_with_text

 for word in `cat $1`
 do 
      echo $word': '`grep -wio "$word" "$2" | wc -l`
  done

alius-miles
(25.12.11 04:37:23 MSK)