100 Гб литературы для частотного анализа русского языка

1

0

Здравствуйте!
Взбрела мне тут в голову идея произвести по словный частотный анализ русского языка.
К счастью для этого имелся образ библиотеки Мошкова (4 Гб текстов).
Написал скрипт, который заносит информацию о частоте встреч пяти-словных фраз..
При этом оказалось, что ни одна пятисловная фраза вовсе не повторилась. Куда более интересный результат дал анализ 4-х словных фраз. 10 самых часто встречающихся 4-х словных выражений это:

1) В то время как
2) Дело в том что
3) Несмотря на то что
4) С тех пор как
5) В то же время
6) До тех пор пока
7) И в самом деле
8) До сих пор не
9) В том числе и
10) Одно и то же

Хе.. :-) Думаю такие результаты никого не удивили... В действительности, это самые общие выражения, которые могут применяться абсолютно во всех текстах самого разнообразного характера.

Однако, для получения более интересных результатов материала для анализа явно маловато. Слов, которые встретились в базе данных более 100 раз оказалось всего лишь 3362. Таким образом число встреч даже двусловных сочетаний не самых распространённых слов при таком раскладе в базе данных чаще всего окажется равным 1-2 штуки.
Надо проанализировать эдак раз в 100 поболее материала.

Вопрос в том где можно было бы набрать столько литературы на русском языке? И желательно в zip-архивах. Потому что 100 Гб мне явно не в жизни не выкачать.. А 10 Гб архивов мне кажется будет вполне достаточно..

Ссылка

← [опрос] Есть ли на лоре Эмо или Готы?

ICQ →

Я делал подобную штуку для поисковых запросов, там все интереснее и печальнее. Из библиотеки мошкова лучше отдельно проанализируй классиков и современных "авторов", и раздел "дамские романы". Будет интересно.

100 гигов тебе не нужно.

soomrack ★★★★★
(15.06.08 19:25:48 MSK)

Ссылка

> 100 Гб мне явно не в жизни не выкачать.. А 10 Гб архивов мне кажется будет вполне достаточно..

То есть ты согласен потратить чуть более, чем десятую часть своей оставшейся жизни на выкачивание архивов? Мой тебе совет: переезжай в Москву. Или к Мише в Латвию.

anonymous
(15.06.08 19:28:08 MSK)

Дело в том что, в то время как, несмотря на то, что с тех пор как, в то же время, до тех пор пока (в том числе , и в самом деле), одно и то же до сих пор не БАЯН!

lester_dev ★★★★★
(15.06.08 19:31:55 MSK)

Ссылка

Ответ на: комментарий от anonymous 15.06.08 19:28:08 MSK

> То есть ты согласен потратить чуть более, чем десятую часть своей оставшейся жизни на выкачивание архивов? Мой тебе совет: переезжай в Москву. Или к Мише в Латвию.

Да, 10 Гб выкачаем.. Даже если другого выхода не найдётся, за 2 месяца можно и из дома выкачать :-)

unDEFER ★★★★★
(15.06.08 19:32:09 MSK) автор топика

Нафига оно надо тебе? Ты лучше давай ТОП 1000 слов =)

~~FiXer~~ ★★☆☆☆
(15.06.08 19:34:21 MSK)

Ответ на: комментарий от anonymous 15.06.08 19:28:08 MSK

>То есть ты согласен потратить чуть более, чем десятую часть своей >оставшейся жизни на выкачивание архивов? Мой тебе совет: переезжай в >Москву. Или к Мише в Латвию.

как-то натыкался на сервис, который за небольшие $ скачивает и рассылает файлы на dvd, так что необязательно

anonymous
(15.06.08 19:35:52 MSK)

Ссылка

Ответ на: комментарий от unDEFER 15.06.08 19:32:09 MSK

> Даже если другого выхода не найдётся, за 2 месяца можно и из дома выкачать :-)

Т.е. ты опасаешься, что 20 месяцев, которые заняло бы скавичание 100 ГБ, ты можешь не прожить?

anonymous
(15.06.08 19:40:22 MSK)

Ответ на: комментарий от FiXer 15.06.08 19:34:21 MSK

Частотный анализ слов не так увлекателен. Если интересует, то загляните сюда:
http://www.artint.ru/projects/frqlist.asp

Мне интересен именно частотный анализ фраз...

unDEFER ★★★★★
(15.06.08 19:40:46 MSK) автор топика

Ответ на: комментарий от anonymous 15.06.08 19:40:22 MSK

> Т.е. ты опасаешься, что 20 месяцев, которые заняло бы скавичание 100 ГБ, ты можешь не прожить?

На 1,5 года у меня терпения точно не хватит ждать...

unDEFER ★★★★★
(15.06.08 19:42:00 MSK) автор топика

Ссылка

недавно еще гугл звастался несколько терабайтной базой словосочетаний из 5 слов...

soomrack ★★★★★
(15.06.08 19:44:10 MSK)

Ссылка

Ответ на: комментарий от unDEFER 15.06.08 19:40:46 MSK

Ой там зипы, лень качать диалапом. Сенкс за ссылки!

~~FiXer~~ ★★☆☆☆
(15.06.08 19:57:32 MSK)

Ссылка

А ты не пробовал определить ВАЛЕНТНОСТЬ слов? Например с какими дополнениями сочетаются глаголы? Ответ предполагается получить в виде глагол = предлог+падеж, предлог+падеж и т.п. Например для тысячи самых частотных глаголов? Мне кажется, что где-то рядом лежит очень интересное лингвистическое открытие.

Beria1937
(15.06.08 20:09:46 MSK)

Ответ на: комментарий от Beria1937 15.06.08 20:09:46 MSK

Для такого анализа тоже совершенно наверняка не достаточно проанализированного материала.
Я пробовал определить наиболее часто встречаемые словосочетания с конкретным словом.
Вот, например, двусловные сочетания, в которых вторым словом является "телевизор":
1) Смотрел телевизор (7 встреч в БД)
2) В телевизор (6 встреч)
3) И телевизор (4 встречи)
4) Цветной телевизор (2 встречи)

Всего 77 разных словосочетаний, но когда большинство из них встречаются по одному разу не о каких "наиболее часто встречающихся" фразах говорить не приходится...

unDEFER ★★★★★
(15.06.08 20:24:10 MSK) автор топика

Ответ на: комментарий от Beria1937 15.06.08 20:09:46 MSK

О, надо же! Интересы объединяют...
Был очень приятно удивлён, увидев в вашем профиле URL на проект "Правда". Когда-то я переписывался по этому поводу с самим Дмитрием Анисимовым.
Расскажите, пожалуйста, развивается ли "Правда"?

unDEFER ★★★★★
(15.06.08 20:34:30 MSK) автор топика

Ответ на: комментарий от unDEFER 15.06.08 20:24:10 MSK

100 Гб литературы, да примерно по мегабайту на книжку — это сто тысяч наименований книг. Меня терзают смутные сомнения, что в электронном виде на русском языке столько не найдется.

abraziv_whiskey ★★★★★
(15.06.08 21:21:09 MSK)

Ответ на: комментарий от abraziv_whiskey 15.06.08 21:21:09 MSK

На litportal.ru 2,8 Гб zip архивов (15 Гб в html)..
Да, уж не плохо.. но всё равно маловато..

unDEFER ★★★★★
(15.06.08 21:37:58 MSK) автор топика

У нас некогда продавались три-четыре дивидишника с литературой (на каждом авторы на определённые несколько букв), так что я бы не побрезговал пробежаться по рынкам пиратских дисков.

anonymous
(15.06.08 22:05:11 MSK)

Ссылка

>Вопрос в том где можно было бы набрать столько литературы на русском языке

кивипедию в .7z? или не наберётся объём?

anonymous
(15.06.08 22:20:08 MSK)

Ссылка

Ответ на: комментарий от unDEFER 15.06.08 20:34:30 MSK

> Был очень приятно удивлён, увидев в вашем профиле URL на проект "Правда". Когда-то я переписывался по этому поводу с самим Дмитрием Анисимовым. Расскажите, пожалуйста, развивается ли "Правда"?

Давай, пиши на prawda@newmail.ru . Димитрий Анисимов и Beria1937 - один персонаж. И не называй меня "самим" Дмитрием Анисимовым. Линукс - это коммунизм. А при коммунизме все равны. И я тоже :-)))

Мне пришлось сменить работу. По-этому проект развивается МЕДЛЕННО. Но про валентность я не зря спросил. Это то, что может дать большой шаг вперед. И все-таки задействовать для перевода что-то похожее на нейронные сети. Которые я отрицал все семь лет жизни проекта :-)))

Beria1937
(15.06.08 22:49:54 MSK)

Ссылка

Ответ на: комментарий от unDEFER 15.06.08 21:37:58 MSK

на torrents.ru архив lib.aldebaran - 5.7Гб в fb2.zip
хз сколько это получается всего, но прилично )

hizel ★★★★★
(15.06.08 22:53:35 MSK)

Ссылка

Сочинения Ленина?

cvs-255 ★★★★★
(15.06.08 23:17:48 MSK)

Ссылка

Ответ на: комментарий от unDEFER 15.06.08 19:40:46 MSK

>Мне интересен именно частотный анализ фраз...

Вводишь в поиск "фразеологический словарь .zip" и скачиваешь архивированный "концентрат" типичных выражений русского языка.

quickquest ★★★★★
(15.06.08 23:54:46 MSK)

Ссылка

ИЗВИНЯЮСЬ, ПЕРЕД МНОГЧИСЛЕННОЙ АУДИТОРИЕЙ LOR.
В мой скрипт закралась ошибка.. Из-за этого вообще говоря большая часть текстов вовсе не была учтена. И поэтому и скрипт слишком быстро отработал..
Запустил заново.. Потом сообщу о новых результатах...
Но пожалуй 5 Гб текстов всё же хватит с головой...

unDEFER ★★★★★
(16.06.08 01:13:04 MSK) автор топика

Ответ на: комментарий от unDEFER 16.06.08 01:13:04 MSK

Интересная тема.
Я тоже переписывался с Димой и тоже пробовал анализировать библиотеку Мошкова.
Тебе на какую почту/jabber можно отписать?

anonymous
(16.06.08 14:37:47 MSK)

Ответ на: комментарий от anonymous 16.06.08 14:37:47 MSK

> Тебе на какую почту/jabber можно отписать?

Я -- есть unDEFER на gmail.com и jabber.org

unDEFER ★★★★★
(16.06.08 18:02:01 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← [опрос] Есть ли на лоре Эмо или Готы?

Talks

ICQ →

Похожие темы