LINUX.ORG.RU
решено ФорумTalks

Где б взять текстов?

 


0

1

sup /talks/ Для одной задачи неплохо бы заиметь здоровый кусок текстов на русском (по крайней мере поначалу - наличие отсутствия специализированных терминов не будет критично) без разметки (голый текст, да) с минимальным числом очепяток. Ну то есть - ясен пень, можно склеить кучу литературы, но может есть готовые подборки?

Энциклопедии, Словари (Даль, Ожегов) - должно быть не трудно достать

bvn13 ★★★★★ ()
Ответ на: комментарий от Unununij

В принципе, наклеить туда объемных произведений - вариант, да.

alex4321 ()

Полно книг в txt же было раньше. Пропали?

sehellion ★★★★★ ()
Ответ на: комментарий от sehellion

Да то верно - просто в валявшемся на харде запас не устроил (хотя, вангую - я уже слишком строг к своему велосипеду), вот и подумал - может нашлась бы готовая склейка.

alex4321 ()

На рутрекере библиотека Мошкова в plain text есть. Если надо больше, то флибусту можно найти на просторах, но там уже fb2.

JackOfShadows ()

Дампы библиотек есть, в том числе, в txt. Я для английского такой на 10 ГБ вытягивал. Правда, затем пришлось это дело парсить и выкидывать всякие лицензии, оглавления и т.п.

Кстати, предложенную выше Войну и мир не советую, там французского столько же, сколько русского. Также из библиотек лучше выкидывать всякие словари и т.п., в которых есть своя собственная внутренняя разметка.

Sadler ★★★ ()
Последнее исправление: Sadler (всего исправлений: 1)

ищи Донцову, Машкову и таких-же - они дамские романы/детективы клепают со скоростью превосходящей твои возможности по анализу. Зато словарь минимален :-)

MKuznetsov ★★★★★ ()
Ответ на: комментарий от MKuznetsov

«ищи Донцову, Машкову и таких-же» Оно парсить успевать не будет. «Зато словарь минимален» И этим оно и хреново - думаю, не будет соблюден баланс между ненужностью всего специализированного и всяким общим. Впрочем, кажется и так сгенерировал более чем достаточный для начала набор данных.

alex4321 ()

Так в plain text куча форматов спокойно конвертируется: html, chm, doc/docx, epub, lit, odt, pdb, pdf, ppt. ps, rtf, tex,... и т.д. И даже из djvu можно выдирать текстовый слой. И это всё без OCR'а.

saahriktu ★★★★★ ()
Ответ на: комментарий от saahriktu

Да в общем-то даже не в конвертации (пока речь не о ocr или отсутствии готового конвертера) дело, а в охвате. Пока решил для себя склейкой нескольких словарей.

alex4321 ()
Ответ на: комментарий от sehellion

Полно книг в txt же было раньше. Пропали?

lib.ru емнип сливает просто .txt

Stil ★★★★★ ()

Лучше бери весь русскоязычный интернет и построй грамматику на его основе. На книжные правила забей.

Esteban_Garcia ()
Ответ на: комментарий от Unununij

«Войну и мир» возьми.

Там же половина на французском =)

DELIRIUM ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.