LINUX.ORG.RU
ФорумTalks

Открытый почти-семантический корпус русских текстов

 


0

1

Для одного наколенного проекта мне понадобилась база текстов, размеченных смысловыми словами. Тобеш для каждого текста указывается, какие слова из этого текста его семантически характеризуют и являются в нем “главными”. Никаких отношений и связей, просто смысловые токены. найти ничего готового не смог, так что за вечер набросал удобный интерфейс (предлагает рандомный текст из базы имеющихся, понимает морфологию, автоматом выделяет для выбранного слова другие словоформы этого слова). Сели с друзьями под пивко, разметили две сотни текстов. Для начала мне хватит, но хотелось бы больше.
Возникла мысля - выкатить интерфейс в открытый доступ, исходники, простой апи для доступа к размеченной базе. С одной стороны я не жадный, вдруг кому оно нужно. С другой - хотелось бы, чтобы добровольцы также внесли свою лепту.

Что скажете господа и дамы, нужно кому такое? Будет ли кто участвовать? Я впринципе готов потратить время и сервер на этот проект, если сообщество заинтересуется...

Ответ на: комментарий от srj

ну этот корпус (как и ruscorpora.ru) я использую для других нужд много лет. но где там искомое?

genryRar ★★
() автор топика
Ответ на: комментарий от srj

Там про другое. Но попиарить Открытый Корпус не лишне, нужное дело.

ТС, кажется, хочет чего-то странного^Wспецифичного

MrClon ★★★★★
()

я не жадный, вдруг кому оно нужно

Хочешь очередную «поисковую систему» создать? Вангую, что скоро их надо будет регистрировать в очередном Интернет-надзоре.

pacify ★★★★★
()
Ответ на: комментарий от pacify

Одна поисковая система уже послала наши надзоры, так что те теперь ищут способ мелко подгадить в ответ. Надо перенимать опыт.

Sadler ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.