LINUX.ORG.RU

Алгоритм определения частей речи и стеммер для русского языка

 , , ,


2

3

Посоветуйте сабж. Нужно определять, какой частью речи является слово в русском тексте и стеммить его (или, как вариант, лемматизировать до нормальной формы). Желательно, чтобы причастия и деепричастия нормализовались в ту же форму, что и глаголы (stem(стремиться) == stem(стремясь)). Ну и чтобы алгоритм определения части речи был без адских хаков, но давал приемлемую точность.

думаю, что стеммер можно подглядеть в elasticsearch

dave ★★★★★ ()
Ответ на: комментарий от anonymous

Если нужно потрахаться, то можно взять АОТ. Но я не уверен, что именно это нужно топикстартеру.

ant ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.