Алгоритм определения частей речи и стеммер для русского языка

mystem, nlp, алгоритмы, морфология

2

3

Посоветуйте сабж. Нужно определять, какой частью речи является слово в русском тексте и стеммить его (или, как вариант, лемматизировать до нормальной формы). Желательно, чтобы причастия и деепричастия нормализовались в ту же форму, что и глаголы (stem(стремиться) == stem(стремясь)). Ну и чтобы алгоритм определения части речи был без адских хаков, но давал приемлемую точность.

Ссылка

← Qt5 OpenGL примеры.

Словарь алгоритмов и структур данных от NIST →

Интересно, надо посмотреть: http://pymorphy2.readthedocs.io/en/latest/internals/dict.html

leakyleaf
(21.10.16 09:03:50 MSK) автор топика

Ссылка

думаю, что стеммер можно подглядеть в elasticsearch

~~dave~~ ★★★★★
(21.10.16 09:22:15 MSK)

Ссылка

Для начала:

https://www.elastic.co/guide/en/elasticsearch/guide/2.x/choosing-a-stemmer.html

~~dave~~ ★★★★★
(21.10.16 09:25:56 MSK)
Последнее исправление: dave 21.10.16 09:26:34 MSK (всего исправлений: 1)

Ссылка

Взять яндексовый mystem. Он умеет все, что тебе нужно, кроме стемминга.

ant ★
(21.10.16 12:37:05 MSK)

Ответ на: комментарий от ant 21.10.16 12:37:05 MSK

Проприетарное нерасширяемое говно.

anonymous
(21.10.16 15:05:13 MSK)

Ответ на: комментарий от anonymous 21.10.16 15:05:13 MSK

Если нужно потрахаться, то можно взять АОТ. Но я не уверен, что именно это нужно топикстартеру.

ant ★
(24.10.16 14:33:40 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Qt5 OpenGL примеры.

Словарь алгоритмов и структур данных от NIST →