Прошло уже более 20 лет с момента создания этой темы - Дополнение к LOR FAQ
хватит терпеть неавтоматизированность этой проверки.
Искины предлагают такое:
- использовать лексические базы данных, такие как WordNet (то есть, словари), эти базы должны содержать информацию о части речи;
- использовать морфологические анализаторы, такие как pymorphy2 или Natasha;
- обучить модель машинного обучения на размеченных данных;
- использовать шаблоны и правила, основанные на суффиксах и префиксах, которые часто встречаются в глаголах (но это ненадёжный метод);
Библиотека pymorphy2 написана на python и её будет сложно засунуть в проект на Java, похожий на LOR.
Natasha тоже.
Умеет ли WordNet в русский язык? RuWordNet
Как им пользоваться - вообще неясно, потому что он непубличный:
«Для некоммерческого использования можно получить xml-файлы с данными тезауруса RuWordNet. Для получения файлов обращайтесь по адресу louk_nat@mail.ru.»
Допустим, что в качестве словаря можно скачать викисловарь
<generator>MediaWiki 1.44.0-wmf.25</generator>
что можно дальше сделать на основе этого?
Можно сделать другой, более компактный XML-файл, в котором останутся только глаголы (возможно связанные между собой, там же есть таблицы для форм глаголов и гиперссылки).
Это станет тем самым «размеченным корпусом», на котором надо тренировать нейросеть модель машинного обучения?
Как нейросеть сформирует правила?
Кроме самого слова можно ещё использовать его контекст или контексты, для увеличения вероятности правильного распознавания части речи и выявления факта отношения слова к глаголам. Что-нибудь можно сделать, и что именно?