LINUX.ORG.RU

Обучаемая NER модель для русских

 , , , ,


1

3

Доброго времени суток. Нужно получить определенные сущности из текста на русском. Какую библиотеку посоветуете? Помимо стандартных сущностей вроде имени есть и специфические, поэтому нужна возможность обучить модель. Можно предлагать варианты, где обучение требуется с нуля. Знаком с несколькими библиотеками для решения этой задачи, но не могу определиться, какая будет наиболее подходящей. Не хочется тащить в проект монстра, от которого я буду использовать лишь сотую часть.


С какими «несколькими» библиотеками ты знаком? Чем они больше-меньше тебе подходят? Какие именно тебе сущности нужно парсить?

С NER сложно попасть прямо в цель, как и в большинстве случаев - берешь более-менее стабильное и допиливаешь под себя.

anonymous ()
Ответ на: комментарий от anonymous

С какими «несколькими» библиотеками ты знаком?

sklearn-crfsuite, Rasa, MITIE, spacy, flair

Знаком очень поверхностно. Поэтому и спрашиваю, на чем остановиться.

Какие именно тебе сущности нужно парсить?

Название дисциплины в университете, например

Rot1 ()
Ответ на: комментарий от Rot1

Spacy имхо норм, API тоже приятное.

Хз что там пишут разработчики Standford NER, но он работает неплохо и достаточно давно развивается, поэтому собственно его и взяли на прод.

anonymous ()
Ответ на: комментарий от Rot1

У тебя названий дисциплин в универе так дофига?

Имхо ты микроскопом гвозди собрался забивать, тут просто регулярками будет и быстрее и точнее решить.

Если еще и расписание по определенному формату (скорее всего так), то еще проще.

NER тут совсем не нужен.

anonymous ()
Ответ на: комментарий от Rot1

Natasha — библиотека для поиска и извлечения именованных сущностей (Named-entity recognition) из текстов на русском языке. В библиотеке собраны грамматики и словари для парсера Yargy.

Как писать свои парсеры описано тут - https://yargy.readthedocs.io/ru/latest/

Какие ещё доки тебе нужны?

ei-grad ★★★★★ ()