LINUX.ORG.RU

Обучаемая NER модель для русских

 , , , ,


1

3

Доброго времени суток. Нужно получить определенные сущности из текста на русском. Какую библиотеку посоветуете? Помимо стандартных сущностей вроде имени есть и специфические, поэтому нужна возможность обучить модель. Можно предлагать варианты, где обучение требуется с нуля. Знаком с несколькими библиотеками для решения этой задачи, но не могу определиться, какая будет наиболее подходящей. Не хочется тащить в проект монстра, от которого я буду использовать лишь сотую часть.


На сколько я знаю, тут не очень много нужных тебе специалистов, поэтому иди в #nlp канал в слаке ods.ai

ymn ★★★★★ ()
Последнее исправление: ymn (всего исправлений: 1)

Попробуй начать со Standford NER, хоть и монструозно, но работу делает и на проде крутится.

Кроме того, есть модный spacy.io.

anonymous ()

С какими «несколькими» библиотеками ты знаком? Чем они больше-меньше тебе подходят? Какие именно тебе сущности нужно парсить?

С NER сложно попасть прямо в цель, как и в большинстве случаев - берешь более-менее стабильное и допиливаешь под себя.

anonymous ()
Ответ на: комментарий от menangen

На факультет киберспорта? Но ботом на выходе будешь ты сам :-)

Deleted ()
Ответ на: комментарий от anonymous

А spacy не монструозный?

По поводу Stanford NER, разработчики сами пишут, что для кастомного обучения это не годится

Rot1 ()
Ответ на: комментарий от anonymous

С какими «несколькими» библиотеками ты знаком?

sklearn-crfsuite, Rasa, MITIE, spacy, flair

Знаком очень поверхностно. Поэтому и спрашиваю, на чем остановиться.

Какие именно тебе сущности нужно парсить?

Название дисциплины в университете, например

Rot1 ()

качественно размеченный датасет, Elmo эмбеддинги, bilstm как baseline. На medium куча примеров на keras

anonymous ()
Ответ на: комментарий от Rot1

Spacy имхо норм, API тоже приятное.

Хз что там пишут разработчики Standford NER, но он работает неплохо и достаточно давно развивается, поэтому собственно его и взяли на прод.

anonymous ()
Ответ на: комментарий от Rot1

У тебя названий дисциплин в универе так дофига?

Имхо ты микроскопом гвозди собрался забивать, тут просто регулярками будет и быстрее и точнее решить.

Если еще и расписание по определенному формату (скорее всего так), то еще проще.

NER тут совсем не нужен.

anonymous ()
Ответ на: комментарий от Rot1

заявки руками разбирают чтобы совсем уж тупых HR'ов отсеивать, иногда народ недели по 2 ждет

ei-grad ★★★★★ ()
Ответ на: комментарий от Rot1

Natasha — библиотека для поиска и извлечения именованных сущностей (Named-entity recognition) из текстов на русском языке. В библиотеке собраны грамматики и словари для парсера Yargy.

Как писать свои парсеры описано тут - https://yargy.readthedocs.io/ru/latest/

Какие ещё доки тебе нужны?

ei-grad ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.