Обучаемая NER модель для русских

library, machine learning, python, recognition, искусственный интеллект

1

3

Доброго времени суток. Нужно получить определенные сущности из текста на русском. Какую библиотеку посоветуете? Помимо стандартных сущностей вроде имени есть и специфические, поэтому нужна возможность обучить модель. Можно предлагать варианты, где обучение требуется с нуля. Знаком с несколькими библиотеками для решения этой задачи, но не могу определиться, какая будет наиболее подходящей. Не хочется тащить в проект монстра, от которого я буду использовать лишь сотую часть.

Ссылка

← Проект Нейромодератор

Декомпилирование ELF 32-bit LSB файла. →

На сколько я знаю, тут не очень много нужных тебе специалистов, поэтому иди в #nlp канал в слаке ods.ai

ymn ★★★★★
(09.06.19 19:40:01 MSK)
Последнее исправление: ymn 09.06.19 19:40:10 MSK (всего исправлений: 1)

Ответ на: комментарий от ymn 09.06.19 19:40:01 MSK

А для тех, кто хочет писать умных ботов для игр на нейронках - куда идти? :-)

menangen ★★★★★
(09.06.19 22:59:17 MSK)

Ответ на: комментарий от menangen 09.06.19 22:59:17 MSK

На филфак?

Shadow ★★★★★
(09.06.19 23:16:51 MSK)

Ссылка

Попробуй начать со Standford NER, хоть и монструозно, но работу делает и на проде крутится.

Кроме того, есть модный spacy.io.

anonymous
(10.06.19 01:40:54 MSK)

С какими «несколькими» библиотеками ты знаком? Чем они больше-меньше тебе подходят? Какие именно тебе сущности нужно парсить?

С NER сложно попасть прямо в цель, как и в большинстве случаев - берешь более-менее стабильное и допиливаешь под себя.

anonymous
(10.06.19 01:58:10 MSK)

Ответ на: комментарий от menangen 09.06.19 22:59:17 MSK

На факультет киберспорта? Но ботом на выходе будешь ты сам :-)

Deleted
(10.06.19 07:29:59 MSK)

Ссылка

Ответ на: комментарий от ymn 09.06.19 19:40:01 MSK

Какое-то закрытое комьюнити. Туда еще попасть надо

Rot1 ★
(10.06.19 22:42:37 MSK) автор топика

Ответ на: комментарий от anonymous 10.06.19 01:40:54 MSK

А spacy не монструозный?

По поводу Stanford NER, разработчики сами пишут, что для кастомного обучения это не годится

Rot1 ★
(10.06.19 22:46:06 MSK) автор топика

Ответ на: комментарий от anonymous 10.06.19 01:58:10 MSK

С какими «несколькими» библиотеками ты знаком?

sklearn-crfsuite, Rasa, MITIE, spacy, flair

Знаком очень поверхностно. Поэтому и спрашиваю, на чем остановиться.

Какие именно тебе сущности нужно парсить?

Название дисциплины в университете, например

Rot1 ★
(10.06.19 22:51:15 MSK) автор топика

качественно размеченный датасет, Elmo эмбеддинги, bilstm как baseline. На medium куча примеров на keras

anonymous
(10.06.19 23:06:11 MSK)

Ссылка

Ответ на: комментарий от Rot1 10.06.19 22:46:06 MSK

Spacy имхо норм, API тоже приятное.

Хз что там пишут разработчики Standford NER, но он работает неплохо и достаточно давно развивается, поэтому собственно его и взяли на прод.

anonymous
(11.06.19 03:45:20 MSK)

Ссылка

Ответ на: комментарий от Rot1 10.06.19 22:51:15 MSK

У тебя названий дисциплин в универе так дофига?

Имхо ты микроскопом гвозди собрался забивать, тут просто регулярками будет и быстрее и точнее решить.

Если еще и расписание по определенному формату (скорее всего так), то еще проще.

NER тут совсем не нужен.

anonymous
(11.06.19 03:47:57 MSK)

Ссылка

Если нужно на русском, грязно и быстро, то попользуй Наташу (https://github.com/natasha/natasha).

anonymous
(11.06.19 04:10:49 MSK)

Ответ на: комментарий от anonymous 11.06.19 04:10:49 MSK

Наташа же не обучается? Мне кроме имени нужны более специфические сущности

Rot1 ★
(11.06.19 10:37:39 MSK) автор топика

Ответ на: комментарий от Rot1 11.06.19 10:37:39 MSK

Что значит не обучается?

Там кто-то код закрыл?

anonymous
(11.06.19 10:39:58 MSK)

Ответ на: комментарий от Rot1 10.06.19 22:42:37 MSK

Отправляешь заявку
заявку одобряют
???
PROFIT

ymn ★★★★★
(11.06.19 11:28:53 MSK)

Ответ на: комментарий от ymn 11.06.19 11:28:53 MSK

отправил заявку
ничего не происходит
???
FAILURE

Rot1 ★
(11.06.19 12:52:46 MSK) автор топика

Ответ на: комментарий от anonymous 11.06.19 10:39:58 MSK

Хотелось бы интерфейса, конечно. Или документации по этому поводу

Rot1 ★
(11.06.19 12:54:19 MSK) автор топика

Ответ на: комментарий от Rot1 11.06.19 12:52:46 MSK

заявки руками разбирают чтобы совсем уж тупых HR'ов отсеивать, иногда народ недели по 2 ждет

ei-grad ★★★★★
(11.06.19 14:38:04 MSK)

Ссылка

Ответ на: комментарий от Rot1 11.06.19 12:54:19 MSK

Natasha — библиотека для поиска и извлечения именованных сущностей (Named-entity recognition) из текстов на русском языке. В библиотеке собраны грамматики и словари для парсера Yargy.

Как писать свои парсеры описано тут - https://yargy.readthedocs.io/ru/latest/

Какие ещё доки тебе нужны?

ei-grad ★★★★★
(11.06.19 14:45:41 MSK)