LINUX.ORG.RU

Сообщения vertinsky

 

Набор библиотек для обработки естественного языка

Привет. Хочу поделится с сообществом двумя библиотеками, которые я разрабатываю в свободное время.

Yargy - GLR-парсер, аналог Томита-парсера от Яндекса, только на питоне, без протобафа и всего такого. При разборе используются все варианты слов (омонимия не снимается) выданные pymorphy2. В качестве примера можно посмотреть грамматику, которая извлекает название улицы и номер дома по заданным правилам (в данном случае: слово улица (во всех формах), набор слов в винительном падеже (кого/чего?), и число).

В дополнение к парсеру, существует набор частоиспользуемых грамматик для извлечения именованных сущностей. В списке извлекаемых сущностей: физ. лица (ФИО, в разных вариантах), юр. лица (ПАО «Газпром»), денежные единицы (семьдесят пять тысяч рублей) и несколько других.

Можно поиграться с ним онлайн, без смс.

Всё это распространяется бесплатно и без каких-либо ограничений, под лицензией MIT.

 ,

vertinsky
()

RSS подписка на новые темы