LINUX.ORG.RU

Ищу Java-библиотеку для склонения ФИО по правилам русского языка

 , ,


1

3

Есть необходимость из Java-кода склонять российскомовные ФИО по падежам. На вход подаётся фамилия, имя, отчество, возможно пол (если нет - надо угадать по известным составляющим имени) и падеж, на выходе - ФИО в падеже.

Пытался найти живую Java-библиотеку для этого, но пока находятся странные вещи:

  • padeg - некрофильский порт библиотеки с Delphi

    http://habrahabr.ru/post/161335/

    В maven-central нет, исходников - тоже нет.

    В декомпилированном коде нашёл, что она срёт в статические ThreadLocal и не чистит, а значит при использовании в контейнере сервлетов при каждом редеплое возможна утечка памяти.

  • petrovich-java - порт более-менее живой одноимённой Ruby-библиотеки

    https://github.com/petrovich/petrovich-java

    В maven-central тоже нет, но хотя бы есть исходники. Похоже, что этот порт давно не обновляли и, что он разошёлся с оригиналом на Ruby по возможностям.

    Не умеет детектить пол по частям ФИО, но это, наверное, не большая беда.

Спросил ещё знакомого, работавшего над одним из крупных онлайн-банков: у них были свои самописные костыли. У меня на велосипеды времени нет.

Кто что использовал для подобных задач?


у меня на велосипед потребовалось пара часов - накидал каркас склонялки и парсер правил, затем нашел на работе сотрудницу у которой была пятерка по русскому - и она заполнила правила за полдня, и всего то задача

ps угадывание пола не делал, позже прикрутил проект морфологического анализа с гуглокода (https://code.google.com/p/russianmorphology/) для этого

Deleted
()
Последнее исправление: Deleted (всего исправлений: 2)

«Уважаемая Метра Метры Метроевна!..

stevejobs ★★★★☆
()

Заиспользовал богомерзкий порт с Delphi в итоге - так было проще и быстрее.

migesok
() автор топика
Ответ на: комментарий от heilkitty

Обрабатывал в своей жизни кучу списков. Отчества довольно часто нет у татар (даже в паспорте), оно может оканчиваться на "-оглы" для мужского рода и "-кызы" для женского, еще бывают по 4 составляющих (например Ин Ку Ен Хва).

Надеюсь ТСу не будет попадаться такая экзотика.

tlx ★★★★★
()

Я бы рекомендовал не склонять если можно не склонять. Пожалей людей с «нестандартными» фамилиями.

true_admin ★★★★★
()

еще раз padeg.dll :-)

если кому-то нужен упомянутый сервис готов довести его до ума, пишите seer.true@gmail.com

anonymous
()
Ответ на: про Padeg от anonymous

Рекомендую почитать описание

Суровый энтерпрайз. Не думал, что либа на столько крута.

tlx ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.