Сегодня вышла в свет новая версия библиотеки для препроцессинга текстов (natural language processing) — FreeLing 3.1.
Основные изменения относительно предыдущей версии:
- Потокобезопасность (можно запускать параллельно обработчики для нескольких языков).
 - Расширенное API.
 - Исправление\поиск похожих слов.
 - Регулярные выражения теперь из boost`a, (boost::regex, boost::xpressive) на выбор.
 - Поддержка новых языков (французский, чешский, словенский).
 - Упрощенная инсталляция и сборка.
 - Документация дополнена примерами.
 
Основные возможности FreeLing:
- Разметка текста (токенизация).
 - Выделение предложений.
 - Морфологический анализ.
 - Определение составных слов.
 - Вероятностное определение части речи неизвестного слова (hmm tagger).
 - Обнаружение и определение именной группы.
 - Классификация именной группы.
 - Построение дерева зависимостей (слов в предложении).
 - Определение местоимений (местоименных словоформ).
 - Нормализация и определение дат, чисел, процентных соотношений, валюты и физических величин (скорость, вес, температура, плотность и т.д.).
 - Определение части речи (вероятностное).
 
Библиотека написана на С++, доступны обертки под Java, Python, Perl, Php, Ruby. Так же в пакете содержатся клиент-серверные примеры для обеспечения распараллеливания тяжелых задач на несколько машин. Лицензия GPL.









