LINUX.ORG.RU

Вышла FreeLing 3.1

 ,


4

3

Сегодня вышла в свет новая версия библиотеки для препроцессинга текстов (natural language processing) — FreeLing 3.1.

Основные изменения относительно предыдущей версии:

  • Потокобезопасность (можно запускать параллельно обработчики для нескольких языков).
  • Расширенное API.
  • Исправление\поиск похожих слов.
  • Регулярные выражения теперь из boost`a, (boost::regex, boost::xpressive) на выбор.
  • Поддержка новых языков (французский, чешский, словенский).
  • Упрощенная инсталляция и сборка.
  • Документация дополнена примерами.

Основные возможности FreeLing:

  • Разметка текста (токенизация).
  • Выделение предложений.
  • Морфологический анализ.
  • Определение составных слов.
  • Вероятностное определение части речи неизвестного слова (hmm tagger).
  • Обнаружение и определение именной группы.
  • Классификация именной группы.
  • Построение дерева зависимостей (слов в предложении).
  • Определение местоимений (местоименных словоформ).
  • Нормализация и определение дат, чисел, процентных соотношений, валюты и физических величин (скорость, вес, температура, плотность и т.д.).
  • Определение части речи (вероятностное).

Библиотека написана на С++, доступны обертки под Java, Python, Perl, Php, Ruby. Так же в пакете содержатся клиент-серверные примеры для обеспечения распараллеливания тяжелых задач на несколько машин. Лицензия GPL.

>>> ссылка на оф. сайт



Проверено: Shaman007 ()

Добавь описание библиотеки, а из заголовка убери.

unfo ★★★★★ ()

Интересная штука. Надо будет попробовать.

pi11 ★★★★★ ()

спасибо, это интересно

cvv ★★★★★ ()

Вероятностное определение части речи неизвестного слова (hmm tagger).

Определение части речи (вероятностное).

There can be only one!

muon ★★★ ()

Стоит отметить, что библиотека лицензирована под GPLv3 и при необходимости допускает покупку коммерческой версии.

Правда, механизм продаж совсем неясен и непрозрачен. В идеале, вывесить бы ценник и условия на сайте, было бы супер.

eveel ★★ ()
Ответ на: комментарий от muon

There can be only one!

И да, и нет. Судя по оригинальной странице, перевод этих пунктов можно несколько улучшить.

Вероятностное определение части речи одного неизвестного слова — это одна задача («Probabilistic prediction of unknown word categories»).

Разметка частей речи в тексте при помощи скрытых Марковских моделей — другая («PoS tagging»).

eveel ★★ ()

Надо для Ъ в новости ещё написать, что библиотека понимает русский язык (и насколько хорошо)

Indaril_Shpritz ()

библиотеки для препроцессинга текстов

Вот это переведено очень плохо. Правильно: библиотеки для автоматической обработки текста.

eveel ★★ ()
Ответ на: комментарий от eveel

Не, так не интересно. Надо же перевести с английского на английский только транслитируем. Так веселей)

ihappy ()

Нужны ли новости о том, чего нет в Википедии? Если нет в Википедии, значит топик не значим.

Virus ()
Ответ на: комментарий от Virus

почему именно некая «википедия»? почему не УК РФ или воинский устав?

anonymous ()
Ответ на: комментарий от anonymous

У Википедии есть чёткие критерии нужности/ненужности.

Virus ()
Ответ на: комментарий от anonymous

Ответ на комментарий KRoN73:

Интересно, снимал ассистент или он так точно сам после замены пластинок садился? :)

Автоспуск может? Кстати, пластина была одна, просто она сдвигалась. На одну пластину делалось три кадра через разные светофильтры (из Википедии).

anonymous ()

Шаман, слава твоя, конечно, достигает NGC1637, но все же сделай меня развидеть эту ХЕРЬ: «офф. сайт»

d_Artagnan ★★ ()

Requirements
Enough hard disk space (1.3 Gb for source and compilation files, plus 600Mb for final installation)

и это еще без словарей?

d_Artagnan ★★ ()

Интересно, а есть какие-то cli утилиты на ее основе?

Indexator ★★★ ()
Ответ на: комментарий от Indexator

только те что в /bin и то они сделаны больше для демонстрации некоторых возможностей, это библиотека и она расчитана больше на разработчиков.

zstan ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.