LINUX.ORG.RU

Обновилась OpenSource библиотека FreeLing

 ,


7

6

Наконец-то вышла OpenSource-библиотека для обработки текста FreeLing 3.0. Основные возможности FreeLing:

  • разметка текста (токенизация);
  • выделение предложений;
  • морфологический анализ;
  • определение составных слов;
  • вероятностное определение части речи неизвестного слова (hmm tagger);
  • обнаружение и определение именной группы;
  • классификация именной группы;
  • построение дерева зависимостей (слов в предложении);
  • определение местоимений (местоименных словоформ);
  • нормализация и определение дат, чисел, процентных соотношений, валюты и физических величин (скорость, вес, температура, плотность и т. д.);
  • определение части речи (вероятностное).

>>> FreeLing homepage



Проверено: tazhate ()

Чрезвычайно интересно. Какие языки поддерживает?

Jaga ★★★ ()
Ответ на: комментарий от Jaga

The English dictionary was automatically extracted from WSJ and other corpuses, with accurate manual post-edition and completion. It contains about 70,000 forms corresponding to some 90,000 different combinations lemma-PoS.

The Catalan dictionary contains more than 640,000 forms corresponding to 71,000 combinations lemma-PoS.

The Spanish dictionary contains over 550,000 forms corresponding to more than 76.000 lemma-PoS combinations.

The Portuguese dictionary contains some 908,000 forms corresponding to 105,000 lemma-PoS combinations.

The Italian dictionary contains over 355,000 forms corresponding to over 36,000 lemma-PoS combinations.

The Russian dictionary contains over 1,760,000 forms corresponding to near 500,000 lemma-PoS combinations.

The Galician dictionary contains some 430,000 forms, corresponding to near 50,000 lemma-PoS combinations.

The Asturian dictionary contains some 140,000 forms, corresponding to near 50,000 lemma-PoS combinations.

The Welsh dictionary contains some 345,000 forms, corresponding to near 20,000 lemma-PoS combinations.

Jaga ★★★ ()
Ответ на: комментарий от Jaga

в русском уже больше, инфу не успели обновить, я собсна его дополнял.

zstan ()

искал такой набор фич для китайского языка , в нём пробелов между словами нет. пока нашёл только токенизацию.

Voviandr ()

Ого! Интересная библиотека - спасибо за новость.

alex-w ★★★★★ ()
Ответ на: комментарий от Dark_SavanT

твою “ридну мову“ судя по всему нет.

интересно, на перле ли ето. и вообще тема актуальная, позволяет косячить с набором при поиске в гугле. да и для роботов в синтезе речи. была такая тема типа говорящий Путин.

anonymous ()

Наконец-то вышла...

Джва года хочу!

nlp

Neuro-linguistic programming? :)

cruxish ★★★★ ()

Библиотека для какого языка программирования? Перечислите.
Так и пишите, что C++

Bad_ptr ★★★★ ()

А можно поподробнее рассказать про библиотеку? Она где-нибудь используется? Есть уже спеллчекер, который пунктуацию умеет?

GArik ★★★ ()
Ответ на: комментарий от GArik

спеллчекера нет, в процессе разработки, есть определения языка, таггер, правда корпус, на котором он был натренирован в процессе чистки, но довольно большой, 22Gb данных, не помню сколько предложений. Хотя точность по тестам составляет 96-97% с предложениями типа : «косой косой косил косой» у него все еще проблеммы. Кста демо версия еще вертится на старой либе, со дня на день обновят ..

zstan ()

Спасибо за новость. Знающие люди, а можете пожалуйста просвятить какие ещё есть хорошие NLP библиотеки общего назначения и сильно ли они отстают от проприетарных?

vovic ()

Уже много лет существует подобная разработка Российская - http://www.aot.ru правда OpenSource там только библиотеки

anonymous ()
Ответ на: комментарий от Jaga

Ну вот, даже эсперанто нет. А ведь он проще всего, могли бы с него и начать.

vurdalak ★★★★★ ()

Главная проблема FreeLing — лицензия GPL. Очень жаль, что эти люди губят свой продукт, кастрируя его и делая невозможным создать что-нибудь полезное на его основе.

eveel ★★ ()
Ответ на: комментарий от Jaga

Русский язык понимает, но пока на достаточно зачаточном уровне. Поддержка касается токенизации, морфологической разметки, базовых методов выделения именованных сущностей: дат и именных групп.

eveel ★★ ()
Ответ на: комментарий от eveel

Само наличие такой библиотеки и в полностью бесплатном доступе это уже большая удача. В целом по русскому языку очень мало библиотек, даже коммерческих. А тут вполне достаточная точность и с исходниками. Кто занимается процессингом языка оценит, а GPL для сервисов (а чаще всего такие задачи в сервисах и возникают) не проблема.

zbyte ()
Ответ на: комментарий от Dark_SavanT

ФриЛинг это в первую очередь фреймворк куда можно добавлять языки. И русский туда был добавлен так как «самим нужен был».

Т.е. если есть задача, то можно добавить любой язык и достаточно быстро.

zbyte ()
Ответ на: комментарий от zbyte

Само наличие такой библиотеки и в полностью бесплатном доступе это уже большая удача.

Это действительно неплохо, но такая лицензия лишает библиотеку всякого смысла, кроме академического. Прикладное ПО под GPL — окей, а вот библиотеку — зря.

eveel ★★ ()

годнота. и разрабатывать подобные библиотеки это вам не очередные говнодистры собирать. здесь думать надо.

anonymous ()
Ответ на: комментарий от eveel

Очень жаль, что эти люди губят мой продукт, кастрируя его и делая невозможным срубить на них бабла по-бырому.

Поправил, не благодари.

LamerOk ★★★★★ ()
Ответ на: комментарий от LamerOk

Поправил, не благодари.

Фанатиков не благодарят.

eveel ★★ ()
Ответ на: комментарий от eveel

Почему лишает? Ты можешь что угодно писать, просто продать не сможешь. Они обезопасили себя от тех, кто захочет присвоить их труд ради наживы.

vurdalak ★★★★★ ()

Хорошо справляется с фразами вроде «I helped my uncle Jack up the horse» vs «I helped my uncle jack up the horse».

amix ★★★ ()
Ответ на: комментарий от vurdalak

Почему лишает?

Вот по этому:

Они обезопасили себя от тех, кто захочет присвоить их труд ради наживы.

и лишает.

K.O.

LamerOk ★★★★★ ()
Ответ на: комментарий от eveel

Прикладное ПО под GPL — окей

На самом деле даже прикладное ПО под GPL не шибко OK. Я как-то захотел взять код одной функции и запилить его в свой LGPL продукт... Ой.

По мне так лицензия должна быть LGPL на любой код. Ну, а библиотека под GPL - это совсем бесполезно.

x_hash ()
Ответ на: комментарий от vurdalak

Почему лишает? Ты можешь что угодно писать, просто продать не сможешь. Они обезопасили себя от тех, кто захочет присвоить их труд ради наживы.

И давно GPL не разрешает продавать ?

Kaschenko ()
Ответ на: комментарий от eveel

Главная проблема FreeLing — лицензия GPL.

У тебя проблема с мозгами.

Deleted ()
Ответ на: комментарий от x_hash

По мне так лицензия должна быть LGPL на любой код.

Ты на полпути к выздоровлению. Ещё немного и поймёшь, что BSD тебя ничего не лишает.

rusty_angel ()
Ответ на: комментарий от rusty_angel

Ещё немного и поймёшь, что BSD тебя ничего не лишает.

о да, бесплатно вкалывать на проприерастов это большая честь.

Deleted ()

Это просто здорово. Не знал о такой штуке. Спасибо за новость.

Anatolik ★★ ()
Ответ на: комментарий от eveel

Для тебя полезное и проприетарное - синонимы?

Хотя соглашусь, что для такого класса программ LGPL выглядело бы логичнее.

hobbit ★★★★★ ()
Ответ на: комментарий от eveel

Главная проблема FreeLing — лицензия GPL. Очень жаль, что эти люди губят свой продукт, кастрируя его и делая невозможным создать что-нибудь полезное на его основе.

Удваиваю. Мне бы не помешала подобная либа, но GPL не дружит с BSD.

FeyFre ★★★★ ()
Ответ на: комментарий от Kaschenko

И давно GPL не разрешает продавать ?

Да. С рождения.

FeyFre ★★★★ ()

GUI

Эту библиотеку как вообще использовать нормальному пользователю?

Для неё есть GUI? Гугл вообще молчит, как партизан :(

acukac ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.