LINUX.ORG.RU

Обновилась OpenSource библиотека FreeLing

 freeling,


7

6

Наконец-то вышла OpenSource-библиотека для обработки текста FreeLing 3.0. Основные возможности FreeLing:

  • разметка текста (токенизация);
  • выделение предложений;
  • морфологический анализ;
  • определение составных слов;
  • вероятностное определение части речи неизвестного слова (hmm tagger);
  • обнаружение и определение именной группы;
  • классификация именной группы;
  • построение дерева зависимостей (слов в предложении);
  • определение местоимений (местоименных словоформ);
  • нормализация и определение дат, чисел, процентных соотношений, валюты и физических величин (скорость, вес, температура, плотность и т. д.);
  • определение части речи (вероятностное).

>>> FreeLing homepage



Проверено: tazhate ()

Ответ на: комментарий от Jaga

The English dictionary was automatically extracted from WSJ and other corpuses, with accurate manual post-edition and completion. It contains about 70,000 forms corresponding to some 90,000 different combinations lemma-PoS.

The Catalan dictionary contains more than 640,000 forms corresponding to 71,000 combinations lemma-PoS.

The Spanish dictionary contains over 550,000 forms corresponding to more than 76.000 lemma-PoS combinations.

The Portuguese dictionary contains some 908,000 forms corresponding to 105,000 lemma-PoS combinations.

The Italian dictionary contains over 355,000 forms corresponding to over 36,000 lemma-PoS combinations.

The Russian dictionary contains over 1,760,000 forms corresponding to near 500,000 lemma-PoS combinations.

The Galician dictionary contains some 430,000 forms, corresponding to near 50,000 lemma-PoS combinations.

The Asturian dictionary contains some 140,000 forms, corresponding to near 50,000 lemma-PoS combinations.

The Welsh dictionary contains some 345,000 forms, corresponding to near 20,000 lemma-PoS combinations.

Jaga ★★★
()
Ответ на: комментарий от Jaga

в русском уже больше, инфу не успели обновить, я собсна его дополнял.

zstan
() автор топика

искал такой набор фич для китайского языка , в нём пробелов между словами нет. пока нашёл только токенизацию.

Voviandr
()

Ого! Интересная библиотека - спасибо за новость.

alex-w ★★★★★
()
Ответ на: комментарий от Dark_SavanT

твою “ридну мову“ судя по всему нет.

интересно, на перле ли ето. и вообще тема актуальная, позволяет косячить с набором при поиске в гугле. да и для роботов в синтезе речи. была такая тема типа говорящий Путин.

anonymous
()

Библиотека для какого языка программирования? Перечислите.
Так и пишите, что C++

Bad_ptr ★★★★★
()
Ответ на: комментарий от Bad_ptr

там обертки для JAVA\Python\PHP и хорошо работают.

zstan
() автор топика

А можно поподробнее рассказать про библиотеку? Она где-нибудь используется? Есть уже спеллчекер, который пунктуацию умеет?

GArik ★★★
()
Ответ на: комментарий от GArik

спеллчекера нет, в процессе разработки, есть определения языка, таггер, правда корпус, на котором он был натренирован в процессе чистки, но довольно большой, 22Gb данных, не помню сколько предложений. Хотя точность по тестам составляет 96-97% с предложениями типа : «косой косой косил косой» у него все еще проблеммы. Кста демо версия еще вертится на старой либе, со дня на день обновят ..

zstan
() автор топика

Спасибо за новость. Знающие люди, а можете пожалуйста просвятить какие ещё есть хорошие NLP библиотеки общего назначения и сильно ли они отстают от проприетарных?

vovic
()
Ответ на: комментарий от Jaga

Ну вот, даже эсперанто нет. А ведь он проще всего, могли бы с него и начать.

vurdalak ★★★★★
()

Главная проблема FreeLing — лицензия GPL. Очень жаль, что эти люди губят свой продукт, кастрируя его и делая невозможным создать что-нибудь полезное на его основе.

eveel ★★
()
Ответ на: комментарий от Jaga

Русский язык понимает, но пока на достаточно зачаточном уровне. Поддержка касается токенизации, морфологической разметки, базовых методов выделения именованных сущностей: дат и именных групп.

eveel ★★
()
Ответ на: комментарий от eveel

Само наличие такой библиотеки и в полностью бесплатном доступе это уже большая удача. В целом по русскому языку очень мало библиотек, даже коммерческих. А тут вполне достаточная точность и с исходниками. Кто занимается процессингом языка оценит, а GPL для сервисов (а чаще всего такие задачи в сервисах и возникают) не проблема.

zbyte
()
Ответ на: комментарий от Dark_SavanT

ФриЛинг это в первую очередь фреймворк куда можно добавлять языки. И русский туда был добавлен так как «самим нужен был».

Т.е. если есть задача, то можно добавить любой язык и достаточно быстро.

zbyte
()
Ответ на: комментарий от zbyte

Само наличие такой библиотеки и в полностью бесплатном доступе это уже большая удача.

Это действительно неплохо, но такая лицензия лишает библиотеку всякого смысла, кроме академического. Прикладное ПО под GPL — окей, а вот библиотеку — зря.

eveel ★★
()

годнота. и разрабатывать подобные библиотеки это вам не очередные говнодистры собирать. здесь думать надо.

anonymous
()
Ответ на: комментарий от eveel

Очень жаль, что эти люди губят мой продукт, кастрируя его и делая невозможным срубить на них бабла по-бырому.

Поправил, не благодари.

LamerOk ★★★★★
()
Ответ на: комментарий от LamerOk

Поправил, не благодари.

Фанатиков не благодарят.

eveel ★★
()
Ответ на: комментарий от eveel

Почему лишает? Ты можешь что угодно писать, просто продать не сможешь. Они обезопасили себя от тех, кто захочет присвоить их труд ради наживы.

vurdalak ★★★★★
()

Хорошо справляется с фразами вроде «I helped my uncle Jack up the horse» vs «I helped my uncle jack up the horse».

amix ★★★
()
Ответ на: комментарий от vurdalak

Почему лишает?

Вот по этому:

Они обезопасили себя от тех, кто захочет присвоить их труд ради наживы.

и лишает.

K.O.

LamerOk ★★★★★
()
Ответ на: комментарий от eveel

Прикладное ПО под GPL — окей

На самом деле даже прикладное ПО под GPL не шибко OK. Я как-то захотел взять код одной функции и запилить его в свой LGPL продукт... Ой.

По мне так лицензия должна быть LGPL на любой код. Ну, а библиотека под GPL - это совсем бесполезно.

x_hash
()
Ответ на: комментарий от vurdalak

Почему лишает? Ты можешь что угодно писать, просто продать не сможешь. Они обезопасили себя от тех, кто захочет присвоить их труд ради наживы.

И давно GPL не разрешает продавать ?

Kaschenko
()
Ответ на: комментарий от Deleted

У тебя проблема с мозгами.

У тебя швабодка.

eveel ★★
()
Ответ на: комментарий от x_hash

По мне так лицензия должна быть LGPL на любой код.

Ты на полпути к выздоровлению. Ещё немного и поймёшь, что BSD тебя ничего не лишает.

rusty_angel
()
Ответ на: комментарий от rusty_angel

Ещё немного и поймёшь, что BSD тебя ничего не лишает.

о да, бесплатно вкалывать на проприерастов это большая честь.

Deleted
()

Это просто здорово. Не знал о такой штуке. Спасибо за новость.

Anatolik ★★
()
Ответ на: комментарий от eveel

Для тебя полезное и проприетарное - синонимы?

Хотя соглашусь, что для такого класса программ LGPL выглядело бы логичнее.

hobbit ★★★★★
()
Ответ на: комментарий от eveel

Главная проблема FreeLing — лицензия GPL. Очень жаль, что эти люди губят свой продукт, кастрируя его и делая невозможным создать что-нибудь полезное на его основе.

Удваиваю. Мне бы не помешала подобная либа, но GPL не дружит с BSD.

FeyFre ★★★★
()

GUI

Эту библиотеку как вообще использовать нормальному пользователю?

Для неё есть GUI? Гугл вообще молчит, как партизан :(

acukac
()
Ответ на: комментарий от anonymous

Да там даже морфология на онлайн демо корявая

malbolge ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.