LINUX.ORG.RU

Программы морфологического / графематического / синтаксического / постморфологического анализа


1

0

19 декабря вышли новые релизы указанных программ:

Программа морфологического анализа
http://aot.ru/download/lemmatizer.tar.gz

Описание:
http://aot.ru/docs/sokirko/Dialog2004...
http://aot.ru/docs/morph.html

Графематический модуль
http://aot.ru/download/graphan.tar.gz

Описание:
http://aot.ru/docs/graphan.html
http://aot.ru/docs/Graphan/index.html

Синтаксический и постморфологический модули для русского языка
http://aot.ru/download/synan.tar.gz

Описание:
http://aot.ru/docs/Synan/index.html

Все программы требуют словари
http://aot.ru/download.php#DictSources

Лицензия - LGPL
Платформа - Линукс

>>> Подробности

Ни а силил новости :-(

SKEW
()

Зачем надо было такой длинный заголовок без пробелов набирать? Вы кому навредить хотели мне или ЛОР-у?

Rodegast ★★★★★
()

Попробовал их он-лайновый переводчик.
Даю фразу:
---
Где-то я это уже видел, только вот не могу вспомнить, где.
---

Получаю:
---
I this have already somewhere seen me only here can not remember where.
---

Это что? Даже на подстрочник не тянет. Ужас.

anonymous
()
Ответ на: комментарий от Freek

http://www.aot.ru/onlinedemo.html

Онлайн-демо.
Морфология - проверь, как изменяется по лицам или числам заданное слово.
Для русского, англ, нем яз.

Скольким пользователям на ЛОР-е такая вещь будет жизненно необходимо?

GotDotNetMono
() автор топика
Ответ на: комментарий от anonymous

> такие тулзы были хорошие -- нет, ща все закрыли нахрен.

Что закрыли, по теме вроде как раз качать можно, причём под LGPL.

anonymous_incognito ★★★★★
()

Теперь мы знаем, какие программы рекомендовать Санычу! Кстати, как там слово "линукс" записано?

gaa ★★
()
Ответ на: комментарий от GotDotNetMono

> Старая сборка, проведенная одним из сотрудником Alt Linux:

Которая ещё и не работает за отсутствием группы файлов. Кою, впрочем, удалось восстановить и таки собрать это чудо. Пользоваться не так, чтобы очень удобно, но лучшего и забесплатно встречать пока не довелось :o(

philon
()
Ответ на: комментарий от GotDotNetMono

> Somewhere I already saw it, only here I can not recollect, where.
С некоторыми оговорками, пойдёт (слово "вот" его сбило немного).
ПО сравнению с безсмысленным набором
слов у АОТ, это просто отличный перевод. :)

anonymous
()
Ответ на: комментарий от gaa

СУЩЕСТВИТЕЛЬНОЕ мр,
ед
ЛИНУКС им
ЛИНУКСА рд
ЛИНУКСУ дт
ЛИНУКС вн
ЛИНУКСОМ тв
ЛИНУКСЕ пр
мн
ЛИНУКСЫ им
ЛИНУКСОВ рд
ЛИНУКСАМ дт
ЛИНУКСЫ вн
ЛИНУКСАМИ тв
ЛИНУКСАХ пр

GotDotNetMono
() автор топика
Ответ на: комментарий от gaa

СУЩЕСТВИТЕЛЬНОЕ мр,
ед
ЛОРОВЕЦ им
ЛОРОВЦА рд
ЛОРОВЦУ дт
ЛОРОВЦА вн
ЛОРОВЦЕМ тв
ЛОРОВЦЕ пр
мн
ЛОРОВЦЫ им
ЛОРОВЦЕВ рд
ЛОРОВЦАМ дт
ЛОРОВЦЕВ вн
ЛОРОВЦАМИ тв
ЛОРОВЦАХ пр

GotDotNetMono
() автор топика

Новости - сто лет в обед.

Все исходники были доступны еще в 2004 году.Как говорится, "а мужики-то и не знают". Для FreeBSD порт доступен с 26 May 2005, а для Debian - с конца 2006 года. И все работает без проблем.

stellar
()
Ответ на: комментарий от GotDotNetMono

ед
КАПЕЦВЕНД им
КАПЕЦВЕНДА рд
КАПЕЦВЕНДУ дт
КАПЕЦВЕНД вн
КАПЕЦВЕНДОМ тв
КАПЕЦВЕНДЕ пр
мн
КАПЕЦВЕНДЫ им
КАПЕЦВЕНДОВ рд
КАПЕЦВЕНДАМ дт
КАПЕЦВЕНДЫ вн
КАПЕЦВЕНДАМИ тв
КАПЕЦВЕНДАХ пр

ero-sennin ★★
()
Ответ на: комментарий от stellar

> для Debian - с конца 2006 года. И все работает без проблем.

Опа! А можно ссылку на пакет для Debian где всё работает?

philon
()
Ответ на: комментарий от philon

К сожалению, вся информация - на работе. Могу поискать завтра, если это действительно необходимо.

stellar
()

Когда-то давным-давно жили-были старик со старухой и не было у них ни детей, ни внуков.

Результат(АОТ):

Once, langsyne zhit'-byt' old with beldam, and had they children grandsons.

Результат(Гугл транслейт):

A long zhili-byli old man with staruhoy and they have not been any children or grandchildren.

SoulStealer
()
Ответ на: комментарий от SoulStealer

Да ладно вам. AOT это не переводчик (где действительно проще к google translate обращаться), но морфо- и син- анализатор. Вопрос -- видели ли вы подобные анализаторы забесплатно где ещё? Разве что mystem от Яндекса, но он функционально зело более убогий (да и без исходников).

philon
()
Ответ на: комментарий от GotDotNetMono

> Скольким пользователям на ЛОР-е такая вещь будет жизненно необходимо?

Это необходимо при разработке более-менее грамотной поисковой системы. Но быдломонокодерам этого не понять =)

boombick ★★★★★
()
Ответ на: комментарий от GotDotNetMono

> СУЩЕСТВИТЕЛЬНОЕ мр,
> ед
> ЛИНУКС им

Саныч, ау!

gaa ★★
()

Уау, какой аффтар умный, я даже так не мог и написать, что уж там про выговорить...

AntiWindows
()
Ответ на: комментарий от boombick

От тульских мастеров-самоучек слышу.

Я знаю что это такое и для чего это нужно.

Кстати в Promt и Abbyy морфологический модуль лучше справлялся с добавлением незнакомых слов. Указав часть речи они практически безошибочно определяли словоизменение.

У этого - неправильно определяется часть речи, а если и оперделял, то отказывается изменять слово.

GotDotNetMono
() автор топика
Ответ на: комментарий от GotDotNetMono

Собственно это - самое главное качество морфологической системы.

Уберите словарь - что тогда будет? Со словарем и тупой может просклонят/проспрягать.

А вот без словаря - хрена лысого. А русский язык очень богат на самодельные слова.

GotDotNetMono
() автор топика
Ответ на: комментарий от GotDotNetMono

Примеры неправильного оперделения:

паскалист
линуксоид - неправильно определил Винительный падеж
пригородов - не распознал варианта Фамилия, хотя Пригородовым - ОК.

Для сравнения поставьте последнюю демку FineReader.
Там есть интерфейс к морфологическому модулю.

GotDotNetMono
() автор топика
Ответ на: комментарий от GotDotNetMono

>Формат архива

Зип и нет проблем

>символ конца строки

лишних 2 строчки кода...

> кодировка

юникод наше всё :)

nu11 ★★★★★
()
Ответ на: комментарий от GotDotNetMono

> Самый лучший онлайн-переводчик - www.translate.ru
и чем лучше?

> Где-то я это уже видел, только вот не могу вспомнить, где.
перевод
> Somewhere I already saw it, only here I can not recollect, where.

ilnurathome
()

Found Dict ID Lemma Grammems - но, ПОШЕЛ Я КАК ТО ДОМОЙ И ПРИШОЛ ДОМОЙ С ср,жр,мр,пр,тв,вн,дт,рд,им,ед,мн, НЕУБИВАЙМЕНЯ

anonymous
()
Ответ на: комментарий от GotDotNetMono

а если ОНА, ЛОРОВКА, ЛОРОВНИЦА или ЛОРЧАНКА?

anonymous
()
Ответ на: комментарий от SoulStealer

> Once, langsyne zhit'-byt' old with beldam, and had they children grandsons.

А если туда-сюда пару раз попереводить? =)

anonymous
()
Ответ на: комментарий от boombick

>> Скольким пользователям на ЛОР-е такая вещь будет жизненно необходимо?

>Это необходимо при разработке более-менее грамотной поисковой системы.

Или тузегов^W бредогенераторов похожих на человеческое. Кстати, надо упячку просколнять.

anonymous
()
Ответ на: комментарий от boombick

> Это необходимо при разработке более-менее грамотной поисковой системы

Ну, положим для поиска достаточно выделения основы, что умеет также и snowball, и stemka (если из открытых). Вот для чего-то более интересного, навроде извлечения фактов из текста - да, очень нужно.

anonymous
()
Ответ на: комментарий от Evgueni

> Слишком много слэнга (или бакаф :) ) Из этого можно получить словарь для ispell лучше Лебедевского?

Не знаю. В общем, как я понимаю, сабж нужен для построения своих программ, умеющих работать с естественным текстом несколько на более продвинутом уровне, чем искать что-то регэкспами.

anonymous_incognito ★★★★★
()
Ответ на: комментарий от Evgueni

> А можно ликбез по теме? Что это? Для чего это? Для кого это?

Указанные инструменты служат для: а) разметки текста признаками слов (часть речи, род, число, падеж и т.д.); б) получения парадигм слов (т.е. для каждого слова можем получить все словоформы); в) синтаксический анализ текста (выделение подлежащих, сказуемых и т.д.)

Для кого? Для разработчиков ПО, которое обрабатывает тексты на естественных языках. Например, поисковые системы (хотя для них достаточно выделения основ у слов, так что АОТ не очень нужен), системы автоматической классификации текстов, системы извлечения фактов из текста, системы машинного перевода и т.д.

anonymous
()
Ответ на: комментарий от Evgueni

> Из этого можно получить словарь для ispell лучше Лебедевского?

Зависит от качества словаря АОТ. Я не проводил сравнения, но есть подозрение, что у АОТа сейчас словарь получше.

anonymous
()
Ответ на: комментарий от Evgueni

Кстати, если интересно, то тут: http://mathlingvo.ru/nlpseminar есть видео двух докладов про извлечение фактов из текста. В первой системе используется AGFL для синтаксического разбора, а во второй - АОТ, насколько я помню.

anonymous
()

кажется это можно будет допилисть и заюзать в боте... спасибо за ссылки.

AiFiLTr0 ★★★★★
()

это та самая морфология, которая считает, что "стек" и "стекло" имеют одинаковый корень?

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.