LINUX.ORG.RU

Увидел свет Link Grammar Parser 5.3.1

 , ,


7

4

Двадцать второго ноября две тысячи пятнадцатого года увидел свет Link Grammar Parser 5.3.1.

Link Grammar Parser — это синтаксический анализатор английского, русского, арабского и персидского (и других языков). Создан на основе Link Grammar, оригинальной теории синтаксиса. Получив предложение, система присваивает ему синтаксическую структуру, которая состоит из набора меченых связей, соединяющих пары слов. Расширение RelEx предоставляет вывод разбора на основе зависимостей. Написан на Си. Имеются привязки к Java, Python, Common Lisp, Ocaml, Perl и AutoIt.

Link Grammar Parser применяется для проверки грамматики в AbiWord. Планируется его использование в Calligra Words.

Пример работы:

linkparser> Кот лежащий на столе может мурлыкать. 
No complete linkages found. 
linkparser> Кот, лежащий на столе, может мурлыкать. 
Found 26 linkages (16 had no P.P. violations)

Версия 5.3.1:

  • Исправлена возникающая при сборке ошибка, связанная с решателем задачи выполнимости булевых формул.

Версия 5.3.0:

  • Этот выпуск синтаксического анализатора содержит много важных изменений, главным из которых является полная переработка разбиения предложения на лексемы и морфологического анализа слов.
  • Другое важное изменение заключается в том, что привязки к Python полностью перепроектированы с нарушением обратной совместимости. Новые привязки к Python намного ближе к представлениям о процессе синтаксического анализа, которые следует привлекать при мышлении на абстрактном уровне.
  • Также были внесены различные исправления: решатель задачи выполнимости булевых формул больше не ограничен в функциональности. Была повышена производительность различными способами (в особенности это относится к длинным предложениям). Были осуществлены разнообразные исправления ошибок и чистки кода.

  • Подробно об изменениях:
    • Перепроектированы привязки к Python.
    • Перепроектировано разбиение предложений на лексемы (изменено устройство «wordgraph»)
    • Глагол «steal» теперь может считаться переходным.
    • Исправлены различные участки кода, приводящие к предупреждениям со стороны MSVC.
    • Расширен словарь иврита.
    • Улучшен вывод диаграмм, что даёт больше места для имён связей.
    • Выполнена небольшая работа над фонетическим согласованием форм неопределённого артикля в английском языке («a» или «an»).
    • Добавлена возможность отображения весов отдельных интерпретаций предложений в виде гистограммы.
    • Улучшена поддержка разбиения на предложения.
    • Настройка «islands_ok» изменена на true по умолчанию.
    • Улучшена производительность при анализе длинных предложений.
    • Исправлены аварийные остановы программы при повреждениях памяти при анализе длинных предложений.
    • Сбор и использование информации о морфологии теперь могут быть задействованы во время выполнения программы.
    • Удалён устаревший и не поддерживаемый более файл для сборки под MacOSX.
    • Внесены обширные обновления страницы руководства пользователя.
    • Исправлены аварийные остановы при анализе длинных предложений (баг №137).
    • Исправлена утечка памяти в языковых привязках (баг №138).
    • Удалена подозрительная API-функция для дополнительной обработки результатов работы анализатора.
    • Исправлена нарушенная ранее печать букв в определённые области.
    • Добавлена новая возможность регулярных выражений – отрицательные регулярные выражения.
    • Исправлена обработка основ слов с помощью не-LL связей.
    • Исправлены !!LEFT-WALL и !!RIGHT-WALL
    • Решатель задачи выполнимости булевых формул теперь будет статически прилинкован к анализатору.
    • Внесены различные улучшения и чистки кода в решатель задачи выполнимости булевых формул.
    • Улучшена производительность быстрой проверки на совпадения (на 15% быстрее при тестировании с помощью fixes.batch).

>>> Подробности



Проверено: maxcom ()

Отлично, но почему все изменения касаются английского языка?

weare ★★ ()
Ответ на: комментарий от weare

потому, что это наиболее активно используемый язык в мире?

Кстати спасибо, мне для фарси сойдет!

kep ()

А привязка к либреофису у него есть? На первый взгляд штука весьма полезная.

rmu ★★ ()

А есть какие-нибудь хорошие словари русского языка для hunspell или aspell для проверки орфографии?

Ато те, что устанавливаются по умолчанию, не сильно помогают.

trupanka ()

Было бы неплохо, если эта программа была бы в одном пакете с AbiWord. А то стандартные пакеты идут без неё, и собирать нужно только из исходников.

anonymous ()

Оружие массового поражения для Grammar Nazi

Sparx ★★ ()
Ответ на: комментарий от anonymous

А какую опцию нужно дать hunspell, чтобы «е» вместо «ё» не считалось ошибкой?

& тяжелую 5 3462: тяжёлую, тяжелю, утяжелю, тяжелею, тяжевую

trupanka ()
Ответ на: комментарий от anonymous

Утянул. Спасибо за повышение уровня образованности :).

dv76 ★★★ ()

Какого года? Зачем так делать, это же усложняет поиск.

cdshines ★★★★ ()
Ответ на: комментарий от trupanka

Ато

Тебе, голубчик, не словарь нужен, а учебник.

anonymous ()

Громарнацыке арбитальную гиперубивашку двошнеков допилиле штоль? пздрвляю этих пустых и косных охранеков лингво-извращенцев!)...

anonymous ()

Оно может из английских предложений извлекать существительные и глаголы, а также определять в каком они времени? Или для этого какие-то другие либы есть?

foror ★★★★ ()
Последнее исправление: foror (всего исправлений: 1)
Ответ на: комментарий от weare

Отлично, но почему все изменения касаются английского языка?

Отнюдь!

Расширен словарь иврита.

alix ★★★★ ()
Ответ на: комментарий от foror

Вот эта либа умеет определять часть речи, нормализировать и т.д. http://www.clips.ua.ac.be/pattern

Кроме английского, еще поддерживаются немецкий, испанский, нидерладский, французский, итальянский.

Я с помощью неё извлекал слова из книги, нормализовал и сортировал по frequency.

anonymous ()
Ответ на: комментарий от anonymous

Хрюкотающих зелюков умеет определять?

anonymous ()
Ответ на: комментарий от weare

Простите. Правильно по-русски: «А Вы, батенька, русофоб.»

anonymous ()

Я думаю, он сломается на конструкциях, столь любимых нашими малолетними <censored>. Например, «уметь в что-то».

JOKER ()

Grammar Nazi Summoner?

anonymous ()

Двадцать второго ноября две тысячи пятнадцатого года...

Школьник писал что ли? :) Мы так русский язык начинали - ох, сколько чернил зря потрачено! Вся взрослая жизнь держится НА ЦИФРАХ, никто их «две тысячи» не пишет.

matumba ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.