LINUX.ORG.RU

Большой релиз LanguageTool 4.0

 , , , ,


2

2

LanguageTool — это свободная система для проверки грамматики, стиля, пунктуации и орфографии. LanguageTool может использоваться как независимое приложение или как расширение LibreOffice/OpenOffice. Созданы расширения для браузеров Mozilla Firefox, Google Chrome. Для мобильных устройств разработан сервис проверки грамматики и орфографии LanguageTool proofreader для Android.

В новой версии:

  • Обновлены модули проверки для английского, португальского, польского, немецкого, украинского, каталанского, французского, галисийского, нидерландского и русского языков.
  • Теперь программа работает и на Java 9, но рекомендуется для использования Java 8.
  • Создан модуль для сборки пакетов RPM с независимой версией.
  • Для английского, немецкого и португальского языков реализована новая языковая модель поиска пар похожих слов с использованием нейросети — word2vec. Использование этого метода для поиска пар похожих слов требует дополнительного файла word2vec.tar.gz для работы нейросети.
  • Добавлены новые правила поиска межъязыковых омонимов.

Изменения в русскоязычном модуле:

  • Созданы новые и улучшены существующие правила для проверки пунктуации и грамматики.
  • Добавлены новые слова для проверки орфографии в независимой версии.

>>> Подробности



Проверено: Shaman007 ()
Ответ на: комментарий от GanGSISoft

В этой версии её сильно поломали, много кто не смог запуститься на новой Java. Насколько я понял, виновата модульная система, но точнее не скажу, еще не разбирался. У меня самого разве что GXT отвалится.

А в остальном - когда добавляют новые фичи, понятное дело что могут происходить коллизии с существующим кодом в софте.

Починят потихоньку, все же там разница небольшая.

merhalak ★★★★ ()

Созданы расширения для браузеров Mozilla Firefox, Google Chrome.

Оно локально работает, или к сервису обращается? Вроде теперь аддонам проблематично работать с внешними процессами, разве-что на локалхосте сервис поднимать и по http к нему ходить

MrClon ★★★★★ ()
Ответ на: комментарий от MrClon

Браузерные дополнения общаются по http с сервисом на languagetool.org. При желании можно пропатчить дополнение, чтобы оно стучалось на localhost, но зачем? Приватность разве что.

simburde ()

Кто вы, люди, постящие и комментирующие новости 1 января? Понимаю, что оффтоп, но не смог удержаться. Я сейчас как аристократ дегенерат, допиваю шампанское.

utanho ()
Ответ на: комментарий от utanho

На этот раз не нашлось подходящей компании что-бы нажраться на НГ, ну а нажираться абы с кем или в одиночку… Да и вообще, нажраться можно и в любой другой день

MrClon ★★★★★ ()
Ответ на: комментарий от utanho

Кто вы, люди, постящие и комментирующие новости 1 января? Понимаю, что оффтоп, но не смог удержаться. Я сейчас как аристократ дегенерат, допиваю шампанское.

Лучше постить, чем пить!...

По теме: надеюсь, букву ё не выбросили из русского алфавита?

Erepb ()
Ответ на: комментарий от GanGSISoft

Полной обратной совместимости не бывает по определению. А в целом обратная совместимость у Java отличная, ничего патчить в 99% случаев не надо. 1% это когда программист зачем-то лезет в кишки виртуальной машины и завязывается на конкретных деталях реализации. Даже в этом случае чаще всего изменения абсолютно минимальные если вообще нужны.

Legioner ★★★★★ ()
Ответ на: комментарий от hlebushek

Как в emacs запилить?

Спросил сейчас у тим лида по данному вопросу, говорит, как вариант Можно вынести в микросервис и с помощью баш скрипта отпиавлять туда на проверку и возвращать результат.

2 вариант, сделать форк движка IDE от жетБраинс и переделать для Лиспа

NetSurf ()

Чё когда уже программулька переедит на C++/C/Python? Надоела эта параша на яве и другим ущербных языках программирования.

anonymous ()
Ответ на: комментарий от MrClon

Может ещё скинешь ссылку на хавтушечку по настройке этого сервака?

В простейшем варианте запустить сервер командой

java -cp languagetool-server.jar org.languagetool.server.HTTPServer --port 8081 --allow-origin "*"

и прописать в настройки расширения адрес http://localhost:8081/v2/

Сохранить настройки.

Далее можно запускать проверку.

http://wiki.languagetool.org/http-server - документация по серверу.

Yakov ()

Созданы новые и улучшены существующие правила для проверки пунктуации и грамматики.

Мне говорят, что ошибок тут нет: «Я, рады представил; вас нового их продукта!.»

mouha ()

Yakov, ты - разработчик этой штуки? Тут на лоре ещё кто есть?

Суть вопроса в том, что вот этот ваш Language Tool безумно хотелось бы засунуть внутрь другого опенсорцного продукта. Текстового редактора. Подробности будут позднее)

stevejobs ★★☆☆☆ ()
Ответ на: комментарий от mouha

Мне говорят, что ошибок тут нет: «Я, рады представил; вас нового их продукта!.»

LT проверяет текст на основе правил. Если правила для поиска ошибки не существует, то ошибка не будет найдена. Если правило создано, то программа укажет на место ошибки и предложит вариант её исправления. Но существует и альтернативный вариант проверки текста, который реализован в программе Link Grammar Parser — грамматика связей. Этот метод позволяет только выявить слова, которые не согласуются с остальными в предложении. Но варианты исправления ошибки этот метод не предлагает.

Yakov ()
Ответ на: комментарий от anonymous

Чё когда уже программулька переедит на C++/C/Python? Надоела эта параша на яве и другим ущербных языках программирования.

Чё - ошибочное слово/фраза, исправление: что.
Чё когда уже программулька переедит на C++...
Что

Virtuos86 ★★★★★ ()
Ответ на: комментарий от stevejobs

Суть вопроса в том, что вот этот ваш Language Tool безумно хотелось бы засунуть внутрь другого опенсорцного продукта. Текстового редактора.

опенсорц

Текстового редактора.

Классика жанра.

Virtuos86 ★★★★★ ()

Какое-то говно не умеющее делать нормально даже то, для чего якобы создано, ещё и на жирножабе.

Закопайте это, срочно.

anonymous ()
Ответ на: комментарий от Yakov

Хорошо, как мне сделать, чтобы все ошибки из приведенной фразы были найдены?

Если правила для поиска ошибки не существует

Где задавать правила и как? Не нашел на видном месте ни на сайте, ни на гитхабе руководства.

mouha ()
Ответ на: комментарий от anonymous

для чего якобы создано, ещё и на жирножабе.

LT проверяет текст на основе правил. Большинство программ для проверки грамматики используют этот принцип, в том числе аналогичным образом реализована проверка грамматики в MS Office. Так что все заявленные цели выполняются, список правил доступен на нашем сайте.

Альтернативный подход, который использует грамматику связей, позволяет найти ошибки, которые не вписываются в заданную модель языка. Но в этом случае требуется описать все возможные связи слов, иначе будет очень много предупреждений об ошибках, которые таковыми не являются. Это введёт в заблуждение пользователей. И этот метод не указывает, в чём заключается ошибка, а указывает только на слово, которое не вписывается в модель языка.

Java используется для разработки LT, так как для этого языка создано множество дополнительных библиотек для обработки и анализа текста. Кроме того, для разработки расширений OpenOffice.org рекомендовалaсь и наиболее полно поддерживалась именно Java. В LibreOffice предпочтение отдаётся Python, но объём созданного кода очень большой, и часть функциональности программы будет потеряна при переписывании на Python, поэтому миграция на Python не имеет смысла.

Yakov ()
Ответ на: комментарий от subwoofer

меньшую аудиторию проще отжать на первом этапе. Например, конкурировать с Microsoft Word на их же поле - задача нереалистичная.

Хотя, если Yakov сочинил хорошую модельку для русского - может даже и получится :)

stevejobs ★★☆☆☆ ()
Ответ на: комментарий от stevejobs

ворд не умеет викиразметку, если что. Если суть в том чтобы иметь форматированный текст заточенный под текстовую разметку (wiki, bbcode например), то это весьма широкая аудитория, в том числе всех кто пишет документацию и статьи.

subwoofer ★★★★★ ()
Последнее исправление: subwoofer (всего исправлений: 1)
Ответ на: комментарий от subwoofer

да, именно так)

сейчас есть огромное количество всяких плагинов для текстовых редакторов, но ничего такого, что годилось бы на гордый термин «издательская система»

но есть еще проблема. Ворд отлично подсвечивает грамматические ошибки итп. Люди даже книги в нём пишут именно из-за этого! (А потом мучаются, переверстывая).

очень надеюсь, что найдется хоть что-то удобоваримое (н-р заработает Language Tool). Иначе придётся интегрироваться с вордом, и работать это будет, очевидно, только на Windows.

(а ещё, у ворда очень стрёмное API, а нормальное типа Aspose стоит 3к$ за лицензию... и всё это - грязная проприетарщина.)

stevejobs ★★☆☆☆ ()
Ответ на: комментарий от stevejobs

заработает Language Tool

Из комментариев выше следует, что до состояния «заработает» в плане русского языка еще далеко. Судя по документации, реалии таковы, что придется описывать тысячи исключительных ситуаций в явном виде. Сейчас к чему бы LT не пришили - толку будет мало.

А ведь есть множество альтернатив, которые работают и давно.

mouha ()
Ответ на: комментарий от mouha

На самом деле Word может найти в среднем ещё меньше ошибок, чем LT. Безусловно, есть ошибки, которые обнаруживаются Word и не обнаруживаются LT. И наоборот, есть ошибки, которые обнаруживаются LT и не обнаруживаются Word. Кроме того, в MS Office 2013 и новее поменяли движок. Так что качество проверки в новых версиях MS Office стало даже хуже по сравнению с MS Office 2010, так как набор правил уменьшился.

Yakov ()
Ответ на: комментарий от mouha

Судя по документации, реалии таковы, что придется описывать тысячи исключительных ситуаций в явном виде.

Всё это уже давно сделано. И работает нормально. Но в этом особенность подхода проверки текста на основе правил. Абсолютно все реализации этого подхода сталкиваются с этим.

Yakov ()
Ответ на: комментарий от stevejobs

а какие альтернативы есть?

Альтернативный подход реализован в AbiWord + Link Grammar Parser.

На настоящий момент AbiWord почти не развивается. А Link Grammar Parser может найти только ошибки сочетаемости слов в предложении. Проверку расстановки знаков препинания и поиск других видов ошибок (логических и т.п.) он не выполняет.

Yakov ()