LINUX.ORG.RU

OmegaT – система автоматизированного перевода

 , , , ,


5

2

Когда-то я переводил прямо в текстовом редакторе/процессоре, предложение за предложением замещая оригинал переводом. Некоторые так делают до сих пор. Или открывают в одном окне документ заказчика с замысловатым форматированием, а в соседнем – печатают перевод. Недостатков у такого подхода множество:

  • повторы, частичные и полные, (допустим, в пачке должностных инструкций) утомляют или поиском и копипастой, или перепечаткой одного и того же (причем формулировки то и дело плывут там, где крайне желательно постоянство);
  • постоянная копипаста в словари и системы машинного перевода утомляет и отвлекает;
  • сложно следить за постоянством терминологии;
  • сложно сохранять форматирование;
  • то и дело возникают ошибки (в том числе, самые непростительные – пропуски), которые сложно уловить и исправить;
  • в целом сложнее за всем уследить, и правило 7±2 в итоге бьет по скорости или по качеству;
  • если переводчик работает, словно в век пишмашинок, агентству или заказчику приходится потом самостоятельно форматировать перевод.

Использование автоматизированного перевода только кажется сложным. На самом деле, я просто установил OmegaT, настроил внешний вид и стал работать, понемногу настраивая все остальное. В репах обычно устаревшие версии, поэтому лучше ставить сборку с официального сайта в /opt/, стабильную или бету. На Open JRE поддерживается меньше функций, и Oracle JRE предпочтительна. Я не хочу ставить Oracle JRE в систему, поэтому скачиваю сборку с ней.

Интерфейс

На скриншоте вы видите роман Д. Г. Лоуренса «Сыновья и любовники» в процессе перевода, который я делаю в свободное время, – еще без литературной правки. Итак, пройдусь подробнее по вкладкам/окнам/областям (всё это перетаскивается и преобразуется одно в другое).

Editor – я люблю видеть оригинал и перевод одновременно. Еще люблю, когда неуникальные сегменты менее контрастны. Автоматическую подстановку частичных совпадений отключаю: ее можно проглядеть и оставить сегмент без редактуры. Вставляю вручную, по хоткеям. Также люблю автодополнение: оно здесь куда более интеллектуальное, чем в LibreOffice.

Dictionary – я кладу мягкие ссылки на словари в каталог ./dictionaries/ проекта. OmegaT парсит сегмент и подгружает словарные статьи в эту область. Словари лучше не добавлять все сразу, а выбирать под проект, особенно если в компьютере крутится HDD. Словари – моя самая частая причина желать SDD.

Когда локальных словарей недостаточно, помогает внешний поиск, который я тоже настроил под себя. Threesome – так мой внутренний гусар прозвал Multitran, ReversoContext и Linguee, открываемые в трех разных вкладках браузера. Эта троица идеальна, когда нужно разыскать словосочетание или увидеть переводы в контексте. Oxbridge – это связка из Oxford Dictionary и Cambridge Dictionary: иногда единственный способ перевести адекватно – это подобрать слово под определение.

Glossary – сюда можно добавлять термины или, в случае художественной или исторической литературы, имена героев и названия локаций, историзмы. Иногда глоссарии предоставляет заказчик. Бывает, что пригождаются глоссарии из предыдущих проектов.

Fuzzy Matches почти бесполезны для художественной прозы, но здорово экономят время при переводе документов. Здесь появляются повторы не только из текущего проекта, но и из добавленных файлов памяти перевода. Их можно взять из собственных проектов или сгенерировать встроенным Aligner’ом из оригинала и перевода.

Machine Translation – я использую Яндекс, IBM Watson, Google, MyMemory. Качество работы всех четырех зависит от темы и стиля оригинала, но в большинстве случаев выбрать лучший машинный перевод, отредактировать его – проще и быстрее, чем набирать с нуля. Например, Watson неплохо натаскан на IT и новости, MyMemory и Google – на договоры. Если знать и понимать переводческие трансформации, документы в итоге переводятся даже качественнее, чем вручную. Но в случае художественного перевода сюда лучше заглядывать лишь изредка: машинный перевод имеет свойство тихо и незаметно отравлять стиль. Отдельно стоит упомянуть MyMemory (human) – это временами полезный поиск похожих переводов по базе соответствующей компании.

Notes, Multiple Translations использую крайне редко. Comments, Segment Properties отключил бы вообще, но такой возможности нет.

Польза автоматизации

В среднем в OmegaT работается раза в три быстрее, чем без специализированного софта. Программа генерирует итоговые файлы, в которых достаточно лишь перепроверить верстку и правописание. А заказчики ценят эквивалентность и адекватность.

Чего не хватает? Например, вменяемого токенизатора (анализатора морфологии). Словари и глоссарии либо воспринимают слово только в начальной форме, либо находят все однокоренные. Не помешал бы и встроенный или облачный транслитератор/транскриптор с разными вариантами преобразования. Желательно, умеющего работать с вырожденными случаями, так чтобы для ‘Mao Zedong’ предлагался в том числе ‘Мао Цзедун’. В принципе, это повод самому научиться писать скрипты и плагины.

>>> Просмотр (1920x1080, 161 Kb)

★★★★★

Проверено: Zhbert ()

Ответ на: комментарий от stevejobs

почему в разработку в этой области вообще никто не вкладывается?

Вложись, ты же видишь профит.

А по факту - традос вполне ок. Ты себе представляешь работу по переводу толстой стопки технической документации, например, на постройку завода?

Особенно, если речь идет о языках за пределами английский-французский-немецкий - типа русского.

stave ★★★★★ ()
Ответ на: комментарий от Bagrov

Почти все CAT уже предложили модули машинного перевода. Но качество перевода очень хромает.

stave ★★★★★ ()
Ответ на: комментарий от stave

Можно прикрутить морфологический и синтаксический анализ и по ходу перевода генерировать кастомную rule-based или статистическую модель.

Допустим, переводит переводчик должностные инструкции. Заменил «электрик» на «прачка». В чем проблема в дальнейших подстановках автоматически заменять «электрик» на «прачка» а заодно – «должен» на «должна»? В чем проблема добавлять или убирать «главный» перед «электрик», когда в оригинале прибавляется или убирается соответствующее слово?

В чем проблема автоматизировать трансформации - активный залог в пассивный и наоборот, not uncomfortable - вполне уютно, и т. п., предлагать их при переводе и совершать при нажатии по кнопке?

Логический анализ тоже не помешает, чтоб с диаграммами Эйлера и логикой предикатов. И вообще побольше визуализаций.

Все это так или иначе есть в машинном переводе. Ничего этого нет в привязке к конкретному проекту.

Bagrov ★★★★★ ()
Ответ на: комментарий от popov-aa

OmegaT из того класса говнософта, что принудительно включает какой-то конкретный LaF и не дает его сменить.

Кстати, да. Последовал рекомендациям из темы. Остальная Java стала гламурной, кроме вырожденного случая OpenTM2 (Java внутри CrossOver). OmegaT не сдается. Но насчет говнософта я бы не стал горячиться. Стабильная и мощная прога, которую активно разрабатывают. Мешает ШГ на скриншотах? Поправь или попроси разработчиков поправить. Мне и так комфортно.

Локальные альтернативы на онтопике – Heartsome (заброшенный опенсорс), Memsource (проприетарный софт, но спасибо за нативную поддержку), Passolo (проприетарщина для локализации, ставить в Wine). Возможно также, OpenTM2 (ставить в Wine). Есть еще Virtaal – по сути, редактор баз переводов с глоссарием и поиском совпадений, ни на что не способный без Okapi Framework.

Bagrov ★★★★★ ()
Ответ на: комментарий от Bagrov

Эм, так вроде это все есть еще в традосе 2014 года и без мл.

stave ★★★★★ ()
Ответ на: комментарий от stave

Вот серьезно, весь список моих влажных фантазий, как обустроить OmegaT, уже лет пять как есть в Trados?

Bagrov ★★★★★ ()

Всем заинтересовавшимся настоятельно рекомендую попробовать smartcat.ai. Я был приятно удивлен - тут и ТМ свои держать можно, и машинный перевод подключать, и интерфейс удобный.

klazutin ()
Ответ на: комментарий от klazutin

Хорошая штука. Российская разработка. Некоторым спросом пользуется на мировом рынке. Бесплатная. Удобная. Есть биржа, на которой иногда появляются жирные заказы. Но.

Проприетарная. В отличие от OmegaT и проспонсированного Евросоюзом Matecat. Ненависти к проприетарщине и закрытым исходникам не испытываю, но открытость всё же лучше.

Кроме того, не каждый клиент согласен, чтобы его данные держали в облаке, а некоторые даже прямо запрещают запросы к движкам МП. А с гостайной вообще принято работать за изолированной машиной на территории заказчика.

А так, конечно, я за разнообразие. Пусть будет локальный софт. Пусть будет облачный. Пусть будет закрытый, если иначе разработчикам не прокормиться. Пусть будет открытый, особенно если написан на деньги налогоплательщиков. Лишь бы побеждали лучшие форматы, и лишь бы существовала переносимость данных.

Bagrov ★★★★★ ()
Ответ на: комментарий от Bagrov

А так, конечно, я за разнообразие. Пусть будет локальный софт. Пусть будет облачный. Пусть будет закрытый, если иначе разработчикам не прокормиться. Пусть будет открытый, особенно если написан на деньги налогоплательщиков. Лишь бы побеждали лучшие форматы, и лишь бы существовала переносимость данных.

Согласен. И далеко не все проекты требуют хардкорной конфиденциальности, многое можно доверить и облаку без особых последствий. Да и вообще, волков бояться - machine translation сервисами не пользоваться :)

За Mateсat cпасибо, не видел, выглядит очень интересно.

klazutin ()
Ответ на: комментарий от Bagrov

Если отделить влажные фантазии от фич с диаграммами и прочей фигней - да. Вы примерно представляете уровень переводчиков и их компьютерную грамотность? И вообще коммерческий перевод?

https://habr.com/ru/post/492524/

А вот и статья подоспела почему все так непросто.

stave ★★★★★ ()
Ответ на: комментарий от stave

Так что все-таки было в Традосе? А то получается так: то, что было в Традосе – не влажные фантазии, а то, что влажные фантазии – не было в Традосе. Не очень информативно.

Вы примерно представляете уровень переводчиков и их компьютерную грамотность?

Представляю. Она очень разная. Только к чему это?

И вообще коммерческий перевод?

Вы точно читали открывающий пост? А в профиль заглянуть?

А вот и статья подоспела почему все так непросто.

Непросто. Но вы точно возражаете на что-то, что я утверждал ранее?

Bagrov ★★★★★ ()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)