LINUX.ORG.RU

Избранные сообщения enso

OmegaT – система автоматизированного перевода

Галерея — Скриншоты

Когда-то я переводил прямо в текстовом редакторе/процессоре, предложение за предложением замещая оригинал переводом. Некоторые так делают до сих пор. Или открывают в одном окне документ заказчика с замысловатым форматированием, а в соседнем – печатают перевод. Недостатков у такого подхода множество:

  • повторы, частичные и полные, (допустим, в пачке должностных инструкций) утомляют или поиском и копипастой, или перепечаткой одного и того же (причем формулировки то и дело плывут там, где крайне желательно постоянство);
  • постоянная копипаста в словари и системы машинного перевода утомляет и отвлекает;
  • сложно следить за постоянством терминологии;
  • сложно сохранять форматирование;
  • то и дело возникают ошибки (в том числе, самые непростительные – пропуски), которые сложно уловить и исправить;
  • в целом сложнее за всем уследить, и правило 7±2 в итоге бьет по скорости или по качеству;
  • если переводчик работает, словно в век пишмашинок, агентству или заказчику приходится потом самостоятельно форматировать перевод.

Использование автоматизированного перевода только кажется сложным. На самом деле, я просто установил OmegaT, настроил внешний вид и стал работать, понемногу настраивая все остальное. В репах обычно устаревшие версии, поэтому лучше ставить сборку с официального сайта в /opt/, стабильную или бету. На Open JRE поддерживается меньше функций, и Oracle JRE предпочтительна. Я не хочу ставить Oracle JRE в систему, поэтому скачиваю сборку с ней.

Интерфейс

На скриншоте вы видите роман Д. Г. Лоуренса «Сыновья и любовники» в процессе перевода, который я делаю в свободное время, – еще без литературной правки. Итак, пройдусь подробнее по вкладкам/окнам/областям (всё это перетаскивается и преобразуется одно в другое).

Editor – я люблю видеть оригинал и перевод одновременно. Еще люблю, когда неуникальные сегменты менее контрастны. Автоматическую подстановку частичных совпадений отключаю: ее можно проглядеть и оставить сегмент без редактуры. Вставляю вручную, по хоткеям. Также люблю автодополнение: оно здесь куда более интеллектуальное, чем в LibreOffice.

Dictionary – я кладу мягкие ссылки на словари в каталог ./dictionaries/ проекта. OmegaT парсит сегмент и подгружает словарные статьи в эту область. Словари лучше не добавлять все сразу, а выбирать под проект, особенно если в компьютере крутится HDD. Словари – моя самая частая причина желать SDD.

Когда локальных словарей недостаточно, помогает внешний поиск, который я тоже настроил под себя. Threesome – так мой внутренний гусар прозвал Multitran, ReversoContext и Linguee, открываемые в трех разных вкладках браузера. Эта троица идеальна, когда нужно разыскать словосочетание или увидеть переводы в контексте. Oxbridge – это связка из Oxford Dictionary и Cambridge Dictionary: иногда единственный способ перевести адекватно – это подобрать слово под определение.

Glossary – сюда можно добавлять термины или, в случае художественной или исторической литературы, имена героев и названия локаций, историзмы. Иногда глоссарии предоставляет заказчик. Бывает, что пригождаются глоссарии из предыдущих проектов.

Fuzzy Matches почти бесполезны для художественной прозы, но здорово экономят время при переводе документов. Здесь появляются повторы не только из текущего проекта, но и из добавленных файлов памяти перевода. Их можно взять из собственных проектов или сгенерировать встроенным Aligner’ом из оригинала и перевода.

Machine Translation – я использую Яндекс, IBM Watson, Google, MyMemory. Качество работы всех четырех зависит от темы и стиля оригинала, но в большинстве случаев выбрать лучший машинный перевод, отредактировать его – проще и быстрее, чем набирать с нуля. Например, Watson неплохо натаскан на IT и новости, MyMemory и Google – на договоры. Если знать и понимать переводческие трансформации, документы в итоге переводятся даже качественнее, чем вручную. Но в случае художественного перевода сюда лучше заглядывать лишь изредка: машинный перевод имеет свойство тихо и незаметно отравлять стиль. Отдельно стоит упомянуть MyMemory (human) – это временами полезный поиск похожих переводов по базе соответствующей компании.

Notes, Multiple Translations использую крайне редко. Comments, Segment Properties отключил бы вообще, но такой возможности нет.

Польза автоматизации

В среднем в OmegaT работается раза в три быстрее, чем без специализированного софта. Программа генерирует итоговые файлы, в которых достаточно лишь перепроверить верстку и правописание. А заказчики ценят эквивалентность и адекватность.

Чего не хватает? Например, вменяемого токенизатора (анализатора морфологии). Словари и глоссарии либо воспринимают слово только в начальной форме, либо находят все однокоренные. Не помешал бы и встроенный или облачный транслитератор/транскриптор с разными вариантами преобразования. Желательно, умеющего работать с вырожденными случаями, так чтобы для ‘Mao Zedong’ предлагался в том числе ‘Мао Цзедун’. В принципе, это повод самому научиться писать скрипты и плагины.

>>> Просмотр (1920x1080, 161 Kb)

 , omegat, , ,

Bagrov ()

Девственно чистый Chromium!

Форум — General

Девственно чистый Chromium!

Наконец-то! Наконец-то нашлись люди, не просто понимающие, какое это зло Google, запустивший свои щупальца в Linux в виде хромого, но и сделавшие попытки их отсечь.
Речь идет о «UnGoogled-Chromium» - https://github.com/Eloston/ungoogled-chromium

Об этом замечательном событии узнал только вчера и сходу принялся его устанавливать на Debian-8 в виде пакета chromium_57.0.2987.110-1_amd64.deb на https://ungoogled-software.github.io/ungoogled-chromium-binaries/releases/deb...

Но увы - сходу получил ошибку Conflicts with the installed package 'libnettle4'

Решил, что это из-за уже установленного в системе обычного Chromium с его либами.
Пробую ставить на чистенький Debian-8 - та же фигня.

Что скажете - есть какое-то локальное решение, или остается только забрасывать кодеров багрипортами?

 

chukcha ()

Настройка цветов для GTK3

Форум — Desktop

Дорогой ЛОР, посоветуй, пожалуйста, тему для ГТК-3, что позволяла бы непринужденно выбрать цветовую палитру.

 , , ,

Zmicier ()

Посоветуйте книжку по программированию shell в linux для мелкого

Форум — General

Посоветуйте книжку по программированию shell в linux для ребенка, хочу научить его скрипты писать. Как бы чтобы весело было.

 , ,

sap78 ()

Ruby the right way

Форум — Web-development

Вопрос по сабжу, с чего начать изучение Руби, если в дальнейшем планируешь становиться на рельсы и делать веб.

Спасибо!

 , ,

Twissel ()

Проект UnitedRPMs представляет репозиторий с мультимедийным ПО для Fedora 24 и Fedora Rawhide

Новости — Linux General
Группа Linux General

Изначальной целью проекта является поддержка воспроизведения медиаконтента и дополнительного программного обеспечения для работы с ним в тестовых релизах Fedora Project. Сейчас в репозитории доступны более 80 пакетов, среди которых ffmpeg, vlc, mpv, kodi, kdenlive, openshot, steam, chromium (c поддержкой HTML Multimedia), smplayer и другие.

Проект некоммерческий и любая помощь приветствуется. Разработка полностью открытая, все спецификации и исходный код доступны на Github. Как резервный канал для общения используется группа в Google+.

>>> Подробности

 , ,

Deleted ()

Годных js-библиотек тред

Форум — Web-development

Осваиваю разработку веб-морд, открыл для себя jQuery, underscore.js и date.js. Что ещё посмотреть полезное/универсальное? Must have, одним словом.

 ,

ollowtf ()