LINUX.ORG.RU

OmegaT – система автоматизированного перевода

 , , , ,


5

2

Когда-то я переводил прямо в текстовом редакторе/процессоре, предложение за предложением замещая оригинал переводом. Некоторые так делают до сих пор. Или открывают в одном окне документ заказчика с замысловатым форматированием, а в соседнем – печатают перевод. Недостатков у такого подхода множество:

  • повторы, частичные и полные, (допустим, в пачке должностных инструкций) утомляют или поиском и копипастой, или перепечаткой одного и того же (причем формулировки то и дело плывут там, где крайне желательно постоянство);
  • постоянная копипаста в словари и системы машинного перевода утомляет и отвлекает;
  • сложно следить за постоянством терминологии;
  • сложно сохранять форматирование;
  • то и дело возникают ошибки (в том числе, самые непростительные – пропуски), которые сложно уловить и исправить;
  • в целом сложнее за всем уследить, и правило 7±2 в итоге бьет по скорости или по качеству;
  • если переводчик работает, словно в век пишмашинок, агентству или заказчику приходится потом самостоятельно форматировать перевод.

Использование автоматизированного перевода только кажется сложным. На самом деле, я просто установил OmegaT, настроил внешний вид и стал работать, понемногу настраивая все остальное. В репах обычно устаревшие версии, поэтому лучше ставить сборку с официального сайта в /opt/, стабильную или бету. На Open JRE поддерживается меньше функций, и Oracle JRE предпочтительна. Я не хочу ставить Oracle JRE в систему, поэтому скачиваю сборку с ней.

Интерфейс

На скриншоте вы видите роман Д. Г. Лоуренса «Сыновья и любовники» в процессе перевода, который я делаю в свободное время, – еще без литературной правки. Итак, пройдусь подробнее по вкладкам/окнам/областям (всё это перетаскивается и преобразуется одно в другое).

Editor – я люблю видеть оригинал и перевод одновременно. Еще люблю, когда неуникальные сегменты менее контрастны. Автоматическую подстановку частичных совпадений отключаю: ее можно проглядеть и оставить сегмент без редактуры. Вставляю вручную, по хоткеям. Также люблю автодополнение: оно здесь куда более интеллектуальное, чем в LibreOffice.

Dictionary – я кладу мягкие ссылки на словари в каталог ./dictionaries/ проекта. OmegaT парсит сегмент и подгружает словарные статьи в эту область. Словари лучше не добавлять все сразу, а выбирать под проект, особенно если в компьютере крутится HDD. Словари – моя самая частая причина желать SDD.

Когда локальных словарей недостаточно, помогает внешний поиск, который я тоже настроил под себя. Threesome – так мой внутренний гусар прозвал Multitran, ReversoContext и Linguee, открываемые в трех разных вкладках браузера. Эта троица идеальна, когда нужно разыскать словосочетание или увидеть переводы в контексте. Oxbridge – это связка из Oxford Dictionary и Cambridge Dictionary: иногда единственный способ перевести адекватно – это подобрать слово под определение.

Glossary – сюда можно добавлять термины или, в случае художественной или исторической литературы, имена героев и названия локаций, историзмы. Иногда глоссарии предоставляет заказчик. Бывает, что пригождаются глоссарии из предыдущих проектов.

Fuzzy Matches почти бесполезны для художественной прозы, но здорово экономят время при переводе документов. Здесь появляются повторы не только из текущего проекта, но и из добавленных файлов памяти перевода. Их можно взять из собственных проектов или сгенерировать встроенным Aligner’ом из оригинала и перевода.

Machine Translation – я использую Яндекс, IBM Watson, Google, MyMemory. Качество работы всех четырех зависит от темы и стиля оригинала, но в большинстве случаев выбрать лучший машинный перевод, отредактировать его – проще и быстрее, чем набирать с нуля. Например, Watson неплохо натаскан на IT и новости, MyMemory и Google – на договоры. Если знать и понимать переводческие трансформации, документы в итоге переводятся даже качественнее, чем вручную. Но в случае художественного перевода сюда лучше заглядывать лишь изредка: машинный перевод имеет свойство тихо и незаметно отравлять стиль. Отдельно стоит упомянуть MyMemory (human) – это временами полезный поиск похожих переводов по базе соответствующей компании.

Notes, Multiple Translations использую крайне редко. Comments, Segment Properties отключил бы вообще, но такой возможности нет.

Польза автоматизации

В среднем в OmegaT работается раза в три быстрее, чем без специализированного софта. Программа генерирует итоговые файлы, в которых достаточно лишь перепроверить верстку и правописание. А заказчики ценят эквивалентность и адекватность.

Чего не хватает? Например, вменяемого токенизатора (анализатора морфологии). Словари и глоссарии либо воспринимают слово только в начальной форме, либо находят все однокоренные. Не помешал бы и встроенный или облачный транслитератор/транскриптор с разными вариантами преобразования. Желательно, умеющего работать с вырожденными случаями, так чтобы для ‘Mao Zedong’ предлагался в том числе ‘Мао Цзедун’. В принципе, это повод самому научиться писать скрипты и плагины.

>>> Просмотр (1920x1080, 161 Kb)

★★★★★

Проверено: Zhbert ()

Прекрасно. Когда-то начинал переводить Silent Spring Рейчел Карлсон, но после первой главы меня это утомило. Писал в обычный txt.

Artamudo ()
Ответ на: комментарий от PerfectReactor

Я бы не сказал, что прямо ШГ. Обычные гарнитуры без сглаживания. Java из коробки, как она есть. Да, я люблю субпиксельное сглаживание, но не настолько, чтобы танцевать ради него с бубном, пересобирая JRE.

Про адок хотелось бы подробнее.

Bagrov ★★★★★ ()
Ответ на: комментарий от Bagrov

Про адок хотелось бы подробнее.

Внимания не обращай, он небось сам не знает, о чем говорит.

Zhbert ★★★★★ ()

Для машинного перевода советую обратить внимание на сервис DeepL. Там есть API, но думаю оно платное.

cocucka ()

Божемой ну включи же System или Nimbus в качестве LAF

vertexua ★★★☆☆ ()
Ответ на: комментарий от Bagrov

Про адок хотелось бы подробнее

Кеды с пятой плазмой, страшный интерфейс программы.

PerfectReactor ()
Ответ на: комментарий от Bagrov

Да, я люблю субпиксельное сглаживание, но не настолько, чтобы танцевать ради него с бубном, пересобирая JRE.

Эта... В профиль (или еще куда)

export _JAVA_OPTIONS='-Dawt.useSystemAAFontSettings=on -Dswing.aatext=true'

Kuzz ★★★ ()
Ответ на: комментарий от cocucka

Для него есть коннектор в комплекте. Ключ платный, да.

Kuzz ★★★ ()
Ответ на: комментарий от vertexua

страшней всего то, что ты знаешь о существовании LaF-ов и даже на память их названия!

stevejobs ★★★☆☆ ()
Ответ на: комментарий от Artamudo

Silent Spring Рейчел Карлсон

Уже было в Симпсонах:

Карсон, Рахиль. Безмолвная весна : пер. с англ = Silent Spring. — М.: Прогресс, 1965. — 216 с.

Интересно в 60-х с именами обходились. Если Rachel – это Рахиль, то Lady Godiva – видимо, пани Богдана. Ну да ладно.

Ты не знал об этом переводе, или он чем-то не устраивает? Допустим, «Алису» кто только не переводил, и все переводы разные, и все хороши по-своему. Какие-то более точны, какие-то – особо творческие.

Допустим, «Сыновья и любовники» уже есть на русском. Но в переводе автор, выбравший средне-высокий стиль, мужчина, получил женский голос, говорящий московским просторечием. Многие реалии шахтерского быта XIX века загублены: крестьянские шахты стали шурфами (а это, минуточку, разведочные колодцы, копаемые геологами и археологами), каменные жаровни, находящиеся у всех на виду – выгребными ямами. В двусмысленном предложении, где шахты могли либо портить деревья, либо загрязнять ручьи, переводчица решила, что шахты таки портят деревья. Мало что осталось и от английского колорита.

А я все-таки вырос в шахтерском городе, интересовался историей своего края, люблю Англию, люблю русскую классику и русский модерн, а многие сцены из книги наблюдал воочию в своей семье, и во многих драмах, растущих из взаимного непонимания между рабочим и средним классом, поучаствовал сам. То есть, я неплохо так знаю матчасть. А еще на дворе 2020 год, и у меня есть Мультитран, Википедия, Гугл, чего не было у коллеги.

Bagrov ★★★★★ ()
Ответ на: комментарий от cocucka

Для машинного перевода советую обратить внимание на сервис DeepL. Там есть API, но думаю оно платное.

Спасибо. Уже обращал внимание. Хороший движок, но действительно платный, и тарифы с принятыми в бСССР расценками на перевод не очень выгодны. Сейчас изредка использую веб-интерфейс.

Bagrov ★★★★★ ()
Ответ на: комментарий от stevejobs

он-то на джаве писал/пишет. а вот то что видящие джаву люди раз в 10 лет, типа меня, про это знают… поэтому джава на десктопе и не нужна

moot ★★★★ ()
Ответ на: комментарий от PerfectReactor

Кеды с пятой плазмой

Постепенно начинаю утомляться от множества раздражающих мелочей, да. Посматриваю в сторону Xfce и Mate.

страшный интерфейс программы.

Мне надо работать, да так, чтобы всё было перед глазами. Я работаю, и у меня всё перед глазами. Бесплатных и свободных альтернатив OmegaT для локалхоста нет.

Bagrov ★★★★★ ()
Ответ на: комментарий от moot

6 лет уже не писал, но это вжигается в мозг на всю жизнь

vertexua ★★★☆☆ ()
Ответ на: комментарий от Bagrov

Ты не знал об этом переводе, или он чем-то не устраивает?

Я знал что он есть, но я его не нашёл. Если у тебя есть, то можешь скинуть.

Artamudo ()

Это как традос, но под линукс? Спасибо, попробую.

Knigochey ()

А есть ли где-нибудь возможность перевести на русский текст, набранный в латехе? Казалось бы, достаточно просто научить программу игнорировать ключевые слова и формулы.

hotpil ★★★ ()
Ответ на: комментарий от Bagrov

Если это насчёт сотрудничества, то я в пролёте. Не профессионально этим занимаюсь.

Artamudo ()

«Сыновья и любовники»

звучит как-то по Санкт-Петербуржски, что-ли...

etwrq ★★★★ ()
Ответ на: комментарий от hotpil

А есть ли где-нибудь возможность перевести на русский текст, набранный в латехе?

Есть файловый фильтр для LaTeX. На скриншоте – один из уроков по сабжу от Высшей школы экономики. Собственно, по курсу от Вышки я LaTeX и изучил.

Казалось бы, достаточно просто научить программу игнорировать ключевые слова и формулы.

Формулы не игнорируются. Оно и к лучшему: их тоже нужно локализировать: у нас интегралы – прямые, фи пишется в одно движение, а не кружком и палкой, фита часто открытая, операторы дублируются при переносе и т. п.

Bagrov ★★★★★ ()
Ответ на: комментарий от Knigochey

Сейчас OmegaT более чем годна. Ты работал с Trados? Он чем-то лучше сабжа?

К слову, квест по установке Trados в CrossOver я так и не осилил. По слухам, он и на офтопик ставится через раз и с бубном. При том, что Passolo от тех же SDL ставится и работает, будто родной.

Bagrov ★★★★★ ()
Последнее исправление: Bagrov (всего исправлений: 1)
Ответ на: комментарий от Bagrov

лучше сабжа?

Ещё не пробовал сабж, надо потыкать ради интереса.

Спираченым традосом пользовался лет семь назад. Не знаю как сейчас, а тогда интерфейс казался кошмарным, плюс тормоза на древнем ноуте. Перешёл с него на memoQ, а потом и забросил это дело совсем, ибо фриланс для переводчика скатился на самое дно году в 14-15 из-за дикого демпинга после известных событий.

Knigochey ()
Последнее исправление: Knigochey (всего исправлений: 1)
Ответ на: комментарий от Bagrov

крестьянские шахты стали шурфами (а это, минуточку, разведочные колодцы, копаемые геологами и археологами)

Шурф это любая узкая яма выкопанная для осмотра чего-либо. Строители для осмотра, например, фундамента делают/достают шурф.

Шахта это основательное инженерное сооружение, вряд ли у крестьян они были, скорее это можно перевести как копанки ( https://www.youtube.com/watch?v=8tOSL1AncH0 ). А если ещё незаконные/полуподпольные, то 100% должно быть копанками.

vtVitus ★★★★★ ()
Ответ на: комментарий от vtVitus

Шурф это любая узкая яма выкопанная для осмотра чего-либо. Строители для осмотра, например, фундамента делают/достают шурф.

Спасибо.

Шахта это основательное инженерное сооружение, вряд ли у крестьян они были, скорее это можно перевести как копанки ( https://www.youtube.com/watch?v=8tOSL1AncH0 ). А если ещё незаконные/полуподпольные, то 100% должно быть копанками.

«Крестьянская шахта» – это, похоже, современный бэкроним для доиндустриальных выработок. Так если и не говорят, то пишут, пусть это и не шахта в полном смысле этого слова. Раньше, вроде бы, говорили «рудники» и «копи». И в руднике вполне могли добывать не руду, а уголь.

«Копанку» пробил по Google Books. Не нашел ни одного дореволюционного упоминания в значении «рудник». Есть советские упоминания, но это, похоже, украинизм, означающий просто яму. Незаконной выработкой «копанка» стала совсем недавно, и этой ассоциации хотелось бы избежать. Не было там ничего незаконного: раскопать свой участок в XIX веке – это как яблочко в своем саду сорвать.

Bagrov ★★★★★ ()
Ответ на: комментарий от Bagrov

ИМНО смысл слова «шахта» менялся и тогда и сейчас под этим понимают несколько разное, «Крестьянская шахта», наверно, литературно правильно, но мне слух режет :-).

Копи на самом деле хорошее слово. Я за него ! :-)

Про «копанки» поспрошал/почитал оно да не в тему - это больше про воду и с углём ассоциируется только на Донбасе.

vtVitus ★★★★★ ()

Пользовался для технических текстов. Вопрос — а сейчас у кого-то остались бесплатные ключи для machine translation?

be_nt_all ()
Ответ на: комментарий от be_nt_all

MyMemory работает бесплатно по одной только электронной почте, отдавая до 1000 слов в день. Google работает без ключа, если поставить соответствующий плагин. IBM Watson и Яндекс раздают бесплатные ключи. Microsoft предлагает trial длиной в год, но нужно ввести номер карты, а потом не забыть отменить подписку.

Apertium и Moses – это rule-based и statistics-based соответственно, со всеми вытекающими. Зато свободные. Можно поставить локально и настраивать до посинения или подключиться к удаленному серверу.

Bagrov ★★★★★ ()
Ответ на: комментарий от Bagrov

Ну я раньше яндексовским ключом пользовался, а потом, когда ключ потерялся при смене компьютера там что-то про плату появилось В общем – спасибо.

upd. Всё, с яндексом уже разабрался за остальное тоже спасибо.

be_nt_all ()
Последнее исправление: be_nt_all (всего исправлений: 1)

На Open JRE поддерживается меньше функций

А можно ещё про это какие-то подробности. Что поломается если я буду использовать установленный из репозитория дистрибутива OpenJRE (раньше обычно так и делал, вроде работало, хотя я конечно не настоящий сварщик переводчик)

be_nt_all ()
Ответ на: комментарий от be_nt_all

Когда-то OmegaT в OpenJRE запускалась с вдвое меньшим главным меню и куцым списком настроек. Подробностей уже не помню. Сейчас перепроверил: действительно, вроде бы, всё выглядит и работает одинаково.

Bagrov ★★★★★ ()
Ответ на: комментарий от Bagrov

более того, нет никакого OpenJRE, есть только OpenJDK. Давно уже все поняли, что таким образом жаба никак не уменьшается в размерах. Был даже знатный гэг, когда в какой-то момент инсталлятор JRE занимал по объему больше, чем инсталлятор JDK, в этот момент у кого-то забрезжило, что в государстве что-то совершенно не в порядке и эту практику отменили.

stevejobs ★★★☆☆ ()
Ответ на: комментарий от Bagrov

Ты работал с Trados? Он чем-то лучше сабжа?

все эти системы, к сожалению, полное говно по сравнению с тем, что можно было бы сделать на эту тему

интересно, почему так происходит? почему в разработку в этой области вообще никто не вкладывается?

stevejobs ★★★☆☆ ()
Ответ на: комментарий от stevejobs

все эти системы, к сожалению, полное говно по сравнению с тем, что можно было бы сделать на эту тему

Постепенно прихожу к той же мысли. Всё, что уже есть в машинном переводе, можно перенести в CAT. Чем не идея для стартапа?

Bagrov ★★★★★ ()

Интересная тема

По-моему, самый полезный скриншот этого года на ЛОРе.

ТС, а как ты думаешь, вот такой UI, когда оригинал и перевод в одном окне и выделяются разными цветами, идеален?

Не лучше ли было бы держать их в двух соседних окнах и синхронизировать перемещения курсора?

hobbit ★★★★★ ()
Ответ на: комментарий от stevejobs

Давно уже все поняли, что таким образом жаба никак не уменьшается в размерах.

Кстати, а почему???

Теоретически ведь для разработки нужно дохрена всякого барахла, не нужного для рантайма, разве нет?

hobbit ★★★★★ ()
Ответ на: комментарий от vertexua

Божемой ну включи же System или Nimbus в качестве LAF

OmegaT из того класса говнософта, что принудительно включает какой-то конкретный LaF и не дает его сменить.

https://i.imgur.com/TVj8PUK.png

popov-aa ()
Ответ на: комментарий от popov-aa

Нет,

https://github.com/omegat-org/omegat/blob/16fd171f53da46f78ac4008923e2e82187abef94/src/org/omegat/Main.java#L286

Оно форсит системную, но судя по всему сама Java не может понять что системная должна быть Gtk+.

И косячит потому что не определена GNOME_DESKTOP_SESSION_ID скорее всего, занавес. Надо туда что-то записать )

vertexua ★★★☆☆ ()
Последнее исправление: vertexua (всего исправлений: 2)
Ответ на: комментарий от vertexua

Оно форсит системную, но судя по всему сама Java не может понять что системная должна быть Gtk+. И косячит потому что не определена GNOME_DESKTOP_SESSION_ID скорее всего, занавес. Надо туда что-то записать )

Досадный баг. Я всегда полагался на -Dswing.defaultlaf и не пользовался UIManager.setLookAndFeel(UIManager.getSystemLookAndFeelClassName());

С GNOME_DESKTOP_SESSION_ID=«1» стало гораздо лучше.

https://i.imgur.com/SC3VrAs.png

popov-aa ()
Ответ на: Интересная тема от hobbit

По-моему, самый полезный скриншот этого года на ЛОРе.

Спасибо!

ТС, а как ты думаешь, вот такой UI, когда оригинал и перевод в одном окне и выделяются разными цветами, идеален?

Начну издалека. Большинство текстов лучше переводить по предложениям. Большинство предложений не требуют выворачивания порядка слов наизнанку. Большинство перестановок слов не разрушают параллелизм полностью. Длина перевода обычно самую малость превышает длину оригинала.

При таком раскладе получается, что идеален. Экономятся движения глаз, сразу видно, что чему соответствует, сразу видна вопиющая разница в длине, которая может указывать на пропуск или не убранные из совпадения лишние слова. При вычитке проще отследить смысловые ошибки.

Не лучше ли было бы держать их в двух соседних окнах и синхронизировать перемещения курсора?

Если сегментировать по CR, LF, CR/LF, то лучше. Некоторые считают, что художественную прозу лучше переводить по абзацам. Как видишь, я не из их числа.

Если вдруг когда-то возьмусь за поэзию, две колонки будут однозначно лучше.

Bagrov ★★★★★ ()
Ответ на: комментарий от hobbit
alex@rhyme> pacman -Qi $(pacman -Ssq '.*11-openjdk') | grep 'Название\|Установленный размер'                                    
Название             : jdk11-openjdk
Установленный размер : 87.48 MiB
Название             : jre11-openjdk
Установленный размер : 526.59 KiB
Название             : jre11-openjdk-headless-infinality
Установленный размер : 157.64 MiB

На мой взгляд, разница, конечно, есть, но, с другой стороны, она чуть больше 30%, можно и забить.

AlexM ★★★★★ ()
Последнее исправление: AlexM (всего исправлений: 1)

А нет ли тут такого функционала, который бы формально проверял правильность грамматики, passive voice-ов и прочий пордок слов, формирование и согласование времен?

JAkutenshi ()

Годная штука, юзал, когда подрабатывал переводчиком, и потом ещё несколько лет.

t184256 ★★★★★ ()
Ответ на: комментарий от t184256

Кстати, хоть и не исчерпывающая, но довольно мощная штука. MS Office мало что находит после Language Tools и Hunspell.

Bagrov ★★★★★ ()
Ответ на: комментарий от Bagrov

Коллега юзает для pull-request’ов какой-то Vale, интересно было бы сравнить. А в идеале вообще найти какое-нибудь исчерпывающее сравнение линтеров прозы.

t184256 ★★★★★ ()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)