Перевод фрагмента текста

0

2

Есть оригинальный текст на английском и перевод его на русский. Хочу написать скрипт на Python, в который можно было бы ввести фрагмент на русском из перевода и получить соответствующий фрагмент оригинала на английском. Что предложите?

Пока решил использовать какой-нибудь русско-английский словарь, чтобы пройтись по всем вариантам перевода каждого из слов в предложении и определить вероятность того, что искомый фрагмент найден. Однако из словарей в открытом доступе без проблем с копирайтом нашел пока только словарь Мюллера, который не содержит специальных меток, позволяющих его легко распарсить.

Ссылка

← learn lua in 15 min

Haskell импорт сишных структур →

это вебсервис или локальная софтина?

если вебсервис, может, декомпильнуть словари Lingvo?

~~stevejobs~~ ★★★★☆
(25.06.13 21:45:15 MSK)

Делать полуавтоматическую индексацию обеих фрагментов. Ориентироваться можно по пунктуации: надежнее всего по абзацам, чуть менее надежно - по предложениям. При вводе русского фрагмента находим индекс в русском тексте, выдаем текст рядом с аналогичным индексом текста английского.

По словарям даже не представляю, как это можно сделать. В англ. языке слова очень многозначные, и конкретное значение зачастую определяется лишь из контекста.

provaton ★★★★★
(25.06.13 21:51:36 MSK)

предлагаю считать количество предложений от начала текста в русском, где был выделен текст, и давать то же предложение в английском.

bvn13 ★★★★★
(25.06.13 22:00:24 MSK)

предложим забить, с наскока не осилишь.

~~mashina~~ ★★★★★
(25.06.13 22:01:22 MSK)

Ответ на: комментарий от mashina 25.06.13 22:01:22 MSK

поддерживаю.

d_Artagnan ★★
(25.06.13 22:22:12 MSK)

Ссылка

Ответ на: комментарий от stevejobs 25.06.13 21:45:15 MSK

Это должна быть локальная программа. Спасибо за напоминание про словари Lingvo, они уже минимум частично есть декомпилированные - для использования в Stardict.

Deleted
(25.06.13 22:47:13 MSK)

Ссылка

Ответ на: комментарий от provaton 25.06.13 21:51:36 MSK

Делать полуавтоматическую индексацию обеих фрагментов.

Каким образом?

В англ. языке слова очень многозначные, и конкретное значение зачастую определяется лишь из контекста.

Текст технический, поэтому словари, как правило, содержат нужное значение. Учитывая то, что перевод уже имеется, планирую просто суммировать число «попаданий» и таким образом вычислить нужный фрагмент.

Deleted
(25.06.13 22:53:11 MSK)

Ответ на: комментарий от mashina 25.06.13 22:01:22 MSK

Мне не нужно с наскока. Если получится, бОльшую часть моей офисной работы можно будет считать выполненной.

Deleted
(25.06.13 22:54:46 MSK)

Ссылка

Ответ на: комментарий от bvn13 25.06.13 22:00:24 MSK

Хороший вариант, но одно предложение может быть на пол-страницы, а фрагмент может потребоваться на несколько слов.

Deleted
(25.06.13 23:04:14 MSK)

Ответ на: комментарий от Deleted 25.06.13 23:04:14 MSK

а фрагмент может потребоваться на несколько слов

несколько слов могут не иметь прямого соответствия между собой.

+ порядок следования выражений может сильно меняться

~~mashina~~ ★★★★★
(25.06.13 23:20:19 MSK)
Последнее исправление: mashina 25.06.13 23:25:59 MSK (всего исправлений: 1)

задача не тривиальная, мягко говоря

namezys ★★★★
(25.06.13 23:58:15 MSK)

Ссылка

Ответ на: комментарий от Deleted 25.06.13 22:53:11 MSK

Каким образом?

Я ж написал «Ориентироваться можно по пунктуации: надежнее всего по абзацам, чуть менее надежно - по предложениям. При вводе русского фрагмента находим индекс в русском тексте, выдаем текст рядом с аналогичным индексом текста английского». Это плюс небольшая корректировка с пользовательской стороны - и должно получиться.

provaton ★★★★★
(26.06.13 00:06:11 MSK)

Ответ на: комментарий от mashina 25.06.13 23:20:19 MSK

несколько слов могут не иметь прямого соответствия между собой.

Однако термины большей части текстов технической направленности будут иметь прямое соответствие.

порядок следования выражений может сильно меняться

Программа просто будет суммировать количество совпадений и делать на этом основании вывод, поэтому порядок следования большого значения не имеет, главное - правильно определить границы фрагмента.

Deleted
(26.06.13 00:17:03 MSK)

Ответ на: комментарий от provaton 26.06.13 00:06:11 MSK

Смысл в том, чтобы напрямую заменять текст в документе, а не выводить что-то на проверку. У меня уже есть таблицы в html с параллельным оригиналом и переводом, в которых вручную можно найти нужный фрагмент. Идея в том, чтобы автоматизировать задачу. Что касается пунктуации, самые четкие признаки - это точка. Запятых в английском гораздо меньше. Таким образом, деление получается максимум до предложения. Однако само предложение может быть на пол-страницы, т.е. выводить даже 2 предложения (оригинал+перевод) на подтверждение нерационально. Поэтому я и спросил, каким образом должен строиться индекс. Вручную - нерационально. И даже по предложениям тоже нерационально.

Deleted
(26.06.13 00:24:02 MSK)
Последнее исправление: Deleted 26.06.13 00:26:01 MSK (всего исправлений: 1)

Пока решил использовать какой-нибудь русско-английский словарь, чтобы пройтись по всем вариантам перевода каждого из слов в предложении и определить вероятность того, что искомый фрагмент найден.

Без словаря уже работает? Может вначале сделать анализ тех признаков, по которым можно без перевода опознать кто есть кто? Например, номера параграфов, любые числа и спецсимволы, непереводимые термины, капсовые аббревиатуры, количество слов в предложении, сумма всех букв в предложении. Скрипту вообще доступны будут оба текста на английском и русском для предварительного анализа? Ну, и наверное, имеет смысл анализировать для перевода только слова длиннее 7-8 символов.

justAmoment ★★★★★
(26.06.13 00:40:38 MSK)

Ответ на: комментарий от Deleted 26.06.13 00:24:02 MSK

Поэтому я и спросил, каким образом должен строиться индекс. Вручную - нерационально.

Полностью вручную - нерационально. Но и полностью автоматизировать тоже вряд ли выйдет. Я б сделал интерактивную сессию, с выводом предлагаемых мест индексации и запросом подтверждения от пользователя.

provaton ★★★★★
(26.06.13 00:46:20 MSK)

Ссылка

Ответ на: комментарий от Deleted 26.06.13 00:17:03 MSK

Однако термины большей части текстов технической направленности будут иметь прямое соответствие.

это только если литерал термина совсем никак не пересекается с литералами иных слов. Даже если повезёт, то частотность встречи термина в тексте будет относительно высокой чтобы этот факт можно было как-то полезно использовать основываясь только на статистике пересечений слов (т.е. на кол-ве совпадений).

Программа просто...

слово «просто» с твоей задачей никак не совместимо, важно это понять.

~~mashina~~ ★★★★★
(26.06.13 00:54:38 MSK)

Ответ на: комментарий от justAmoment 26.06.13 00:40:38 MSK

Без словаря уже работает?

Скрипт еще не написан, пока продумываю реализацию. Есть пока только функция, которая сравнивает два текста на одном и том же языке и возвращает самую длинную подстроку. Без словаря скрипт будет работать на уровне предложений, т.е. эффект будет минимален.

Может вначале сделать анализ тех признаков, по которым можно без перевода опознать кто есть кто? Например, номера параграфов, любые числа и спецсимволы, непереводимые термины, капсовые аббревиатуры, количество слов в предложении, сумма всех букв в предложении.

Хороший вариант, но опять же - подойдет только на уровне предложений, а не отдельных фрагментов. А на уровне предложений уже есть много так называемых «выравнивателей» для параллельного сличения текста - Abbyy Aligner, например.

Скрипту вообще доступны будут оба текста на английском и русском для предварительного анализа?

Конечно, оригинал и перевод.

Ну, и наверное, имеет смысл анализировать для перевода только слова длиннее 7-8 символов.

Это понятно, спасибо.

Deleted
(26.06.13 01:42:18 MSK)

Ссылка

Ответ на: комментарий от mashina 26.06.13 00:54:38 MSK

слово «просто» с твоей задачей никак не совместимо, важно это понять.

Пришла в голову светлая мысль - членить оригинал и перевод на мелкие, соответствующие друг другу фрагменты, а потом уже скармливать скрипту, который будет заменять одно на другое (примерно то, что предлагает provaton). И это действительно будет просто. Однако, главный недостаток - необходимость траты времени на ручную обработку. Поэтому и интересует возможность полноценного семантического анализа.

Deleted
(26.06.13 01:49:02 MSK)

Ссылка

Автор, не тупи. просто используй Google API (https://developers.google.com/translate) и не пудри себе и людям мозги наивняком про автоматический анализ и перевод текста. Потратишь копейку - получишь какчественный перевод, да еще и с коррекцией ошибок, и отсутствие геморроя.

или промтовый api: http://www.promt.ru/corporate/solution/lease/features.php

полно вариантов автоматизировать работу, нет же, какую-то мутную идею ~~космического масштаба и космической глупости~~ наворачивашье на ровном месте.

d_Artagnan ★★
(26.06.13 03:11:48 MSK)
Последнее исправление: d_Artagnan 26.06.13 03:17:02 MSK (всего исправлений: 1)