Не так все просто. Вон ПРОектМТ сколько лет занимается переводчиками, а качество перевода от человеческого все еще отстает.
На мой взгляд, нужно будет идти по двум путям одновременно. 1 - это прямой анализ предложений, форм слов, а еще и их значение в зависимости от роли в предложении (помнишь старую шутку, что в англ. любое слово может быть глаголом? :) ). 2 - это ассоциативная память.
p.s. моё понятие о хорошей, годной программе-переводчике противоречит моим представлениям о путях развития ИИ и убеждениям о возможности его создать на традиционном аппаратно-электронном базисе вообще.
p.p.s. Во я загнул!
p.p.p.s. Кстати, для естественного и непринуждённого общения с машиной на доступном языке походу придётся апгрейдить не машины, а человека. Даже введение в обиход того же эсперанто снизило бы трудоёмкость анализа текста на порядки.
p.p.p.p.s. Да-да, вы правильно поняли, неалисилившим естественно-искусственный язык --- поражение в гражданских правах, идеально - расстрел.
Для меня полезность программы переводчика определяется скорее качеством словарей, чем особенностями программы. (В этом смысле мне нравится словари из переводчика «Контекст», где можно увидеть транскрипцию слов, перевод выражений (идиом и т.п.), описание особенностей употребления слов, формы глаголов).
Если говорить о функциональности программы, не относящейся к словарям, то самые полезные особенности для меня это:
- всплывающее окно с переводом, появляющееся по горячей клавише для выделенного слова/выражения;
- отображение похожих слов, если слово не найдено в словаре;
- автоматическое отображение всех подходящих слов словаря, при вводе начальных символов слова в строке поиска.
Ещё мне нравится возможность прослушивания звучания слова (такая возможность есть, например, в GoldenDict).
translation memory или machine translation?
В первом случае есть хорошая открытая ОмегаТ, где нужно бы только поддержку большего количества форматов и всякой интеграции побольше. Второе предлагает заведомо плохое качество - втопку.
нужны, например для автоматического наполнения баз данных. В том же Пабмеде 16 миллионов статей и все кстати добавлены и отрецензированы вручную. Причем далеко не все из них англоязычные, а рецензия должна быть на каждую.
Адекватный исходнику перевод смысла станет возможен только тогда, когда
программы-переводчики научатся использовать
контекстно-зависимый фразеологический словарь.
1. Независимость от интернетов.
2. Интеграция с браузером и его плагинами для оффлайнового просмотра. Расширяемый автодетектор кодировки (enca в пролёте). Неплохо было бы еще видеть восстановитель исходной кодировки (опять же, с поддержкой CJK).
3. Понимание PDF (естественно, если там текст, а не картинки).
4. Хорошие словари европейских и азиатских языков.
5. Поддержка CJK (справа-налево и вертикального ввода).
6. Согласованность слов, падежей, склонений глаголов.
7. Словари имен, распознавание их в тексте.
8. Словари типовых фраз и элементов современных оборотов и стандартный их перевод.
9. Словари для обучения системы новым оборотам/именам/словам для каждого вида словарей.
10. Высокая скриптуемость, к примеру, на perl. Поддержка плагинов с C-шным API.