LINUX.ORG.RU
ФорумTalks

Пора обновить свой GitHub

 ,


1

1

С момента моих последних изменений на гитхабе прошло прилично времени. Пора залить что-то новое и (возможно) полезное. Но делать очередной велосипед неохота, а начинать писать проект на 2 года я не готов морально. Прошу совета, что сейчас такого постят чтобы и красиво и модно и т.д. Python если что



Последнее исправление: a1batross (всего исправлений: 1)

Ответ на: комментарий от torvn77

есть два типа

Больше

Машинный перевод на основе правил (Rule-Based Machine Translation)

Там «не совсем» словари. Можно посмотреть Apertium

Машинный перевод на основе примеров (Example-based machine translation, EBMT)

Например Cunei или KyotoEBMT

Статистический машинный перевод (Statistical machine translation — SMT)

Moses, Joshua, Phrasal Этих хватает.

Нейронный машинный перевод (Neural Machine Translation, NMT)

OpenNMT, Marian

И гибриды - сочетания этих.

По ссылкам для SMT и NMT можно найти и кучу инфы о том, как они работают

Kuzz ★★★
()
Последнее исправление: Kuzz (всего исправлений: 1)
Ответ на: комментарий от torvn77

Ну вот, опять задача превратилась в монстра на пару лет минимум, которые никто не оплатит. Надо хотя бы команду собрать, в одно рыло нет смысла браться.

InterVi ★★★★
()
Ответ на: комментарий от torvn77

Вот да, гуев (открытых) ни к одной системе я не нашел. Хотя у апертиума есть неплохая веб-морда (она у них и на сайте есть)

Но проблема больше в другом - ресурсы (как и в играх).
Для апертиума пара ru-en в зачаточном состоянии. Да и сама система не особо для таких пар заточена

Apertium возникла как инструмент машинного перевода в рамках проекта OpenTrad и первоначально была предназначена для перевода между родственными языками, однако недавно её возможности были расширены для охвата более несхожих языковых пар.

Короче, требуется много работы (лингвиста, похоже)

Kuzz ★★★
()
Последнее исправление: Kuzz (всего исправлений: 1)
Ответ на: комментарий от Kuzz

Для апертиума пара ru-en в зачаточном состоянии.

Может это и не проблема, в моём понимании работа по переводу текста должна вестись так:

Сначала составляется список всех используемых в тексте слов, потом из разных словарей берутся переводы этих слов и объединяются в один не большой словарь, с которым далее и пойдёт работа состоящая в изменении приоритета разных переводов того или иного слова и при необходимости дополнения словаря из других источников и проверки правильности изменений путём повторного автоматического перевода текста.

Ну ещё бы хорошо предусмотреть бекпортирование изменений в основной словарь.

В общем работа лингвиста в смысле составления исходного словаря не очень то и нужна, по началу в нём можно и накосячить, а потом просто надо принять коммиты с исправлениями.

torvn77 ★★★★★
()
Последнее исправление: torvn77 (всего исправлений: 2)
Ответ на: комментарий от torvn77

Полно сервисов предоставляющих услуги перевода текста бесплатно уже сейчас. Или очень хочется именно офылайновое приложение?

grem ★★★★★
()
Ответ на: комментарий от torvn77

Как-то напоминает описание подходов 60-х годов)

Сомневаюсь, что это будет быстрее и проще ручного перевода с теми же словарями.
Да и у слова есть много форм (падежи, род, число и т.д.), + словосочетания, которые имеют иное значение, чем слова из него.

Kuzz ★★★
()
Ответ на: комментарий от Kuzz

У Промта работа со словорём была довольно простой, варианты перевода имели приоритет и большинство изменений состояли просто в поднятии на верх или вторую или третью позицию тех или иных вариантов перевода. С идиомами, собственными именами и прочим в том же духе тоже было просто, выделяешь нужные слова и задаёшь фиксированный перевод, хотя по мне так лучше было бы указывать тип, такой как имя собственное, абривеатура, идиома, оборот речи и так далее, может потом можно было бы сделать для разных типов разные нюансы.

torvn77 ★★★★★
()
15 декабря 2019 г.
Ответ на: комментарий от Tanger

только что увидел уведомление, нужно сделать удобный фаервалл с галочками и списком программ!, вот чего нет на линуксе

Sapetuko ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.