Евросоюз финансирует проект открытой системы автоматического перевода

Ответ на: комментарий от hobbit 26.01.10 22:51:46 MSK

>>>Я случайно около 2 300 000 EUR.

где?

Я бы ещё спросил - когда?

Поскольку долго такие деньги на дороге не.

За такие деньги могут и.

registrant ★★★★★
(27.01.10 06:50:49 MSK)

Ссылка

Ответ на: комментарий от KRoN73 26.01.10 23:00:12 MSK

Постановка роботами по машинному переводу:-)

anonymous
(27.01.10 07:09:51 MSK)

Ссылка

Ответ на: комментарий от jackill 27.01.10 01:54:22 MSK

Я о том и говорю, только не вместо попила, а вместе с попилом ;)

Просто эти ребята познали мудрость кота Матроскина: «Корова, конечно, государственная. А все, что она дает....». Доводилось с европейскими активистами-общественниками общаться. Бабло они крутят, но дело делают.

sabbakka ★★
(27.01.10 09:59:48 MSK)

Ссылка

Ответ на: комментарий от question4 26.01.10 22:30:15 MSK

>>>> Многие лингвисты считают

Назовите имена этих лингвистов

zapruder ★
(27.01.10 11:30:57 MSK)

Ответ на: комментарий от shty 26.01.10 22:35:35 MSK

>> пытаемся найти корреляцию между его значениями и присутствием других слов

ничем не мотивированное действие

Требовалось предложить алгоритм — предложил. Либо обосновывайте неправильность алгоритма, либо дайте ссылку на исследования, показавшие его неправильность.

Чтобы пронумеровать 10000 слов хватит 14 бит. Меньше 2 байт.

антинаучный экзорцизм

Почему антинаучный, и при чём тут экзорцизм?

Сколько значений у слова?

без пруфа

slovari.yandex.ru и перебирать слова пока не надоест. Имхо, рекорд: http://lingvo.yandex.ru/en?text=set&lang=en

Сколько слов необходимо найти из корреляций?

неизвестное науке ничем не мотивированное действие

Так сколько?

подсчёты в сферическом ваккууме

Потеряли нить рассуждений — перечитайте.

осуществимо на десктопах.

непонятно к чему приведённая величина

Это для того, кто считал, что современных компьютеров не хватит.

неуверенность в собственных подсчётах ... сомнения в исходных данных для расчёта

Всего лишь оценки сверху и снизу.

Единственная проблема — объём работ по анализу такого количества текста.

вопиющая неправда

Которые из слов в приведённом предложении вопят? «Единственная»? Тогда какие ещё есть проблемы?

не посчитаны ошибки операторов и контроль над ними

Первое дельное замечание. Простой, но затратный способ — прогонять каждый случай через нескольких операторов и устраивать голосование. Можно провести эксперимент с небольшой выборкой, для которой можно всё тщательно перепроверить, оценить из него вероятности ошибок операторов, из этого вывести необходимое количество экспериментов для надёжного установления корреляций и нивелирования случайных ошибок.

Сколько нужно будет экспериментов — не знаю. Но в областях, не связанных с филологией, существует эмпирическое правило, что достаточно 20 измерений на определяемый параметр.

ручной способ обработки текстов

Как его автоматизировать, если задача — создать такое средство автоматизации? Выше я писал, что получается замкнутый круг. Есть предложения лучше.

не учтены производственные средства

Что нужно?

По маломощному компьютеру каждому оператору — лишь бы умел выводить текст, скачивать сотни килобайт текстов каждый день и отправлять несколько килобайт результатов. В ценах первой попавшейся московской фирмы это получается от 120 евро за рабочее место-нетбук, и от 240, если неттоп.

Сервера, которые им эти данные раздают и собирают результаты. Если правильно организовать раздачу, чтобы не ломились все сразу, тоже хватит чего-нибудь маломощного и древнего, но рассчитывать на это не стоит; сервера должны быть способны раздать (с запасом) сотни мегабайт в течении нескольких секунд в начале рабочего дня, а большую часть времени простаивать. Ещё несколько сотен евро каждый.

Помещения, где всем этим людям работать. Раз это — правительственная программа, то под это должны были что-то выделить. Если не выделили, то аренда и инфраструктура (опять в первых попавшихся московских ценах) обойдётся от 1500 евро на человека в год.

Одноязычный словарь, в котором приведены все значения многозначных слов. По одному на каждый язык. Урезанные версии продаются по несколько сотен, и этого может хватить.. За полную могут взять десятки тысяч (данные 2000 года).

Программы — ниже.

не учтены затраты на собственно создание и отладку системы

Просто надеялся, что найдётся человек, который с ходу назовёт эти затраты :)

В принципе, систему для поиска и подсчёта соседних слов можно собрать за несколько десятков минут из баша и юниксовых утилит: grep, sed, sort... Интерфейс неудобный и так просто английские фразовые глаголы, и вообще словосочетания, к ней не прикрутишь. Сколько нужно времени, чтобы написать то же, но с красивым и удобным интерфейсом и универсальное — не знаю.

Вы не представляете себе с чем имеете дело

Неспособность читать написанный текст вы уже продемонстрировали, незнание предмета тоже. Я надеялся узнать что-то о применимости статистических методов к анализу языка, получил только общие рассуждения об организации труда. Неинтересно.

да, я на Вас не наезжаю, не подумайте - просто подтруниваю...

Примитивно и неоригинально. Метан, «вы ничего не понимаете». Нет бы придумать свою шутку, раз уж по филологической части сказать нечего.

question4 ★★★★★
(27.01.10 11:53:20 MSK)

Ответ на: комментарий от KRoN73 26.01.10 23:01:10 MSK

>> Тысяча человеколет - это всего лишь один год тысячи человек.

Угу. А девять беременно-месяцев это всего один беременно-месяц у девяти женщин! :)

Что не нравится? Механическую работу, состоящую из большого числа независимых мелких заданий, вполне можно распараллелить :)

question4 ★★★★★
(27.01.10 11:53:25 MSK)

Ссылка

Ответ на: комментарий от anonymous 26.01.10 22:40:22 MSK

> Человеческая цивилизация насчитывает порядка 10-120 тысяч лет.

Так 10 или 120? :)

40 тыс. лет не было ни цивилизации, ни языка в нынешнем виде. Человек был простой обезъяной и общался жестами и криками.

40 тысяч лет назад жили не слишком отличающиеся от нас органами речи и развитием мозга кроманьонцы. Говорить они, наверняка, умели.

у макак-резус в словаре порядка 30 слов, и они могут различаться от племени к племени

И что с того? Сколько миллионов лет эволюции между макаками и людьми?

Посему не могло быть общего языка 40 тыс лет назад, у каждой стаи людей были свои договоренности, что считать языком.

Необоснованное утверждение. Даже если оно верно, это не исключает возможности, что большинство таких языков исчезли без следа, а несколько диалектов дали начало всем современным языкам.

question4 ★★★★★
(27.01.10 11:53:33 MSK)

Ответ на: комментарий от zapruder 27.01.10 11:30:57 MSK

> Назовите имена этих лингвистов

Педерсен, Бернал, Старостин, Иллич-Свитыч, Долгопольский, Дыбо, Старостин, Гринберг, Бомхард, Старостин-младший, Ренфрю, Кайзер, Шеворошкин, Бенгтсон, Кернс, Дыбо. Это только по ностратической гипотезе, а существуют и другие. Тебе эти имена о чём-нибудь говорят? :)

Беда с подобными гипотезами, что людей способных аргументированно её подтверждать либо опровергать в мире всего десятки, остальным просто не хватает знаний :)

question4 ★★★★★
(27.01.10 12:17:54 MSK)

Ответ на: комментарий от question4 27.01.10 11:53:33 MSK

Современному человеку порядка 100 тыс лет. Явно недостаточно, чтобы сильно отличаться от макак. «Даже если оно верно, это не исключает возможности, что большинство таких языков исчезли без следа, а несколько диалектов дали начало всем современным языкам.» Все-таки согласны, что одного языка не было.

anonymous
(27.01.10 13:20:09 MSK)

Ответ на: комментарий от anonymous 26.01.10 17:34:18 MSK

> или там fish fish fish fish

If a doctor is doctoring a doctor, does the doctor doing the doctoring doctor the doctor being doctored the way the doctor being doctored wants to be doctored, or does the doctor doctoring the doctor doctor the doctor being doctored the way the doctoring doctor usually doctors?

sjinks ★★★
(27.01.10 15:10:47 MSK)

Ссылка

Ответ на: комментарий от question4 27.01.10 12:17:54 MSK

или не хватает фантазии:-)

anonymous
(27.01.10 16:36:35 MSK)

Ответ на: комментарий от anonymous 27.01.10 16:36:35 MSK

да чепуха это всё. Какой автоматический перевод с/на 23 языка? Где взять людей которые в совершенстве знают их все и ещё разбираются в программировании? Будет или подстрочник или перевод каких-то стандарных фраз, типо разговорника. Алгоритмически проще всего переводить всё в какую-то промежуточную форму типа искусственного языка с примитивной грамматикой или вообще к «дереву синтаксического разбора», а по нем генерить 22 перевода на другие языки. Ни о каком литературном переводе речи в принципе идти не может.

anonymous
(27.01.10 18:19:13 MSK)

Ответ на: комментарий от anonymous 27.01.10 13:20:09 MSK

> Все-таки согласны, что одного языка не было.

Я не говорил ни «да» ни «нет». Ни у кого из присутствующих нет достаточного знания современных и мёртвых языков, чтобы что-то доказывать. Одни эмоции. Сомневаюсь, что здесь найдутся люди, знающие больше 4 языков.

question4 ★★★★★
(27.01.10 23:58:41 MSK)

Ответ на: комментарий от anonymous 27.01.10 18:19:13 MSK

> Какой автоматический перевод с/на 23 языка? Где взять людей которые в совершенстве знают их все и ещё разбираются в программировании?

Программы-переводчики либо включают по модулю перевода для каждой пары языков и каждого направления, либо переводят на какой-то промежуточный язык, а с него — на любой другой. Вроде, второй подход используют Google Translate (промежуточный язык — английский) и Promt (промежуточный язык — какой-то искусственный). В первом случае нужно по 1 специалисту на каждую пару языков, специалист должен знать соответствующие 2 языка. Во втором — по специалисту на язык, специалист должен знать соответствующий 1 язык и выучить промежуточный язык (который сам по себе достаточно прост). Итого получается, что нужно не менее 22+21+20+...+1=253, либо не менее 23 лингвистов-программистов. Можно больше, но не знаю, насколько эта задача распараллеливается.

Где их взять? У каждого из этих 23 языков — от миллионов до десятков миллионов носителей, плюс их изучает немало иностранцев. Филолог-программист достаточно редкое сочетание, но не уникальное. Один только МГУ выпускает таких несколько десятков в год.

question4 ★★★★★
(28.01.10 00:21:43 MSK)

Ответ на: комментарий от question4 27.01.10 23:58:41 MSK

Побойтесь черта, на ЛОРе большинство аналитегов русский не знает!

anonymous
(28.01.10 00:22:31 MSK)

Ссылка

Ответ на: комментарий от question4 28.01.10 00:21:43 MSK

Нерентабельно разрабатывать переводчик для языка, на котором говорит миллион людей. Они все равно не заплатят достаточно.

anonymous
(28.01.10 00:23:42 MSK)

Ответ на: комментарий от anonymous 27.01.10 13:20:09 MSK

> Современному человеку порядка 100 тыс лет. Явно недостаточно, чтобы сильно отличаться от макак.

Вообще-то ветви людей, шимпанзе и бонобо разделились несколько миллионов лет назад (от 4 до 8 по разным оценкам). Человекообразные отделились от мартышковых порядка 25 миллионов лет назад. Прекрати пороть чушь.

question4 ★★★★★
(28.01.10 00:41:33 MSK)

Ответ на: комментарий от anonymous 28.01.10 00:23:42 MSK

> Нерентабельно разрабатывать переводчик для языка, на котором говорит миллион людей. Они все равно не заплатят достаточно.

А это не для частных лиц. Это для органов власти. Как сказали выше, чтобы все носители основных языков ЕС могли читать распоряжения органов власти ЕС.

question4 ★★★★★
(28.01.10 00:44:30 MSK)

Ссылка

Ответ на: комментарий от question4 27.01.10 12:17:54 MSK

>>>>> Тебе эти имена о чём-нибудь говорят? :)

1. а почему мы с вами на ты? 2. не говорят, но лингвистику в инязе нам преподавали 3. к сожалению получается что лингвистов в мире всего чуть больше 16 человек. при этом, чтобы наскрести «большинство» - вам пришлось притащитъ за уши лингвистов - которых уже 60 лет как нет вживых

zapruder ★
(28.01.10 04:39:46 MSK)

Ответ на: комментарий от question4 27.01.10 23:58:41 MSK

>>>>> Ни у кого из присутствующих нет достаточного знания современных и мёртвых языков, чтобы что-то доказывать

вы опросили всех присутствующих?

zapruder ★
(28.01.10 04:42:58 MSK)

Ссылка

Ответ на: комментарий от question4 27.01.10 11:53:33 MSK

>>>>> Даже если оно верно, это не исключает возможности, что большинство таких языков исчезли без следа, а несколько диалектов дали начало всем современным языкам.

ага, а все современные языки програмирования берут начало от Алгола %))))))

zapruder ★
(28.01.10 04:46:14 MSK)

Ссылка

Ответ на: комментарий от zapruder 28.01.10 04:39:46 MSK

1. а почему мы с вами на ты?

Кто-то предпочитает «ты», кто-то «вы». Прошу прощения, перепутал.

чтобы наскрести «большинство»

Где я говорил про большинство? Я говорил про «много» :)

вы опросили всех присутствующих?

Об этом говорит уровень дискуссии :)

лингвистику в инязе нам преподавали

Отлично, хоть один специалист сюда забрёл.

Итак, вопросы:

Насколько Grammatical Framework пригодна для поставленной задачи?
Учитывая имеющиеся у GF наработки, реально ли 20-30 сотрудникам за 3 года достигнуть поставленных MOLTO целей? То есть:
1. Создать автоматические переводчики для математических упражнений, биомедицинских патентов, и описаний музейных экспонатов.
2. Создать инструментарий для изготовления переводчиков, которому достаточно будет на вход дать словарь и несколько предложений-примеров, и на выходе будет переводчик для соответствующей области знаний («domain» в терминах MOLTO). Кстати, как этот термин переводить на русский: «домен», «область знаний» или как-то ещё?
Насколько реалистично опознавать к какой области знаний относится текст по статистике близко встречающихся слов?
Что в ваших учебниках было написано про ностратическую гипотезу?
Как сейчас положено писать: «иняз» или «инъяз»?

question4 ★★★★★
(28.01.10 06:33:58 MSK)

Ответ на: комментарий от question4 28.01.10 06:33:58 MSK

1. не пригодна 2. нет 3. не реалистично 4. что это гипотеза 5. Кто-то предпочитает «иняз», кто-то «инъяз». Прошу прощения, перепутал.

zapruder ★
(28.01.10 09:25:15 MSK)

Ответ на: комментарий от question4 28.01.10 00:41:33 MSK

Вот только почему-то социальное устройство человеческого стада от макак-резусного или шимпанзейного не отличается до сих пор. Сюрприз? Не говоря уж о теориях, что человек произошел от вымершего вида лемуров.

anonymous
(28.01.10 09:51:39 MSK)

Ответ на: комментарий от zapruder 28.01.10 09:25:15 MSK

> 1. не пригодна

2. нет

Можно поподробнее?

question4 ★★★★★
(28.01.10 10:39:54 MSK)

Ответ на: комментарий от anonymous 28.01.10 09:51:39 MSK

> социальное устройство человеческого стада от макак-резусного или шимпанзейного не отличается

Вообще-то устройство макак-резусного стада сильно отличается от шимпанзейного :)

question4 ★★★★★
(28.01.10 10:40:04 MSK)

Ответ на: комментарий от question4 28.01.10 10:39:54 MSK

нельзя

zapruder ★
(28.01.10 11:53:36 MSK)

Ответ на: комментарий от zapruder 28.01.10 11:53:36 MSK

Обидно. Всего один специалист в треде, и тот липовый оказался :(

question4 ★★★★★
(28.01.10 14:23:10 MSK)

Ответ на: комментарий от question4 28.01.10 10:40:04 MSK

ДНК человека отличается от ДНК шимпанзе лишь на 2%: «Вот в них-то и разница».

anonymous
(28.01.10 16:04:16 MSK)

Ответ на: комментарий от question4 28.01.10 14:23:10 MSK

так все-таки специалист или липовый? вы определитесь пожалуйста

zapruder ★
(28.01.10 17:55:26 MSK)

Ответ на: комментарий от question4 27.01.10 11:53:20 MSK

Требовалось предложить алгоритм — предложил.

нет, вменяемого алгоритма Вы не предложили (то что Вы предложили, а именно посчитать и перенумеровать - это просто смешно), а так же нет и обоснования достоверности - говорить не о чём

shty ★★★★★
(28.01.10 22:27:37 MSK)

Ответ на: комментарий от zapruder 28.01.10 17:55:26 MSK

> так все-таки специалист или липовый?

Утверждаете, что получили соответствующее образование, но продемонстрировать соответствующую подготовку не хотите или не можете. Ну и кто вы после этого? :)

question4 ★★★★★
(28.01.10 23:14:54 MSK)

Ответ на: комментарий от anonymous 28.01.10 16:04:16 MSK

> ДНК человека отличается от ДНК шимпанзе лишь на 2%: «Вот в них-то и разница».

Неверно :) Отличающихся активных генов пока нашли всего 3 штуки, остальные отличия в «мусорной» части. Ожидают ещё порядка 20. С макаками отличий будет в несколько раз больше.

Другое дело, что пока не ясно, как гены связаны с речью и социальной организацией.

question4 ★★★★★
(28.01.10 23:15:01 MSK)

Ответ на: комментарий от shty 28.01.10 22:27:37 MSK

> Вы предложили, ... посчитать

Есть более простой способ узнать частоту употребления определённого значения многозначного слова?

перенумеровать

Просто способ кодирования результатов. Чем не нравится?

нет и обоснования достоверности

Вот его я и прошу! :) Внятное обоснование или опровержение.

question4 ★★★★★
(28.01.10 23:15:05 MSK)

Ответ на: комментарий от question4 28.01.10 23:14:54 MSK

кто?

zapruder ★
(29.01.10 01:28:32 MSK)

Ответ на: комментарий от question4 28.01.10 23:15:01 MSK

социальная организация определяется гормональной системой, отрабатывающей реакции существа на внешние воздействия, соответственно искать надо в тех генах, которые за нее отвечают. Речь в генах налтчествует только в генах, кодирующих голосовые связи, способные к ее произношению. сам язык человек изучает, подражая родителям, посему к генам речь не имеет отношения. Дети-маугли не умеют говорить.

anonymous
(29.01.10 01:33:08 MSK)

Ответ на: комментарий от anonymous 29.01.10 01:33:08 MSK

голосовые связки

anonymous
(29.01.10 01:33:42 MSK)

Ссылка

Ответ на: комментарий от zapruder 29.01.10 01:28:32 MSK

Липовый?

question4 ★★★★★
(29.01.10 08:54:38 MSK)

Ответ на: комментарий от question4 28.01.10 23:15:05 MSK

> Вы предложили, ... посчитать
Есть более простой способ узнать частоту употребления определённого значения многозначного слова?

дело в том что частота употребления слова ничего не скажет Вам о контексте в котором оно используется, например встретился Вам пресловутый «кран», вы знаете что наиболее часто это слово употребляется как кухонный крана... и что? разве не может встретившийся Вам кран быть строительным?

но если считать частоту употребления слова в тексте то, в данном случае, Вы - правы, действительно путём статистического анализа это и делается

> перенумеровать
Просто способ кодирования результатов. Чем не нравится?

Не нравится тем что это ничего хорошего не принесёт. Почему? Вот, например, у Вас есть такая таблица и Вы встречаете в тексте слово «стекло», как Вы будете искать номер этого слова?

> нет и обоснования достоверности
Вот его я и прошу! :) Внятное обоснование или опровержение.

это, вобще-то, задача разработчика алгоритма :)

shty ★★★★★
(29.01.10 09:30:08 MSK)

Ответ на: комментарий от anonymous 29.01.10 01:33:08 MSK

Дети-маугли не умеют говорить.

и шанса научить говорить их уже нет

shty ★★★★★
(29.01.10 09:32:33 MSK)

Ссылка

Ответ на: комментарий от question4 29.01.10 08:54:38 MSK

а может вы ошибаетесь?

zapruder ★
(29.01.10 11:01:28 MSK)

Ссылка

Ответ на: комментарий от shty 29.01.10 09:30:08 MSK

> но если считать частоту употребления слова в тексте то, в данном случае, Вы - правы,

Частоту употребления не одного слова, а сочетаний слов в определённом контексте.

Вот, например, у Вас есть такая таблица и Вы встречаете в тексте слово «стекло», как Вы будете искать номер этого слова?

Заранее составить список слов для данного языка. Пополнять по мере необходимости.

question4 ★★★★★
(30.01.10 13:58:26 MSK)

Ответ на: комментарий от question4 30.01.10 13:58:26 MSK

> но если считать частоту употребления слова в тексте то, в данном случае, Вы - правы,
Частоту употребления не одного слова, а сочетаний слов в определённом контексте.

так, опять 25, ну ладно поиграем ещё...

допустим что составили, но что это даёт?

пример: вы знаете что словосочетание открыть кран в 80% случаев используется в контексте открытии кухонного крана, в 18% - в контексте открытия кабины башенного крана на стройке, а так же в 2% неведомых случаев

вы встречаете это словосочетание в тексте... опишите алгоритм

> Вот, например, у Вас есть такая таблица и Вы встречаете в тексте слово «стекло», как Вы будете искать номер этого слова?
Заранее составить список слов для данного языка. Пополнять по мере необходимости.

уже составлен, как будете осуществлять поиск?

shty ★★★★★
(30.01.10 22:30:39 MSK)

Ссылка

Похожие темы