LINUX.ORG.RU

натуральный язык


0

0

Хмм.. Посоветуйте какую-нибудь общеохватывающую литературу про разбор натурального языка (таггеры, флексия, синтактически анализ, машинный перевод и т.д. и т.п.).

Есть какой-нибудь маст рид?

>про разбор натурального языка

Не алгоритмизуется ни чего из этого. Точнее, любая модель, описывающая натуральный язык, будет противоречивой.

record ★★★★★
()
Ответ на: комментарий от record

> Не алгоритмизуется ни чего из этого. Точнее, любая модель, описывающая натуральный язык, будет противоречивой.

Пораженец, блин.

Вообще-то, это теоретически довольно глубоко разработанная тема; уж морфологический и синтаксический анализ - точно. Проблемы в основном в производительности (полный синтаксический разбор, с построением всех деревьев, выбором возможных по синтаксическим и "семантическо-синтаксическим" словарям занимает гигантское время и объем памяти) и трудоемкости (те самые синтаксически словари строятся если не вручную, то близко к тому; максимум - набираем N миллионов статистических фактов, а потому вручную выбрасываем примерно половину плохих).

Этим все занимаются как исследователи, так и коммерческие конторы (поисковики, новостные агрегаторы, создатели электронных словарей и переводчиков - у Abbyy есть какой-то полусекретный мегапроект самого-крутого-в-мире-переводчика).

В открытом же доступе довольно и кода, и материалов негусто, да. AOT уже упомянули; еще есть яндексный mystem, без исходников, (http://company.yandex.ru/technology/products/mystem/mystem.xml) и РусКорпора - скачать размеченный корпус, увы, нельзя - только поискать по нему (http://ruscorpora.ru/).

anonymous
()
Ответ на: комментарий от record

Что не алгоритмизируется то понятно. Использование статистических методов это конечно будущее.

Но есть целый ряд технологий которые широко известны и применяются: парсинг, таггеры и всякой такое прочее.

Хотелось бы что-нибудь прочитать концептуальное...

dissident ★★
() автор топика
Ответ на: комментарий от dissident

Почитай что-нибудь по теоретической грамматике. Эти "ученые" уже тысячи лет пытаются построить совершенную четкую грамматику с однозначными морфологическими и синтаксическими правилами, и ничего у них не выходит, потому что это невозможно, кроме как в искуственных языках. Давно пора понять, что в натуральных языках нет правил. Есть тенденции, более или менее различаемые в языке. Именно поэтому, почти на каждое "правило" есть исключение. Язык нам дан как есть, он проявляется в речи (устной и письменной), через речь в конечном итоге меняется. Анализ (морфемный, морфологический, синтаксический) речи никогда не будет точным. Только приблизительный. И более того, необъективный. Попробуй, например, разобрать слово ПТИЦА по частям (морфемный анализ). Историк языка скажет, ага, птица, птенчик, значит, четко выделяется корень пт, иц - суффикс, а окончание. Современный грамматик скажет: а идите вы, я не знаю значения суффикса иц, не признаю его суффиксом. И корень слова будет, значит, птиц. Короче, в грамматике много субъективного. Считаю, что единственный верный подход в выявлении языковых закономерностей - статистический. Для выявления тенденций и отклонений.Но я бы не хотел этим заниматься.

Про переводы лучше вообще не вспоминать. Потому что у слова/фразы в контексте может быть _любое_ значение, особенно в художественных текстах. И никакой словарь не спасет.

record ★★★★★
()
Ответ на: комментарий от record

>Про переводы

Адекватного машинного перевода не может быть в общем случае. Но это не значит, что нельзя ставить задачу о нахождении перевода, пусть приблизительного. Если б у меня стояла такая задача, то я б шел не от слов в значениям (в соответствии с одним из словарей) а от контекста к его переводу. Т.е. должно быть уже готовая огромная база переводов текстов, отрывков, предложений, словосочетаний и если готового перевода нет, то только тогда спускаться на самый примитивный и ненадежный уровень - перевод слов по словарю. Таким методом можно добиться адекватного перевода, но для этого нужно проделать огромную работу по заполнению вышеупомянутой базы данных. Вновь получаемые адекватные переводы после подтверждения должны сохраняться в базе.

record ★★★★★
()
Ответ на: комментарий от record

Секретный мегапроект ABBYY --- похоже, что-то типа экспертной системы. В случае перевода она скорее всего пытается угадать по окружению какое из значений слова в данном случае используется.

Огромная база translation memory --- это подход гуглевского переводчика, у них самая большая база накоплена, но результаты пока не обнадёживают.

anonymous
()
Ответ на: комментарий от anonymous

> В случае перевода она скорее всего пытается угадать по окружению какое из значений слова в данном случае используется.

Вероятность угадывания очень низкая. И чем более художественный текст, изобилующий лексемами с переносным значением, тем ниже вероятность угадывания. Я уже писал, словарь без (A)I бесполезен.

>translation memory --- 

Имеем: 0)текст для перевода, 
       1)набор текстов и их переводов,
       2)набор предложений и их переводов,
       3)набор словосочетаний и их переводов,
       4)тематические словари слов.
Найти перевод.
Алгоритм такой:
a) ищем общие элементы 0) в 1), найденное заносим в перевод, 
б) ищем остающиеся общие элементы 0) в 2), найденное заносим в перевод, 
в) ищем остающиеся общие элементы 0) в 3), найденное заносим в перевод,
г) по недостающим элемента угадываем тематику (попытка не пытка).
д) дословный перевод слов по тематическому словарю. 
е) проверка перевода на адекватность,занесение текста и перевода в 1),[ предложения перевода в 2) - впрочем 2) [ и 3)] может быть независимой бд]
Впрочем, возможны детали реализации.

record ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.