LINUX.ORG.RU

Ответ на: комментарий от by_zero

Ну это не обязательно будут фразеологизмы. Например, «следственный эксперимент», скорее всего, окажется коллокацией, а ведь это не вполне фразеологизм. Если надо различать значения, то это крайне сложная задача.

Но обычный поиск коллокаций — это довольно просто. Самый примитивный способ такой. Ты берёшь корпус текстов и определяешь вероятность появления каждой лексемы (частота встречаемости лексемы, делённая на количество лексем в корпусе). Потом ты определяешь вероятность появления каждой биграммы (пары слов друг за другом). Если вероятность появления биграммы значительно выше произведения вероятностей появления входящих в неё слов (т.е. эти два слова встречаются вместе значительно чаще, чем случайно), биграмма является коллокацией. Определение понятия «значительно выше» следует брать из подходящего статистического теста.

Естественно, при этом может получиться слишком много коллокаций. Тогда нужно начинать рассматривать встречаемость отдельных слов в разных контекстах, и так далее.

Я уже в соседнем треде упоминал Маннинга и Шутце, там изложено подробно про коллокации.

proud_anon ★★★★★ ()
Ответ на: комментарий от proud_anon

делённая на количество лексем в корпусе

s/количество лексем/количество слов/ (иначе, естественно, будет чушь)

proud_anon ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.