алгоритмЫ сопоставления наборов строк

0

1

есть два множества строчек, A и B, например:

A = Москва, Санкт-Петербург, Россия

B = Страна Россия, город Санкт-Петербург, Москвва

Строчки из двух множеств соответствуют друг другу («похожи») один-в-один. Какие есть алгоритмы, чтобы найти это соответствие?

На ум пока приходят проверки орфографий итп, но неясно, как с их помощью сопоставить, скажем, «городок Санкт-Петербург» и «городишко Петербург». А также не будет учтен тот факт, что соответствие 1-1

UPD может, есть какая программулька для подобной задачи

Ссылка

← Помогите решить задачу на Assembler

Идея криптовалюты добра →

http://en.wikipedia.org/wiki/Normalized_Google_distance

по-моему то что надо =)

pousqie
(25.12.13 07:10:50 MSK)

Ответ на: комментарий от pousqie 25.12.13 07:10:50 MSK

хм. это надо гугл спрашивать будет, какие слова похожи?)

... или самому стать гуглом^W^W написать url-бродилку

MyTrooName ★★★★★
(25.12.13 07:15:13 MSK) автор топика
Последнее исправление: MyTrooName 25.12.13 07:16:18 MSK (всего исправлений: 1)

Ответ на: комментарий от MyTrooName 25.12.13 07:15:13 MSK

ну, никто лучше гугла не знает какие слова похожи а какие нет, по крайней мере не умеет делать это автоматически. Похожие по написанию слова можно найти посчитав какое-нибудь расстояние хемминга. Думаю, можно даже достаточно надежно найти похожие по звучанию слова, взяв какой-нибудь аналог SOUNDEX для русского языка. А вот насколько сочетания слов похожи по смыслу лучше спросить у гугла, он же заодно и орфографию поправит, и всё что надо сделает.

pousqie
(25.12.13 07:28:39 MSK)