нечеткий поиск подстроки

0

1

Есть две строки, 1я короткая 1-3 слова, вторая длинная 10-20 слов, надо определить, находится ли первая строка во второй или на сколько процентов она там находится. Посоветуйте алгоритмы :)

Ссылка

← Счетчик посещений на сайт, сравнение

PyQt и WYSIWYG-редактирования HTML →

КМП, БМ. Проникните в суть, модифицируйте.

ilias
(19.01.11 23:47:39 MSK)

LCS?

arsi ★★★★★
(19.01.11 23:57:06 MSK)

Ссылка

Ответ на: комментарий от ilias 19.01.11 23:47:39 MSK

спасибо что закидали меня абривеатурами :) КМП ищет точную подстроку в строке, БМ вообще не нашел, но подозреваю что тоже.

Zubchick ★
(20.01.11 00:18:30 MSK) автор топика

Ответ на: комментарий от Zubchick 20.01.11 00:18:30 MSK

Пойдет?

http://ru.wikipedia.org/wiki/Longest_common_substring

//лень разлогиниваться

~~kifer~~
(20.01.11 00:20:43 MSK)

Ссылка

Вы измеряете длину строк в словах. Значит ли это, что вы оперируете только целыми словами или просто длина так выражена приблизительно?

proud_anon ★★★★★
(20.01.11 03:27:09 MSK)

agrep - text search tool with support for approximate patterns

~~sdio~~ ★★★★★
(20.01.11 09:06:28 MSK)

Ссылка

Ответ на: комментарий от proud_anon 20.01.11 03:27:09 MSK

да, две строки на естественном языке. Одна короткая другая длинная. Конечно меня интересуют целые слова, но они могут быть в разном порядке или в разных формах.

Zubchick ★
(20.01.11 13:30:30 MSK) автор топика

Ссылка

построить индекс по всем вариантам слов (для разных форм одного слова использовать один id) задача сведется к поиску подмножества int-ов

C
(20.01.11 15:23:50 MSK)

Ответ на: комментарий от C 20.01.11 15:23:50 MSK

да, я так изначально и предполагал, используя pymorphy находить инфинитивы... Но вдруг есть способ попроще? :)

Zubchick ★
(20.01.11 17:51:10 MSK) автор топика

Ответ на: комментарий от Zubchick 20.01.11 17:51:10 MSK

>да, я так изначально и предполагал, используя pymorphy находить инфинитивы... Но вдруг есть способ попроще? :)

Если вы оперируете на уровне лексем и не ниже, «алгоритм попроще» для строк максимум в 20 лексем может оказаться писать сложнее, чем профиту будет с него.

Можно разве что какие-нибудь оптимизации провести. Вывести какие-нибудь правила типа «X и Y не могут быть формами одной лексемы, если у них не совпадают первые n символов» и ускорить поиск предварительной проверкой. Но это все мелочи.

Может быть, можно придумать набор простых правил для конкретного словаря/множества слов.

Впрочем, может быть, кто-то и знает более простой способ.

proud_anon ★★★★★
(20.01.11 22:19:55 MSK)

Ссылка

Хм.. ну, если я правильно понял, то необходима необходима некая эвристика (тем более, что мера сходства не указана).

Определим меру различия двух слов как минимальное количество операций, которые нужно применить к слову A, чтобы получить слово B. Операции: удалить символ, записать лишний симво, заменить символ на другой.

Для слов A и B считается динамикой значение f(len A, len B):

f(n, k) = min { f(n-1, k) + 1, f(n, k-1) + 1, f(n-1, k-2)*(An==Bk) + (f(n-1, k-2) + 1)*(An!=Bk) }

Меру различия можешь потом нормировать по длинне слова, хз. Потом каждому слову из мелкой подстроки ищешь найболее подходящее, например. Где-то так.

Waterlaz ★★★★★
(21.01.11 01:47:20 MSK)