Поиск образца в строке

0

3

Нужно по набору (мета)символов находить все совпадения в заданной строке. Метасимвол всего один — * (0 или более произвольных символов). Например, для a*a в строке ababa должны быть найдены:

aba, ababa, aba

Писать свой движок регулярок смысла нет, т.к., как я понимаю, регулярки умеют распозновать только одно совпадение за раз, а здесь, например, нужно на втором символе «a» определить как первое совпадение, как потенциальное начало другого, и еще продолжение третьего (начиная с первой «a»), т.к. перед ним еще есть «*».

Какие эффективные способы решения для этого существуют?

Ссылка

← QCoreApplication QThread QTcpSocket нету данных в сокете ?

API Apache Cloudstack и Java →

Метасимвол всего один — * (0 или более произвольных символов). Например, для a*a

a.*a

anonymous
(31.05.15 13:01:04 MSK)

Ответ на: комментарий от anonymous 31.05.15 13:01:04 MSK

Ну да, в моем случае * — означает .*

Samu
(31.05.15 16:57:38 MSK) автор топика

Ссылка

В книгах «Практика программирования» (где про grep) и «Идеальный код» (первая глава) приводится реализация подмножества регулярных выражений объёмом в 35 строк. Я бы для начала переделал его (код одинаковый) под задачу и посмотрел на скорость. Если будет слишком медленно, то думать дальше (хотя при m * должно получиться в районе bigomega(N^m), т.е. не быстро в любом случае).

xaizek ★★★★★
(31.05.15 19:09:25 MSK)

Ответ на: комментарий от xaizek 31.05.15 19:09:25 MSK

Тот код в 35 строк я, кажется, уже видел, когда искал что-то по теме. Можно попробовать просто удалять m встречающихся подряд * до одной. А как подобная задача обычно решается? Наверняка же реализованы уже хорошие методы для overlapping matches.

Samu
(31.05.15 20:42:49 MSK) автор топика

Ответ на: комментарий от xaizek 31.05.15 19:09:25 MSK

И если использовать тот код (если я правильно помню), то оно будет доходить только до первого совпадения, не считая еще того, что нужно будет проверить варианты для подстрок с началами во всех возможных местах (string.length).

Samu
(31.05.15 20:47:03 MSK) автор топика

а головой думать ?

тот самый случай когда универсальное решение(регулярки) проигрывают частному.

причем начало одинаково для всех: ищешь последний маркер и глядишь в очередь.

ps/ я бы на С написал, будь такая необходимость.

MKuznetsov ★★★★★
(31.05.15 21:00:25 MSK)

Ссылка

Ответ на: комментарий от anonymous 31.05.15 13:01:04 MSK

Из паттерна делаем строку с 2 нулями на конце, заменяем '*' нулем.
Ищем первый образец, от следующего за концом найденного символа ищем следующий образец. Повторяем, пока не закончится строка образцов.
Получив искомый фрагмент, сдвигаем начало поиска последнего (n-го) фрагмента образца на 1, повторяем, собирая совпавшее. Повторяем для n-1, n-2,.. фрагментов образца рекурсивно.

bormant ★★★★★
(31.05.15 21:08:37 MSK)
Последнее исправление: bormant 31.05.15 21:10:14 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Samu 31.05.15 20:42:49 MSK

Можно попробовать просто удалять m встречающихся подряд * до одной.

Это да, но от a*b*c*d*e не спасёт (это вырожденный случай, конечно).

А как подобная задача обычно решается? Наверняка же реализованы уже хорошие методы для overlapping matches.

Вполне возможно, но мне описания подобных алгоритмов не встречались, поэтому не знаю стандартного решения.

xaizek ★★★★★
(31.05.15 21:14:50 MSK)

Ссылка

Ответ на: комментарий от Samu 31.05.15 20:47:03 MSK

И если использовать тот код (если я правильно помню), то оно будет доходить только до первого совпадения, не считая еще того, что нужно будет проверить варианты для подстрок с началами во всех возможных местах (string.length).

Всё так, но если убрать пару проверок, то он станет обходить все варианты. Надо просто продолжать искать до конца строки, даже если уже видели совпадение. И там вроде не жадный оператор * был, его надо научить идти дальше после успешного совпадения.

xaizek ★★★★★
(31.05.15 21:18:32 MSK)

Ссылка

не помню откуда утащил

static int string_matchhere(char *regexp, char *text)
{
    if (!*regexp)
        return !*text;
    if (*regexp == '*')
        return string_matchstar(regexp + 1, text);
    if (!*text && *regexp == *text)
        return string_matchhere(regexp + 1, text + 1);
    return 0;
}

static int string_matchstar(char *regexp, char *text)
{
    do
        if (string_matchhere(regexp, text)) return 1;
    while (*text++);
    return 0;
}

static int string_match(char *regexp, char *text)
{
    if (regexp[0] == '^')
        return string_matchhere(regexp + 1, text);
    do
        if (string_matchhere(regexp, text)) return 1;
    while (!*text++);
    return 0;
}

mix_mix ★★★★★
(01.06.15 00:45:26 MSK)

Ссылка

$ cat aba.prolog 
aba([a | R]) --> any(_), [a], any(X), [a], {append(X, [a], R)}, any(_).
any([]) --> [].
any([X | XS]) --> [X], any(XS).

:- initialization(main).
main :- findall(R, phrase(aba(R), [a,b,a,c,a,d]), RS), print(RS).
$ prolog
| ?- ['aba.prolog'].
[[a,b,a],[a,b,a,c,a],[a,c,a]]

kim-roader ★★
(01.06.15 01:21:39 MSK)

Ссылка

Какие эффективные способы решения для этого существуют?

Добавлю к предложенным еще пару способов, с предварительной обработкой.

Если маска известна на этапе компиляции и нужно искать совпадения в разных строках, то можно генерировать код для матчинга. То есть сделать что-то типа re2c, только проще.

Если строка для поиска постоянна, а меняются только маски, можно попробовать матчить с помощью суффиксного массива. Он дает быстрый (log(N)) поиск подстроки (точнее поиск смещения подстроки в строке) + подстроки в нем отсортированы. Для строки 'ababa' и подстроки 'a' получим индексы 1, 3, 5, уже почти готовое решение.

Deleted
(01.06.15 11:18:14 MSK)