Регулярные выражения - вес для совпадений

0

1

Есть строка и есть набор регулярных выражений. Нужно найти регулярное выражение наиболее близкое строке.

К примеру строка «abcdef» . «Интуитивно» понятно что следующие выражения будут «ближе» к строке в порядке убывания:

^abcdef$
.*abcdef$
.*abcdef.*
.*ab[bc]def.*
.*ab[a-z]def.*
.*ab[a-zA-Z]def.*
.*ab[c-f]+.*

Ссылка

←	Int в Hex, ускорить и укоротить

Узнать каким компилятором собиралась программа.

→

«Интуитивно» понятно

Этим человек и отличается от бездушной машины. Задача решается, но критерии интуитивности должны быть сформированы ТОБОЙ в жёсткой логике.

anonymous
(03.07.14 22:13:27 MSK)

Ссылка

Чем тебя не устраивает перечисление всех вариантов в группах? ((Вариант A)|(Вариант B)|(Вариант С))

anonymous
(03.07.14 22:18:50 MSK)

Ссылка

Мне непонятно, почему последнее «дальше», чем предпоследнее.

Miguel ★★★★★
(03.07.14 22:21:22 MSK)

Была у меня задача, в которой можно было бы применить решение из этой темы: Поиск в множестве шаблонов по конкретному образцу

Но увы, ответ так и не найден. Можно попробовать сделать критерий совпадения образца и регулярки. Но лучше просто конкретизируй задачу, тогда получишь более дельный совет.

KennyMinigun ★★★★★
(03.07.14 22:25:22 MSK)

Ссылка

Ответ на: комментарий от Miguel 03.07.14 22:21:22 MSK

Последнее матчит 4 символа диапазоном, предпоследнее только 2. Если не было бы звёздочек по бокам, то близость можно было бы оценить суммой log(Wk), Wk длина диапазона маски для k-го символа строки.

~~mashina~~ ★★★★★
(03.07.14 22:30:07 MSK)

Можно попробовать строить дерево: abc -> { {X}bc, a{X}c, ab{X}, и {X}abc, a{X}bc .. } и смотреть какую ссумарную глубину допистит каждый регэксп. Это навскидку, надо смотреть.

anonymous
(03.07.14 23:16:45 MSK)

Ответ на: комментарий от anonymous 03.07.14 23:16:45 MSK

// ссумарную глубину - ну понятно, предел в общем случае какой-то придется вводить

anonymous
(03.07.14 23:17:43 MSK)

Ответ на: комментарий от anonymous 03.07.14 23:17:43 MSK

Ах да, лучше не просто количество, а нормировать каждый узел по длине левенштайна.

anonymous
(03.07.14 23:19:30 MSK)

Ссылка

Ответ на: комментарий от mashina 03.07.14 22:30:07 MSK

Зато в предпоследнем сам диапазон в несколько раз шире.

Miguel ★★★★★
(03.07.14 23:55:48 MSK)

Ответ на: комментарий от Miguel 03.07.14 23:55:48 MSK

Точно, не заметил. Ну тогда да, не понятна логика ТСа.

~~mashina~~ ★★★★★
(04.07.14 00:04:07 MSK)

Ссылка

Еще не решал, но предположу навскидку.

1. Весовой функции, вычисляемой за O(length(regexp+string)) не существует.

2. Без поиска в пространстве некоторых «состояний» не обойтись.

3. Существует такое понятие, как эвристический поиск.

Обещаю подумать. Самому стало интересно. Задача сложной не выглядит.

anonymous
(04.07.14 00:34:34 MSK)

Ссылка

Даже не знаю, что значит интуитивно.

Регулярное выражение описывает язык. Во всех случаях кроме первого языки бесконечны и... что значит «ближе» в таком случае - не ясно.

Если бы языки были конечными, можно было бы сказать что наиболее близкий - то есть наименьший, в котором данное слово ещё присутствует.

Такое вот имхо.

invy ★★★★★
(04.07.14 04:19:33 MSK)

Ссылка

Ответ на: комментарий от Miguel 03.07.14 22:21:22 MSK

потому что в последнем больше компонентов неограниченной длины

MyTrooName ★★★★★
(04.07.14 04:24:58 MSK)

Ссылка

AGREP, an approximate GREP (см. секцию Algorithms).

anonymous
(04.07.14 10:39:23 MSK)

А зчем тебе это нужно? Уже несколько человек за последние дни встречаю с такими вопросами.

~~mashina~~ ★★★★★
(04.07.14 11:45:11 MSK)

Ссылка

Критерий «наиболее близкое» неопределен.

Вангую, что все регекспы внутрях реализованы через конечные автоматы, тогда близость трактуй как наименьшее количество переходов между состояниями для полного совпадения регулярки с образцом.

Нужно ли для этого реализация самого движка регэкспов, вопрос открытый. :)

habamax ★★★
(04.07.14 12:27:07 MSK)

Ответ на: комментарий от habamax 04.07.14 12:27:07 MSK

Вангую, что все регекспы внутрях реализованы через конечные автоматы, тогда близость трактуй как наименьшее количество переходов между состояниями для полного совпадения регулярки с образцом.

Это тоже реализационно зависимо, т.е. неопределено.

~~mashina~~ ★★★★★
(04.07.14 13:19:13 MSK)

Ссылка

«Интуитивно» понятно

Тут две проблемы.
Во-первых, не совсем. У тебя почему-то строки, различающиеся в начале, более схожи, чем строки, различающиеся концом. Иногда доходит до спорных моментов. Вот, например:

.*abcdef$
.*abcdef.*

А почему не наоборот?

.*ab[bc]def.*
.*ab[a-z]def.*

То есть abddef менее похоже, чем abbdef?

.*ab[a-zA-Z]def.*

Э... а как тут сформулировать общее правило? Ну, допустим, когда вся строка из строчных букв, заглавные могут отличаться. А если иходный запрос был AbCdEf?

.*ab[c-f]+.*

Почему? А если искали abcxyz?

А во-вторых, с математической точки зрения, решулярные выражения описывают довольно простой класс языков, обрабатываемый довольно простыми алгоритмами. ОК, конечно, на практике в программировании гораздо более широкий класс формальных языков называют «регулярными», но тем не менее, не любые формальные языки. Такие «подобия» могут сильно усложнить работу программ.

Для решения конкретной задачи можно посоветовать взять последнее выражение из списка, потом список результатов отфильтровать через предпоследнее, потом через предпредпоследнее и так далее, получится несколько списков результатов с разной степенью совпадений.

proud_anon ★★★★★
(04.07.14 14:06:30 MSK)

Ссылка

выражения будут «ближе» к строке в порядке убывания

, если мощность множества строк, удовлетворяющих данному выражению будет меньше. В таком смысле?

backbone ★★★★★
(04.07.14 14:07:29 MSK)

Ссылка

Ответ на: комментарий от anonymous 04.07.14 10:39:23 MSK

AGREP, an approximate GREP (см. секцию Algorithms).

Внимательно не читал, но судя по параметром программы, там регулярные выражения с возможностью подменять цепочки терминальных символов на другие, если расстояние Левенштейна от найденной цепочки до искомой не превышает заданного.

А ТСу надо каким-то образом на основании заданного регулярного выражения для языка L₁ составить языки L₂ ⊃ L₃ ⊃ L₄ и т.д. и найти вхождения даже для самого всеобъемлющего языка в цепочке, причём чётких критериев он не указал.

proud_anon ★★★★★
(04.07.14 14:21:44 MSK)

Ответ на: комментарий от proud_anon 04.07.14 14:21:44 MSK

Да в этой задаче много чего не указано. Оно так часто и бывает - надо самим придумать адекватное определение терминам «близко», «похожи», «эквивалентны» и т.п.

anonymous
(10.07.14 01:27:56 MSK)

Ссылка

Предлагаю формализацию, как я ее понял.

Пусть S - множество существующих строк ограниченной длины, m(r,s) - матчится ли строчка s к выражению r, NS(r) - количество существующих строк s из S, удовлетворяющих условию m(r,s) - натуральное число, далее вводим отношение порядка на множестве регулярок: r1 < r2 <=> NS(r1) < NS(r2), и называть это будем «r1 более узкое выражение, чем r2». Тогда для любой строки s1 и любого набора регулярок (r1...rn) можно извлечь подмножество (r[i1]...r[ik]) таких, что для любого i от 1 до k m(r,s1) и далее в этом подмножестве найти минимум NS(r[j]), и эта регулярка r[j] объявляется наиболее близкой к строке s1.

А по-хорошему надо обрабатывать бесконечные строки, но я не придумал, как.

amomymous ★★★
(10.07.14 01:49:14 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Int в Hex, ускорить и укоротить

Development

Узнать каким компилятором собиралась программа.

→

Похожие темы