Регулярные выражения для поиска

0

1

Есть редактор, который умеет искать по регулярным выражениям и довольно большой текст, в котором нужно нати строки по такому алгоритму: имеются два особых символа, которые могут быть как сами по себе, так и в середине слова, и нужно найти строки которые содержат в единственном экземпляре только один из этой пары. Строки имеющие оба символа в единственном экземпляре и строки не нимеющие ни одного из этих двух символов - игнорируются. В то же время строки, в которых один из этих двух символов дублирован - попадаются в поиск.

Ссылка

← Debian Stable, SATA диск дурит

Phonon+amaroK →

regexxer ?

anTaRes ★★★★
(28.01.12 00:05:09 MSK)

Что-то типа такого (т.е. последовательно отфильтровываем то что нам не надо):

Допустим, @ и # - это такие символы.

$ cat test
asd fasljal @asdfa;sdflj# asdf
1asd@
2#adfkljl
asdfasf
3adsf##adfadsf@

$ cat test | sed -e '/^[^@]*@[^@]*[^#]*#[^#@]*$/d'| sed -e '/^[^#]*#[^#]*[^@#]*@[^@]*$/d'| sed -e '/^[^#@]*$/d'
1asd@
2#adfkljl
3adsf##adfadsf@

siberean ★
(28.01.12 00:36:27 MSK)

Ответ на: комментарий от anTaRes 28.01.12 00:05:09 MSK

Я не могу использовать потоковые редакторы или внешние скрипты-обработчики - нет прав, так что я вынужден оставаться в рамках того редактора, в котором был открыт файл. Моё счастье, что он вообще поддерживает поиск по РВ.

zzdnx ★★
(28.01.12 00:40:42 MSK) автор топика

Ответ на: комментарий от siberean 28.01.12 00:36:27 MSK

последовательно отфильтровываем то что нам не надо

Вполне возможно. Можно разбить на два поисковых запроса - для каждого из символов по отдельности, но я не знаю как сделать запрос на поиск первого символа, который не будет ловить строки со вторым.

zzdnx ★★
(28.01.12 00:45:34 MSK) автор топика

Ответ на: последовательно отфильтровываем то что нам не надо от zzdnx 28.01.12 00:45:34 MSK

//f - first char
//s - second char

[^s]*f[^s]*

~~belous_k_a~~
(28.01.12 01:00:11 MSK)

Ответ на: комментарий от belous_k_a 28.01.12 01:00:11 MSK

Но это зависит от редактора, в общем случае надо указать начало и конец строки, да еще и можно объединить оба запроса:

//f - first char
//s - second char

^([^f]*s[^f]*|[^s]*f[^s]*)$

~~belous_k_a~~
(28.01.12 01:03:54 MSK)

Ответ на: комментарий от belous_k_a 28.01.12 01:03:54 MSK

А строка с дублированными символами, вроде «fss»?
Тогда уж так:
^([^f]*s[^f]*|[^s]*f[^s]*)$|f.*f|s.*s

(если я правильно понял последнее предложение)

proud_anon ★★★★★
(28.01.12 09:45:40 MSK)

Ответ на: комментарий от zzdnx 28.01.12 00:40:42 MSK

Очень жёсткие требования. Те, кто от вас хочет подобных задач - должен дать такое право, иначе задачу решить может быть невозможно. А sed - это база, почти как grep. Чем сидеть дни с поиском возможно несуществующего решения - более оптимально дать за секунду права и получить решение за 5 минут. Если винда - поставьте цигвин и запустите команду, подобную той, что я дал выше. Она по крайней мере работает (хотя нуждается в тестинге с большим количеством сочетаний).

siberean ★
(28.01.12 21:58:19 MSK)

Ссылка

Ответ на: комментарий от proud_anon 28.01.12 09:45:40 MSK

Вообще, приведёная идея мне понравилась: создать списоктакого вида - исключить появление №1 до появления №2, после чего снова исключить №1, а потом то же, но поменять местами №2 и №1. - этот запрос выполняет сразу половину дела, но совместно не работает. Самое противное, что даже такая конструкция как .*[^1].*2.*[^1].* находит мне строки, которые содержат ОБА символа. Аналогично ведёт себя и конструкция .*1.*[^2].*, хотя я чётко ввожу аллергию на символ №2.

2siberean к сожалению прав мне не дадут так как сис в отпуске, а о консоли нет речи вообще - у документа своя кодировка, которая гибнет при прохождении через консоль - он становится простым текстом и не читается нужной программой.

zzdnx ★★
(29.01.12 00:28:30 MSK) автор топика

Ответ на: комментарий от zzdnx 29.01.12 00:28:30 MSK

этот запрос выполняет сразу половину дела, но совместно не работает

Это почему? В том редакторе не допускается знак «|» в регулярных выражениях?

Самое противное, что даже такая конструкция как .*[^1].*2.*[^1].* находит мне строки, которые содержат ОБА символа. Аналогично ведёт себя и конструкция .*1.*[^2].*, хотя я чётко ввожу аллергию на символ №2.

Конечно находит. Смотрите:

1abc2abcd
против: .*[^1].*2.*[^1].*
.* = «1ab»
[^1] = «c»
2 = «2»
.* = «abc»
[^1] = «d»
.* = ничего

против: .*1.*[^2].*
.* = ничего
1 = «1»
.* = «abc2abc»
[^1] = «d»
.* = ничего

[^1] - это не «аллергия на [^1]», это «любой символ кроме 1» . Единственная возможная в регулярных выражениях «аллергия» - это negative lookaround. Впрочем, если у вас даже альтернация не поддерживается, то lookaround тем более.

proud_anon ★★★★★
(29.01.12 03:58:47 MSK)

Ответ на: комментарий от proud_anon 29.01.12 03:58:47 MSK

альтернация поддерживатся

Я могу искать SS и SP отдав запрос \sS[S|P]\s, так что символ альтернации поддерживается, но у меня СЛИШКОМ мало опыта в использовании регулярных выражений.

zzdnx ★★
(30.01.12 14:36:14 MSK) автор топика

Ответ на: альтернация поддерживатся от zzdnx 30.01.12 14:36:14 MSK

Справился. Написал штук 7 выражений и ими фильтровал текст с помощью временного файла. Не удобно, но лучше, чем ничего.

zzdnx ★★
(14.02.12 08:18:32 MSK) автор топика

Ответ на: комментарий от zzdnx 14.02.12 08:18:32 MSK

Всем СПАСИБО за помощь!

zzdnx ★★
(14.02.12 08:19:41 MSK) автор топика

Ссылка

Ответ на: комментарий от zzdnx 14.02.12 08:18:32 MSK

штук 7 выражений

Я тред не читал, но неужели выше не дали правильного решения?

$ echo -e 'zzzBA\nzAzAzA\nzBzBzBzB\nA\nB\nBzBB\nAzAA\nzzzzAzzzB' | egrep '^(([^B]*(A[^B]*)+)|([^A]*(B[^A]*)+))$'
zAzAzA
zBzBzBzB
A
B
BzBB
AzAA

~~geekless~~ ★★
(14.02.12 08:29:34 MSK)

Ответ на: комментарий от geekless 14.02.12 08:29:34 MSK

тред не читал

А жаль. Читать надо до того, как советуете, хотя за вариант - спасибо.

zzdnx ★★
(20.02.12 16:12:29 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Debian Stable, SATA диск дурит

Desktop

Phonon+amaroK →

последовательно отфильтровываем то что нам не надо

альтернация поддерживатся

тред не читал

Похожие темы