Регэксп

dle, regexp, wordpress

0

2

Сколько лет пытаюсь понять регулярные выражения – ничего у меня не выходит, мозг кипит.

Нужно для поиска и замены придумать выражение, которое будет означать всё что находится между: [CDATA[ и

Помогите, плиз, это единственный способ убрать дубликаты excerpt'ов после переноса сайта с DLE на WP...

Ссылка

← Множестенные домены-альясы на главный домен - как проще?

Squid + NTLM-утентификация →

http://rubular.com/r/diQvsNTWQB

pawnhearts ★★★★★
(27.11.15 03:38:38 MSK)

Ответ на: комментарий от pawnhearts 27.11.15 03:38:38 MSK

гуглил перед этим подобный сервис) спасибо, то есть в итоге должно быть:

/\[CDATA\[(.*)/m

emostar ★
(27.11.15 03:41:12 MSK) автор топика

\[CDATA\[(.*)

~$ echo '[CDATA[foo<!--more-->' | sed -E 's/\[CDATA\[(.*)<!--more-->/\1/'
foo

MrClon ★★★★★
(27.11.15 03:42:46 MSK)

Ответ на: комментарий от emostar 27.11.15 03:41:12 MSK

Точнее

http://rubular.com/r/QD8iLSKvU6

pawnhearts ★★★★★
(27.11.15 03:43:47 MSK)

Ссылка

Ответ на: комментарий от MrClon 27.11.15 03:42:46 MSK

\[CDATA\[(.*?)<!--more-->

работает! спасибо, сейчас седом попробую сразу 300 мб обработать

emostar ★
(27.11.15 03:46:36 MSK) автор топика

Почему ещё никто не вбросил пасту про XML и регэкспы?

generator ★★★
(27.11.15 03:46:55 MSK)

Ссылка

Ответ на: комментарий от emostar 27.11.15 03:46:36 MSK

Флаг /m нужен, чтобы оно многострочные выражения обрабатывало. В разных языках он по разному передается, например в питоне вот так:

re.findall('\[CDATA\[(.*?)<!--more-->',a, re.DOTALL)

А вот как с этим в sed - я не знаю.

pawnhearts ★★★★★
(27.11.15 03:51:38 MSK)

Ссылка

Ответ на: комментарий от MrClon 27.11.15 03:42:46 MSK

sed -E 's/\[CDATA\[(.*)<!--more-->/\1/' wordpress.2015-11-26\ \(1\).xml > 001.xml

а что за единица в конце? нужно поменять так, чтобы удалить всё после [CDATA\[

включая more

emostar ★
(27.11.15 04:23:05 MSK) автор топика

Ответ на: комментарий от emostar 27.11.15 04:23:05 MSK

Для читаемости разобью sed-скрипт на строки:

s #найти и заменить
\[CDATA\[(.*)<!--more-->/ #регулярка которую нужно искать
\1 #чем заменить

\1 означает что заменить нужно первой группой из найденного регуляркой.
Группа в регулярке задается скобками (в данном случае это .* (любое колличество любых символов) между [CDATA[ и ).
Думаю догадаешься как нужно переписать регулярку что-бы в первую группу вошло и .

P.S. если все посты в одном файле то эта конструкция скорее всего сработает неправильно. Да и вообще на реальных данных (разнообразных и непредсказуемых) она скорее всего сработает неправильно. Выше generator уже написал про парсеры XML, и правильно сделал что написал.

MrClon ★★★★★
(27.11.15 05:19:04 MSK)

Ответ на: комментарий от MrClon 27.11.15 03:42:46 MSK

Не правильно сработает в случае >1 вхождения , sed жадный

anc ★★★★★
(27.11.15 05:49:44 MSK)

Ссылка

Ответ на: комментарий от emostar 27.11.15 04:23:05 MSK

Раз уж на то пошло, костыль на перле:

cat log-file-name | perl -e 'while(<>){s/(\[CDATA\[).*?<!--more-->/\1/g;print};'

anc ★★★★★
(27.11.15 06:10:46 MSK)

Ссылка

Ответ на: комментарий от MrClon 27.11.15 05:19:04 MSK

всё сработало как надо, по крайней мере визуально)

sed -E 's/\[CDATA\[(.*)/\[CDATA\[/' wordpress.2015-11-26.xml > final03.xml

emostar ★
(27.11.15 06:20:03 MSK) автор топика

Ссылка

Похоже, никогда не переведутся любители парсить XML регекспами...
Используй инструменты, предназначенные для работы с XML, а не с текстом.

blexey ★★★★★
(27.11.15 08:29:45 MSK)

Ответ на: комментарий от blexey 27.11.15 08:29:45 MSK

и какие же это инструменты?

emostar ★
(27.11.15 08:35:56 MSK) автор топика

Ответ на: комментарий от blexey 27.11.15 08:29:45 MSK

никогда не переведутся любители парсить XML регекспами

Как и любители ограничивать себя в инструментарии

zolden ★★★★★
(27.11.15 09:12:28 MSK)

Ответ на: комментарий от blexey 27.11.15 08:29:45 MSK

А где в словах «[CDATA[» находится xml? Даже если распарсить файл, то в строках нужен будет все тот же регэксп (если не принимать во внимание то, что комменты more могут вообще не попасть в результат).

~~arturpub~~ ★★
(27.11.15 09:53:25 MSK)

Ссылка

Ответ на: комментарий от zolden 27.11.15 09:12:28 MSK

Парсинг XML средствами для плейн текста оправдан лишь в случае, когда быстрое решение нужно для частного случая и обобщать некогда/дорого.
Вот только результатом такого подхода чаще всего является не работающее решение, а подобные топики о встреченных граблях.

blexey ★★★★★
(27.11.15 13:14:14 MSK)