Как вырезать текст между двумя тэгами в xml?

0

2

День добрый!

Ребят помогите пож. добиться удаления текста между тэгами <description>техт бла бла</description>: http://gross-trading.com/feed.xml

Попытался сам таким макаром, но без результата:

sed 's#\(<description>\).*\(</description>\)#\1'xxxxx'\2#g' test.xml > test2.xml
sed '/<description>/,/<\/description>/{//!d}' test.xml > test2.xml

Ссылка

← Знаковый и безнаковый тип?

FontForge преобразование шрифта в моноширинный →

В первом варианте .* надо заменить на [^<]*, жадность квантификатора мешает.

xaizek ★★★★★
(27.06.16 11:02:33 MSK)

http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml...

use Simple::XML;

shell-script ★★★★★
(27.06.16 11:18:22 MSK)

Ссылка

Ответ на: комментарий от xaizek 27.06.16 11:02:33 MSK

Не пройдет для случая вида

<description><![CDATA[много самых разных букв]]></description>

Deleted
(27.06.16 11:45:56 MSK)

Ссылка

Ответ на: комментарий от xaizek 27.06.16 11:02:33 MSK

Спасибо, к сожалению не работает.

У меня есть предположение, что проблема лежит в многострочности текста между тэгами...

bikalexander
(27.06.16 12:06:50 MSK) автор топика

Ссылка

Обработка XML регулярками приводит к очень больным последствия иногда.

По сабжу, файл Ваш скачать непредставляется возможным, отсюда предполагаю, что все теги description могут оказаться в одной строке. Особенность sed - greedy matching, т.е. lazy-регулярки задать невозможно. Для нас это важно тем, что при нескольких </description> в строке итоговый matching будет до последнего соответствия. Т.е. удалится не содержимое в нескольких <description> а весь текст от первого <description> до последнего </description>.

Как это обойти в базовом случае верно указал xaizek - нужно определить некий «пограничный символ», которого точно не будет в удаляемом тексте. Но в XML может быть всё что угодно и такая регулярка будет работать до первого авось, к сожалению.

При наличии perl - надежнее решить на нём:

perl -pe 's|<(description)>.*?</\1>||'

P.S. Ссылка shell-script'а от этого актуальной быть не перестаёт.

Deleted
(27.06.16 12:07:25 MSK)
Последнее исправление: Rainor 27.06.16 12:07:50 MSK (всего исправлений: 1)

Ходят слухи что это не самая хорошая идея. http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454

anonymous
(27.06.16 12:07:41 MSK)

2016
Парсинг xml через регулярки.

Если хотите через консоль - есть xmlstarlet.

~~RazrFalcon~~ ★★★★★
(27.06.16 12:08:57 MSK)

Ссылка

Ответ на: комментарий от Deleted 27.06.16 12:07:25 MSK

У меня есть предположение, что проблема лежит в многострочности текста между тэгами...

Тогда нужна небольшая правка

perl -pe 'BEGIN{undef $/;} s|<(description)>.*?</\1>||smg'

Deleted
(27.06.16 12:11:47 MSK)

Ответ на: комментарий от anonymous 27.06.16 12:07:41 MSK

слухи преувеличены http://stackoverflow.com/a/1733489/1542755

zolden ★★★★★
(27.06.16 12:40:18 MSK)

Ссылка

Ответ на: комментарий от Deleted 27.06.16 12:11:47 MSK

Спасибо за отклик.

Я думаю что Вы правы, с этим файлом и регулярными выражениями одни чудеса...с Вашими примерами попробывал, но всеравно удаляется лишнее.

Файл еще раз перезалил: gross-trading.com/file.gz

Я бы с удовольствием использовал xmlstarlet но утилиты валетают из за большого размера файла.

Может есть у кого подходящий скрипт на perl или php, который сможет удалить содержимое тэга прямо внутри файла без предварительной загрузки в память?

Единственное что я нашел, так это библиотека XML::Twig вроде справляется с данной задачей...

Спасибо

bikalexander
(27.06.16 13:41:26 MSK) автор топика

Ответ на: комментарий от bikalexander 27.06.16 13:41:26 MSK

Забавно что description - не самая жирная нода в файле.

Можно посмотреть в сторону awk. С большими файлами он работает очень неплохо (но у меня с ним опыта мало, к сожалениб). Проблема - из-за кривого форматирования файла придётся sed'ом один раз прогоняться:

sed 's/>/>\n/g;s/</\n</g'  | awk '/<description>/{hide=1} /<sales_notes/{hide=0} {if (hide==0) print;}'

Deleted
(27.06.16 15:52:21 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Знаковый и безнаковый тип?

General

FontForge преобразование шрифта в моноширинный →

Похожие темы