Как удалить часть текста между двумя тегами в xml?

0

1

Собственно сабж. Количество символов между тегами worklog /worklog может превышать 134217728, необходимо написать скрипт, который удалит из набора XML файлов все остальные символы>134217728, но до закрывающего тега /worklog.

Если очень упростить, что-то вроде «worklog text /worklog» заменить на

«worklog shell_substring_equivalent(text,0,134217728) /worklog»

Пример XML: https://pastebin.com/3cgpp3G7

Ссылка

←	Как сгенерировать wordcloud из списка

Proxy проблема

→

Бери python + xml.etree

Niut
(16.01.20 16:38:45 MSK)

Ответ на: комментарий от Niut 16.01.20 16:38:45 MSK

Необходимо решить вопрос с помощью bash скрипта.

xakon
(16.01.20 16:42:43 MSK) автор топика

Ответ на: комментарий от xakon 16.01.20 16:42:43 MSK

ну, напиши как здоровый человек на питоне, и вызывай этот скрипт из баш скрипта. Засчитается?

Просто никто в здравом уме не будет разбирать xml sed-ом и регулярками, тебе все равно нужно что-то что сумеет дерево элементов построить и будет работать с ним.

gnunixon ★★★
(16.01.20 16:45:45 MSK)

Можно awk использовать, но опять же придётся самому подсчитывать символы. Проще использовать язык типа Perl, Python или PowerShell с готовыми библиотеками разбора XML.

gedisdone ★★★
(16.01.20 17:12:55 MSK)

Ссылка

Ответ на: комментарий от gnunixon 16.01.20 16:45:45 MSK

Я нашёл похожую задачу здесь. Если реально удалить весь текст между тегами, то разве нельзя каким-то похожим образом удалить определённое число символов между ними? Как вырезать текст между двумя тэгами в xml?

xakon
(16.01.20 17:14:14 MSK) автор топика

Ссылка

<log.xml awk '/<worklog>/||/<\/worklog>/; /<worklog>/,/<\/worklog>/{next;};1'
<id>SOCP00701074202</id>
    <schema>OPS:Trouble Ticket</schema>
    <worklogData>
        <key>Private Work Log</key>
        <worklog>
        </worklog>
    </worklogData>
    <worklogData>
        <key>Public Work Log</key>
        <worklog>
        </worklog>
    </worklogData>

anonymous
(16.01.20 17:17:58 MSK)

Ссылка

Ответ на: комментарий от gnunixon 16.01.20 16:45:45 MSK

Просто никто в здравом уме не будет разбирать xml sed-ом и регулярками

sed-ом действительно трудно, так как sed построчное и без счётчика. А на bash пишется не сложно, если памяти под текст достаточно. Всасываем всё, находим нужную пару тегов с несложным алгоритмом для вложенных и/или нескольких блоков с одинаковыми уровнями.

тебе все равно нужно что-то что сумеет дерево элементов построить и будет работать с ним.

Да нафига? Нормальный xml достаточно строг, там не надо искать как в html что-то типа если тег не закрылся, а открылся из некого набора, значить тут пропущено закрытие и так далее. Полное дерево надо если хочется потом быстро находить разные блоки.

vodz ★★★★★
(16.01.20 17:20:26 MSK)

Перечитал ТС. Тебе надо вот прямо грубо ОБРЕЗАТЬ xml в коде? Т.е. резкультат типа такого тебя устроит?

<id>SOCP00701074202</id>
    <schema>OPS:Trouble Ticket</schema>
    <worklogData>
        <key>Private Work Log</key>
        <worklog>
            <entries>
                <text>SAMPLE TEXT</text>
                <timestamp>2019-03-18T02:46:10Z</timestamp>
                <type>MSS</type>
                <username>AR_ESCALA
        </worklog>
    </worklogData>
    <worklogData>
        <key>Public Work Log</key>
        <worklog>
            <entries>
                <text>SAMPLE TEXT</text>
                <timestamp>2019-03-07T06:24:41Z</timestamp>
                <type>MSS</type>
                <username>atl-prd-w
        </worklog>
    </worklogData>

Но он же невалидный будет!

anonymous
(16.01.20 17:22:18 MSK)

Ответ на: комментарий от anonymous 16.01.20 17:22:18 MSK

Да, текст между тегами worklog нужно сократить до 134217728 символа. Не имеет значения, если какие-то теги внутри worklog поломаются.

xakon
(16.01.20 17:51:33 MSK) автор топика

Ссылка

Ответ на: комментарий от vodz 16.01.20 17:20:26 MSK

А можно какое-то пример. Мне совсем непонятно, как делать.

Ещё может плохо объяснил задачу: ‘Текст между тегами worklog нужно сократить до 134217728 символа. Не имеет значения, если какие-то теги внутри worklog поломаются.’

xakon
(16.01.20 17:52:44 MSK) автор топика

Ответ на: комментарий от xakon 16.01.20 16:42:43 MSK

Необходимо решить вопрос с помощью bash скрипта

Тогда пиши XML парсер на баше. Врукопашную.

deep-purple ★★★★★
(16.01.20 17:56:15 MSK)

Ссылка

Тут главное выбрать правильный инструмент. Что работает с xml из коробки, питон, перл, повершел.. Что-то еще.

anonymous
(16.01.20 18:00:24 MSK)

Ответ на: комментарий от xakon 16.01.20 16:42:43 MSK

Необходимо решить вопрос с помощью bash скрипта.

Но sed же не bash.

anonymous
(16.01.20 18:08:02 MSK)

Ответ на: комментарий от anonymous 16.01.20 18:08:02 MSK

Обычно при программировании на bash подразумевается использование coreutils.

gedisdone ★★★
(16.01.20 18:28:33 MSK)

Наверняка на перле это изи делается.

anonymous
(16.01.20 18:41:40 MSK)

Ссылка

Ответ на: комментарий от anonymous 16.01.20 18:00:24 MSK

Что работает с xml из коробки

xmlstarlet: http://xmlstar.sourceforge.net/

anonymous
(16.01.20 20:06:33 MSK)

Ответ на: комментарий от anonymous 16.01.20 20:06:33 MSK

А смысл? Если только зациклится на баше, то да, можно подыскать инструмент под задачу.

anonymous
(16.01.20 20:24:38 MSK)

Ссылка

Ответ на: комментарий от gedisdone 16.01.20 18:28:33 MSK

Он и не coreutils.

anonymous
(16.01.20 22:27:07 MSK)

Ссылка

Ответ на: комментарий от xakon 16.01.20 17:52:44 MSK

А можно какое-то пример.

Таки заставили подняпрячься.

Запускать xml-cut.sh < in.xml > out.xml

Вырезает из in.xml <tag [attrs]>.*</tag> первого уровня (тег без учёта регистра), то есть оставляя то, что внутри .*, вложенные эти теги остаются тоже. Теги могут быть в виде несколько блоков первого уровня, на выходе только первый блок. Всякие пробелы там и сям — допускаются.

#!/usr/bin/env bash

TAG=tag
TAGC='[Tt][Aa][Gg]'

IFS= read -r -d '' b

r=$'(\r+)(.*)'
while [[ $b =~ $r ]]; do
	b=${b:0:${#b}-${#BASH_REMATCH[0]}}${BASH_REMATCH[2]}
done

a=
r=$'<[ \t\n]*'$TAGC$'([ \t\n]+([^>]*))?>[ \t\n]*(.*)'
while [[ $b =~ $r ]]; do
	a+="${b:0:${#b}-${#BASH_REMATCH[0]}}<$TAG ${BASH_REMATCH[2]}>"
	b=${BASH_REMATCH[3]}
done
b=$a$b

a=
r=$'[ \t\n]*</[ \t\n]*'$TAGC$'[ \t\n]*>(.*)'
while [[ $b =~ $r ]]; do
	a+="${b:0:${#b}-${#BASH_REMATCH[0]}}</$TAG>"
	b=${BASH_REMATCH[1]}
done
b=$a$b

r="<$TAG [^>]*>(.*)</$TAG>"
if [[ $b =~ $r ]]; then
	b=${BASH_REMATCH[1]}
else
	echo "<$TAG [attrs]>.*</$TAG> не найдено" >&2
	exit 1
fi

while true; do
	 r="(.*)<$TAG "
	 if [[ $b =~ $r ]]; then
		 p=${BASH_REMATCH[1]}
		 a=${b:${#BASH_REMATCH[0]}}
		 b=$a
		 r="</$TAG>"
		 if [[ ! $b =~ $r ]]; then
			 b=$p
			 r="(.*)</$TAG>"
			 if [[ $b =~ $r ]]; then
				 b=${BASH_REMATCH[1]}
				 continue
			 fi
			 echo "(<$TAG [attrs]>.*</$TAG>)+ несбалансировано" >&2
			 exit 1
		 fi
		 b="$p<$TAG $a"
	 fi
	 break
done

a=
r="<$TAG >(.*)"
while [[ $b =~ $r ]]; do
	a+="${b:0:${#b}-${#BASH_REMATCH[0]}}<$TAG>"
	b=${BASH_REMATCH[1]}
done
b=$a$b

printf "%s" "$b"

Коментарии к этому за отдельный интересный вопрос.

vodz ★★★★★
(16.01.20 23:25:21 MSK)
Последнее исправление: vodz 16.01.20 23:30:53 MSK (всего исправлений: 2)

Ответ на: комментарий от vodz 16.01.20 23:25:21 MSK

А если очень сильно упростить задачу и просто урезать текст между worklog /worklog до 134217728 символов. Не рассматривая файл, как xml, а как просто текстовый.

xakon
(20.01.20 00:38:33 MSK) автор топика

Ответ на: комментарий от xakon 20.01.20 00:38:33 MSK

Если нет вложений, то проще на C.

vodz ★★★★★
(20.01.20 10:10:32 MSK)

Ссылка

Пример XML

Пример огрызка из XML.

anonymous
(20.01.20 10:20:08 MSK)

Рекомендую использовать язык с поточным XML-парсером. Например Java и SAX. В противном случае решение весьма вероятно будет неэффективным и не во всех случаях корректным.

~~Legioner~~ ★★★★★
(20.01.20 10:53:22 MSK)

Ссылка

Ответ на: комментарий от anonymous 20.01.20 10:20:08 MSK

Вот, пример. Нужно просто урезать текст между всеми worklog /worklog в тексте до 134217728 символов. Без разницы, как обрежутся теги и прочее. Если воспринимать xml как просто текстовый файл.

https://pastebin.com/Sek5cz7s

xakon
(20.01.20 11:12:26 MSK) автор топика