Поиск текстовых блоков переменной длины в файле

1

2

Добрый день! Имеется xml-файл с блоками данных. Каждый блок данных начинается/заканчивается одними и теми же тегами. Но количество строк в каждом блоке может быть разное.

Задача: как выбрать из текстового файла поочередно каждый блок данных по начальному/конечному тегу для дальнейшей обработки?

Условно считаем открывающийся тег в виде «<test_tag>», закрывающийся тег в виде «</test_tag>».

Заранее спасибо.

Ссылка

← Закачка сайта - httrack создает файлы pagexxx.html.tmp

Очень долго грузится Fedora 22 →

main() {
	while IFS='<' read -r -d '>' DOM_CONTENT DOM_ENTITY; do
		DOM_LOG="$DOM_LOG$DOM_CONTENT<$DOM_ENTITY>"
		if [ "${DOM_LOG##*</test_tag}" = ">" ]; then
			local DOM_SEARCH=${DOM_LOG%%<test_tag *}
			if [ ! "$DOM_SEARCH" = "$DOM_LOG" ]; then
				local tag="${DOM_LOG:${#DOM_SEARCH}}"
				local tag=${tag#*<test_tag }
				local tag=${tag%%>*}

				echo $tag
			fi
			unset DOM_LOG
		fi
	done
}

main "$@" < file.xml

выведет содержимое каждого test_tag. всё просто.

~~Spoofing~~ ★★★★★
(25.09.15 10:32:49 MSK)

Ответ на: комментарий от Spoofing 25.09.15 10:32:49 MSK

можно сразу ещё интерпретировать значения в переменные, сделать

eval local $tag

а если тебе нужно именно то что между тэгами, а не значения этого тэга, то бери сразу ${DOM_LOG:${#DOM_SEARCH}}, две следующих строки с local tag лишние.

~~Spoofing~~ ★★★★★
(25.09.15 10:36:56 MSK)

Ответ на: комментарий от Spoofing 25.09.15 10:36:56 MSK

Спасибо! Буду разбираться с кодом.

ZhKSteaL
(25.09.15 10:48:43 MSK) автор топика

Ссылка

Ответ на: комментарий от Spoofing 25.09.15 10:32:49 MSK

И чем этот г-код отличается от

sed -n '/<test_tag>/,/<\/test_tag>/ p'

???

anonymous
(25.09.15 11:15:04 MSK)

Ответ на: комментарий от anonymous 25.09.15 11:15:04 MSK

ничем, наверное. а почему вы спрашиваете?

~~Spoofing~~ ★★★★★
(25.09.15 11:18:30 MSK)

Ответ на: комментарий от Spoofing 25.09.15 11:18:30 MSK

Интересно стало, ты или sed не знаешь или что-то особое сказать хотел.

anonymous
(25.09.15 11:25:05 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Закачка сайта - httrack создает файлы pagexxx.html.tmp

General

Очень долго грузится Fedora 22 →

Похожие темы