Удаление строк по шаблону

0

2

Задача: в файле есть строки, что содержат в себе текст aaa, и строки, что содержат в себе текст bbb,

Нужно удалить все строки, между строками, что содержат aaa и bbb, как и сами эти строки, оставив только строки между bbb и aaa и прочие. Но не трогать строки с bbb, если перед ними нет блока строк, начинающихся со строк с aaa.

Пример:

123
1aaa
456
2bbb
789
3aaa
321
654
5bbb
587
1ccc
146
378
6bbb
950

нужно преобразовать в

Нет, не экзамеционная задача, просто пытаюсь распарсить хитрый .xml файл с логами.

←	Отделение раздела root

Убивается таблица разделов на флешке в виртуальной машине при извлечении флешки

→

xml

regexp

t184256 ★★★★★
(23.11.22 00:36:57 MSK)

cat text | sed -e '/aaa/,/bbb/d'

Clockwork ★★★★★
(23.11.22 00:53:19 MSK)

Ответ на: комментарий от t184256 23.11.22 00:36:57 MSK

Окей, тогда какой инструмент использовать?

По сути, есть XML файл, в котором много лишних блоков, что начинаются примерно так: <qwe asd="1" что-то ещё>, а кончаются на </qwe>.

И нужно удалить все блоки с asd="1", но не тронуть те, в которых asd="2" и все прочие. При этом блоки, что нужно оставить, тоже кончаются на </qwe>.

Vsevolod-linuxoid ★★★★★
(23.11.22 00:56:39 MSK) автор топика

Ответ на: комментарий от Vsevolod-linuxoid 23.11.22 00:56:39 MSK

Filter by XPath? XSLT? Просто произвольная обработка твоим любимым неигрушечным ЯП?

t184256 ★★★★★
(23.11.22 00:59:55 MSK)

Ответ на: комментарий от t184256 23.11.22 00:59:55 MSK

Отличная идея, проблема в том, что мне всё это нужно выучить перед использованием.

Vsevolod-linuxoid ★★★★★
(23.11.22 01:00:56 MSK) автор топика

Ответ на: комментарий от Vsevolod-linuxoid 23.11.22 01:00:56 MSK

Это не проблема, это банальная рабочая необходимость.

t184256 ★★★★★
(23.11.22 01:36:20 MSK)

Ответ на: комментарий от Vsevolod-linuxoid 23.11.22 00:56:39 MSK

Вероятно можно решить при помощи комбинации jc и jq (преобразовать в JSON и отфильтровать средствами jq), но вероятно, что будет лишь раза в 1.5 проще, чем написать полноценный скрипт на каком-нибудь языке.

Когда-то много писал скриптов на Python для обработки XML, поэтому кажется несложным. На XSLT тоже писал, и XSLT явно будет сложнее, чем быстро накидать скрипт на Python.

Текстовые инструменты, не понимающие XML, скорее всего рано или поздно поломают файл, т.к. в XML whitespace ничего не значит, и он может быть отформатирован как угодно, хоть в одну строку.

~~emorozov~~ ☆
(23.11.22 09:23:33 MSK)
Последнее исправление: emorozov 23.11.22 09:24:13 MSK (всего исправлений: 1)

Ответ на: комментарий от Vsevolod-linuxoid 23.11.22 01:00:56 MSK

Я готовый пример привёл, не подходит?

Clockwork ★★★★★
(23.11.22 12:41:26 MSK)

Ответ на: комментарий от Clockwork 23.11.22 00:53:19 MSK

За cat | sed надо с работы гнать за профнепригодность.

akk ★★★★★
(23.11.22 12:59:14 MSK)

Ответ на: комментарий от akk 23.11.22 12:59:14 MSK

За преждевременную оптимизацию надо с работы гнать за профнепригодность.

futurama ★★★★★
(23.11.22 13:01:28 MSK)

Ответ на: комментарий от akk 23.11.22 12:59:14 MSK

От перемены мест слагаемых сумма не меняется!

Clockwork ★★★★★
(23.11.22 13:12:03 MSK)
Последнее исправление: Clockwork 23.11.22 13:14:56 MSK (всего исправлений: 1)

прочитать файл построчно, сформировать лист из всех строк. дальше просто работа с массивом. находишь ааа, создаешь другой лист в котором запомнишь все номера строк до той пока не встретится ббб. потом удаляем все строки с найдеными номерами и назад дамп в файл. по идее в таком случае «не трогать ббб если перед ними нет ааа» само собой разумеется потому что только ааа будет триггерить начало «запоминания».

flant ★★★
(23.11.22 14:08:33 MSK)

Ответ на: комментарий от Clockwork 23.11.22 12:41:26 MSK

Не совсем.

Vsevolod-linuxoid ★★★★★
(23.11.22 14:15:46 MSK) автор топика

Ответ на: комментарий от flant 23.11.22 14:08:33 MSK

Да, да я уже решил проблему руками. Так было проще, мало данных.

Vsevolod-linuxoid ★★★★★
(23.11.22 14:16:15 MSK) автор топика

Ответ на: комментарий от emorozov 23.11.22 09:23:33 MSK

Рубрика вредные советы продолжается.

Как ты представляешь себе xml -> json -> jq filter -> xml?

Вместо ну 5-7 строк на любимом ЯП.

kardapoltsev ★★★★★
(23.11.22 22:34:20 MSK)

Ответ на: комментарий от kardapoltsev 23.11.22 22:34:20 MSK

Человек выше писал, что не умеет и не хочет программировать. Это единственное, что приходит в голову, если исключить программирование.

~~emorozov~~ ☆
(24.11.22 06:23:27 MSK)

Ответ на: комментарий от Vsevolod-linuxoid 23.11.22 14:16:15 MSK

я уже решил проблему руками

Эх, не дочитал до этого места, взялся поиграть в эту игру )

SELECT xmlagg(u)::text
FROM (
	SELECT 
		UNNEST(
			(SELECT xpath('//doc/qwe', x)
				FROM (
					SELECT 
						$x$
						<doc>
							<qwe asd="2">
								<что-то другое="2"/>
							</qwe>
							<qwe asd="1">
								<что-то ещё="1"/>
							</qwe>
							<qwe asd="1">
								<что-то ещё="2"/>
							</qwe>
							<qwe asd="3">
								<что-то другое="3"/>
							</qwe>
						</doc>
						$x$::xml
									AS x
				) t
			)
		) u
) r
WHERE NOT xpath_exists($c$//qwe[@asd='1']$c$, u)

Toxo2 ★★★★
(24.11.22 08:14:24 MSK)

Нет, не экзамеционная задача, просто пытаюсь распарсить хитрый .xml файл с логами

Тут тебя на сайте уже лет 20 все видят, обычно таких и подозревают в попытке решить домашку на халяву)

pihter ★★★★★
(24.11.22 08:41:08 MSK)

Ответ на: комментарий от akk 23.11.22 12:59:14 MSK

Ну да, надо пару фрейверков притащить чтоб лишний кусок лога выкинуть

pihter ★★★★★
(24.11.22 08:45:16 MSK)

Ответ на: комментарий от emorozov 24.11.22 06:23:27 MSK

A jq он такой раз и осилил сразу. Нуну. Не говоря о всяких нюансах конвертации туда и обратно.

kardapoltsev ★★★★★
(24.11.22 18:17:08 MSK)

Ответ на: комментарий от pihter 24.11.22 08:45:16 MSK

Там речь не про фреймворки, а про то, что cat часто используют не к месту.

cat foo | grep bar эквивалентно grep bar foo или grep bar < foo, только без лишнего вызова cat.

~~emorozov~~ ☆
(24.11.22 18:19:48 MSK)

Ответ на: комментарий от emorozov 24.11.22 18:19:48 MSK

И чем плохо такое использование? Тем что можно без него? Ну так есть класс задач где плевать на расходы на вызов ката и пайп. Зато читаемее

Имхо, ты из мухи слона делаешь: увольнять я бы за такое точно не стал. Всегда можно ещё с оптимизировать, но станет ли от этого лучше, если довести сие стремление до абсолюта?

pihter ★★★★★
(24.11.22 18:56:39 MSK)

Ответ на: комментарий от pihter 24.11.22 18:56:39 MSK

Я за это увольнять не призываю. Но если совсем докапываться, то часто вижу в скриптах что-то вида cat foo.txt | grep bar, что точно совершенно избыточно.

Тут дело даже не в оптимизации, эффект от которой вряд ли будет заметен, а просто не даёт покоя перфекционизм и подозрение, что написавший такое, возможно, не очень хорошо осмысливает то, что выходит у него из под пальцев.

~~emorozov~~ ☆
(24.11.22 19:40:30 MSK)
Последнее исправление: emorozov 24.11.22 19:41:45 MSK (всего исправлений: 2)

Ответ на: комментарий от akk 23.11.22 12:59:14 MSK

За обижание cat надо выгонять спать на коврик!

Pinux001 ★
(25.11.22 16:50:49 MSK)

Ответ на: комментарий от flant 23.11.22 14:08:33 MSK

прочитать файл построчно, сформировать лист из всех строк.

Откровенно вредный совет. Так делать точно не надо. В оригинальной постановке задачи решение что делать с конкретной строкой легко принимается по мере их вычитывания. Это даже гораздо хуже чем cat | sed за которые выше обвиняли в проф-непригодности.

bugfixer ★★★★
(25.11.22 17:16:20 MSK)

Ответ на: комментарий от emorozov 23.11.22 09:23:33 MSK

Текстовые инструменты, не понимающие XML, скорее всего рано или поздно поломают файл, т.к. в XML whitespace ничего не значит, и он может быть отформатирован как угодно, хоть в одну строку.

Не факт. В случаях когда мы сами же этот XML и создаём контролируя процесс, он становится не просто XML’ем а XML’ем отформатированным конкретным образом. И тогда использование текстовых инструментов становится вполне себе безопасным и уместным.

bugfixer ★★★★
(25.11.22 17:28:50 MSK)

Ответ на: комментарий от emorozov 23.11.22 09:23:33 MSK

Текстовые инструменты, не понимающие XML, скорее всего рано или поздно поломают файл, т.к. в XML whitespace ничего не значит, и он может быть отформатирован как угодно, хоть в одну строку.

На этот случай есть xmllint --format.

akk ★★★★★
(25.11.22 18:56:19 MSK)

Парсить строгий формат со схемой текстовыми инструментами путь в ад. Если xml прямо-таки необходим, то и инструменты нужны родные - xslt.

Anoxemian ★★★★★
(25.11.22 18:59:36 MSK)

Ответ на: комментарий от bugfixer 25.11.22 17:16:20 MSK

что в этом вредного? предложи как правильно.

зы: это без наезда. я не программист, но активно интересуюсь.

flant ★★★
(25.11.22 19:10:22 MSK)

Ответ на: комментарий от Anoxemian 25.11.22 18:59:36 MSK

Парсить строгий формат со схемой текстовыми инструментами путь в ад.

Правила игры сильно меняются когда у вас терабайты XML файлов (условные логи) каждый длинной в сотни мегабайт..гигабайты, которые нужно шерстить быстро быстро (выгрызать записи соответствующие определенным критериям по запросу). Умрёте Вы их честно парсить. «Проверено электроникой».

bugfixer ★★★★
(25.11.22 19:14:24 MSK)

Ответ на: комментарий от bugfixer 25.11.22 19:14:24 MSK

А это ложное целеполагание. Такую уйню надо парсить 1 раз и удалять к уям)))

Anoxemian ★★★★★
(25.11.22 19:15:53 MSK)

Ответ на: комментарий от flant 25.11.22 19:10:22 MSK

что в этом вредного?

O(N) space cost.

предложи как правильно.

Один enum’чик (конкретно здесь и bool’еана хватит) чтобы трекать текущее состояние (видели ‘aaa’, ждём ‘aaa’). Вычитали строчку, проверили / обновили если надо состояние, выплюнули или «подавили» строчку, след. итерация. Space-cost ограничен максимальной длиной строки в файле.

bugfixer ★★★★
(25.11.22 19:24:49 MSK)

Ответ на: комментарий от Anoxemian 25.11.22 19:15:53 MSK

А это ложное целеполагание. Такую уйню надо парсить 1 раз и удалять к уям)))

Расскажите это регуляторам. Пример не с потолка взят. Часть таких логов нужно хранить с практической точки зрения пожизненно, и ещё гарантировать их неприкосновенность.

bugfixer ★★★★
(25.11.22 19:30:48 MSK)

Ответ на: комментарий от bugfixer 25.11.22 19:30:48 MSK

Тогда UPD. Парсить 1 раз, удалять к уям, сохранив схему, генерировать обратно при запросе регулятором. Работать с этим дерьмом - ни в коем случае.

UPD2. Кстати, генерация по схеме будет 100500 раз эффективнее выборки по схеме и шаблону.

Anoxemian ★★★★★
(25.11.22 19:35:56 MSK)
Последнее исправление: Anoxemian 25.11.22 19:37:39 MSK (всего исправлений: 1)

Ответ на: комментарий от Anoxemian 25.11.22 19:35:56 MSK

UPD2. Кстати, генерация по схеме будет 100500 раз эффективнее выборки по схеме и шаблону.

Очень и очень спорное утверждение. Возможно Вы не до конца понимаете всех constraints того (подчеркну) практического случая о котором я говорю. (A) Вам нужно формировать эти логи с макс возможной скоростью (в реальности делается «ручками», как «text»), (B) Вы просто не имеете права их менять после того как они записаны, (C) схема постоянно меняется - часть атрибутов уходит (редко) и добавляются новые (часто), и возможные значения (очень часто), подавляющее число атрибутов - optional, (D) даже в пределах одного дня Вы имеете дело с несколькими слегка отличающимися схемами (в зависимости от конкретной версии модуля который их сгенерил), (E) счет instances идёт на десятки тысяч.

Что именно Вы собираетесь использовать как «final storage format» после парсинга? Что бы Вы не предложили - будут «те же яйца вид сбоку». XML далеко не худший вариант. Можно было бы использовать что нибудь покомпактнее, но оно было бы не так operator friendly (часто приходится смотреть «глазками» и разбирать «ручками»).

ПыСы. Мы сильно отдалились от вопроса который ТС задал. Всё что я пытаюсь донести - processing of XML как текста имеет право на жизнь. Конкретно мне решение с sed предложенное выше нравится больше всего. Плюс я так понял что ТС свою проблему уже порешал. Ну, и учитывая его репутацию (добрейшей души человек, прыгает на амбразуру постоянно - я бы так не смог), давайте завяжем этот офтоп? Тяпница к тому же ;) Дзинь ;)

bugfixer ★★★★
(25.11.22 20:24:47 MSK)

Ответ на: комментарий от bugfixer 25.11.22 20:24:47 MSK

Привязка конкретных схем к конкретным данным в нормальном формате дает оверхед в виде одного INT. Что все еще привлекательнее и быстрее.

По остальному дзынь, поддерживаю))

Anoxemian ★★★★★
(25.11.22 20:30:47 MSK)

Ответ на: комментарий от bugfixer 25.11.22 19:14:24 MSK

При помощи SAX парсера можно довольно быстро и эффективно это делать.

~~emorozov~~ ☆
(26.11.22 10:47:49 MSK)

Ответ на: комментарий от Anoxemian 25.11.22 18:59:36 MSK

XSLT - довольно непростой инструмент. На мой взгляд, учитывая, что XML давно ушёл в прошлое и используется больше по инерции, тратить время и усилия на его изучение - напрасный труд. Никогда больше не пригодится.

~~emorozov~~ ☆
(26.11.22 10:49:24 MSK)

←	Отделение раздела root

General

Убивается таблица разделов на флешке в виртуальной машине при извлечении флешки

→

Похожие темы