grep абзацев

1

1

Есть такая утилита grep, позволяющая отфильтровать строки по маске. Тут всё хорошо.

Но, предположим, имеется текстовый файл с регулярной структурой, например такой:

...
foo1 #начало абзаца
....
key=bar1 #искомый признак
...
foo2 #начало нового абзаца - конец предыдущего
...

как занимаясь поиском строки вывести весь абзац?

То есть условно cat myfile | grep bar1 выводило весь абзац от foo1 до foo2?

← thunderbird и oauth2

Home Assistant (HA) уведомления на телефон →

Там есть опции -A, -B, -C для задания числа строк контекста. Более умной фильтрации именно абзацев к сожалению не предусмотрено.

unDEFER ★★★★★
(08.11.25 05:30:12 MSK)
Последнее исправление: unDEFER 08.11.25 05:30:29 MSK (всего исправлений: 1)

в fb2 разве не предусмотрена селекция по абзацам?
а так \n, \r, \r\n - всего лишь общие условности в потоке байтов/бит для условного рендера. - ваш абзац как-то обозначен?

etwrq ★★★★★
(08.11.25 05:51:12 MSK)

С произвольными лексическими единицами хорошо умеет работать sam.

cat file | ssam -e 'x/(.+\n)*/ v/expr/ d'

x запускает цикл, (.+\n)* — определение параграфа, v — if not по текущему срезу, d — удаляет текущий срез.

kaldeon ★★
(08.11.25 05:54:10 MSK)
Последнее исправление: kaldeon 08.11.25 05:57:13 MSK (всего исправлений: 1)

Ответ на: комментарий от etwrq 08.11.25 05:51:12 MSK

ваш абзац как-то обозначен?

Строка - начало же, я указал в примере.

Psilocybe ★★★★★
(08.11.25 05:57:06 MSK) автор топика

Ответ на: комментарий от Psilocybe 08.11.25 05:57:06 MSK

любой символ после пробела/\r/\n/\r\n - начало обзаца?

etwrq ★★★★★
(08.11.25 06:04:20 MSK)

Ответ на: комментарий от etwrq 08.11.25 06:04:20 MSK

Нет. Тут структура текста. Ещё возможный пример:

node1
aaa=5
bbb=hello
ccc=2020-05-15
node2
aaa=44
bbb=world
ccc=2023-03-14
node3
aaa=579
bbb=buy
ccc=2024-01-11
ddd=¥

ищем bbb=world

выводим

node2
aaa=44
bbb=world
ccc=2023-03-14

тут node[0-9]+ признак начала абзаца и число параметров может быть разным

Psilocybe ★★★★★
(08.11.25 06:12:50 MSK) автор топика
Последнее исправление: Psilocybe 08.11.25 06:19:43 MSK (всего исправлений: 3)

Ответ на: комментарий от Psilocybe 08.11.25 06:12:50 MSK

ну в руби это бы выглядело бы примерно так:
input.split('node*') each |node| do
func(node.param['key'],...)
...
end

etwrq ★★★★★
(08.11.25 06:29:11 MSK)

Ответ на: комментарий от Psilocybe 08.11.25 06:12:50 MSK

#!/usr/bin/awk -f

/^node[0-9]+$/ {
	if (found) {
		for (i = 1; i <= nblock; i++)
			print block[i]
	}

	found = 0
	nblock = 0
	block[++nblock] = $0
}

/bbb=buy/ {
	found = 1
	block[++nblock] = $0
}

! /^node[0-9]+$/ && ! /bbb=buy/ {
	block[++nblock] = $0
}

END {
	for (i = 1; i <= nblock; i++)
		print block[i]
}

kaldeon ★★
(08.11.25 09:12:45 MSK)

Ответ на: комментарий от Psilocybe 08.11.25 06:12:50 MSK

В sam это выглядело бы так:

c1 = '([^n]|\n)'
c2 = '([^o]|\n)'
c3 = '([^d]|\n)'
c4 = '([^e]|\n)'
c5 = '([^0-9]|\n)'
ssam -e 'x/^node[0-9]+\n('$c1'|n'$c2'|no'$c3'|nod'$c4'|node'$c5'|\n)*/ v/bbb=buy/ d'

Обработку усложняет символ перевода строки и отсутствие жадности.

Ещё можно вместо захвата всего блока обрабатывать построчно, но будет не сильно выразительнее:

ssam -e 'x g/^node[0-9]+$/ {
	+ g/^node[0-9]+$/ - d
	+ v/^node[0-9]+$/ ., y/^node[0-9]+\n(.|\n)*/ g/./ -,. v/bbb=buy/ d
}'

kaldeon ★★
(08.11.25 09:24:03 MSK)
Последнее исправление: kaldeon 08.11.25 09:27:56 MSK (всего исправлений: 1)

Через grep -n находишь номера строк, дальше head/tail.

Aceler ★★★★★
(08.11.25 12:32:12 MSK)

(?<=foo1).+?bar1.+?(?=foo2)

AZJIO ★
(08.11.25 12:40:56 MSK)

$ sed -rn 's/(node.*)/\1/; t cl; s/(bbb=world)/\1/; H; t ok; b; :ok g; :p; p; n; s/(node.*)/\1/; T p; q; :cl h' struct.txt
node2
aaa=44
bbb=world
ccc=2023-03-14

Легчайше.

stabilitron
(08.11.25 12:42:53 MSK)

Ответ на: комментарий от Psilocybe 08.11.25 06:12:50 MSK

.+[\r\n]+?bbb=world[\r\n]+.+

тут строку сверху и строка снизу

Если надо так чтобы первый node игнорировался, потому что он ещё абзац выше, то тут слишком мудрёно, алгоритм идёт по символьно, можно запретить символ, но не слова, так как .+? сожрёт всё включая очередной node. Можно попытаться повторение группы (node[0-9]+.+?)+ но у меня не сработало.

Вот вроде сработал группами, я сам сначала накосячил

(node[0-9]+.+?)+?\Knode[0-9]+.+?bbb=world.+?(?=node[0-9]+)

Если что я тестирую на этом

AZJIO ★
(08.11.25 12:48:46 MSK)
Последнее исправление: AZJIO 08.11.25 13:10:26 MSK (всего исправлений: 4)

Ответ на: комментарий от kaldeon 08.11.25 05:54:10 MSK

+1 к этому решению. Заодно: теоретическое обоснование.

ugoday ★★★★★
(08.11.25 16:13:34 MSK)

Ответ на: комментарий от Psilocybe 08.11.25 06:12:50 MSK

Очевидно же, что нужно искать решение в облати многострочных регулярных выражений. Для данного примера можно так:

user> (->> "/tmp/nodes.txt" slurp 
           (re-matches #"(?s).*(node.*?bbb=world.*)node.*")
           last println)
node2
aaa=44
bbb=world
ccc=2023-03-14

nil

Модификатор ?s нужен для

Enables dotall mode.
In dotall mode, the expression . matches any character, including a line terminator. By default this expression does not match line terminators.

Dotall mode can also be enabled via the embedded flag expression (?s). (The s is a mnemonic for "single-line" mode, which is what this is called in Perl.)

ugoday ★★★★★
(08.11.25 16:40:16 MSK)

Ответ на: комментарий от ugoday 08.11.25 16:13:34 MSK

Мне тоже нравится этот подход. Но увы, из-за перевода строки и жадности получается некрасиво :(

kaldeon ★★
(08.11.25 16:55:23 MSK)

awk -vs='bbb=world' '
/^node/ && !f { n=0  }
$0 ~ s        { f=1  }
/^node/ && f  { exit }
              { lines[++n]=$0 }
END { for (i = 1; i <= n; i++)
          print lines[i]
}' input.txt

futurama ★★★★★
(08.11.25 17:08:42 MSK)

Может я что-то не понимаю но абзац это строка от начала строки до конца строки. Может тебе не абзац нужен а предусловие и постусловие? (?….) Вот это вот

ckotctvo
(08.11.25 17:26:15 MSK)

Я дома буду я накорябаю. Но хотелось бы знать точный синтаксис этих foo. В грепе есть режим перла и там есть precondition и postcondition которые матчатся но в ответ не идут

ckotctvo
(08.11.25 17:28:07 MSK)

Или используй pcregrep - там есть возможность выборки capturing groups. Выключи жадный greedy режим, первой группой пусти foo1, третьей foo2 а второй то что надо скушать и выведи вторую группу

ckotctvo
(08.11.25 17:33:39 MSK)

А можно и заморочиться и сделать вообще правильно с помощью спецификаций:

(ns nodes
  (:require
   [clojure.spec.alpha :as s]
   [clojure.string :as str]))

;; kv — непустая строка, включающая =
(s/def :line/kv (s/and
             string?
             #(not (str/blank? %))
             #(str/includes? % "=")))

;; title — непустая строка, без =
(s/def :line/title
  (s/and
   string?
   #(not (str/blank? %))
   #(not (str/includes? % "="))))

;; paragraph — title и не менее одной kv строки
(s/def :line/paragraph (s/cat :titel :line/title :content (s/+ :line/kv)))

;; cfg — не менее одного параграфа
(s/def :line/cfg (s/+ :line/paragraph))

(def data-file "/tmp/nodes.txt")

(def data
  (s/conform :line/cfg
             (-> data-file slurp (str/split #"\n"))))

После чего данные приобретают вид

[{:titel "node1", :content ["aaa=5" "bbb=hello" "ccc=2020-05-15"]}
 {:titel "node2", :content ["aaa=44" "bbb=world" "ccc=2023-03-14"]}
 {:titel "node3",
  :content ["aaa=579" "bbb=buy" "ccc=2024-01-11" "ddd=¥"]}]

И с ними можно сделать вообще всё, что душа пожелает. На сладкое можно так

nodes> (s/explain :line/cfg (-> data-file slurp (str/split #"\n")))
"" - failed: (not (blank? %)) in: [5] at: [:content] spec: :line/kv
nil

Здесь я испортил файл, добавив пустую строчку, которая изначальной спецификацией не допускалась. Сообщение об ошибке показывает нам на какой строке какое правило завалилось. Можно так оставить, можно сделать более понятное для пользователя пояснения.

ugoday ★★★★★
(08.11.25 18:44:30 MSK)

gawk -vRS='node[0-9]+' -vORS= '/bbb=world/ {print prev_RT $0} {prev_RT=RT}' test.txt

anonymous
(08.11.25 21:09:26 MSK)

Ответ на: комментарий от Psilocybe 08.11.25 06:12:50 MSK

тебе уже 3 варианта с awk накидали, это именно то для чего его создавали. и будет работать даже под вендой если gawk.exe себе поставишь. я им спеки на ЗИП делал из разнообразных supportfile форматов от вендоров.

ну либо perl. тоже везде будет работать.

mumpster ★★★★★
(08.11.25 21:44:13 MSK)

Ответ на: комментарий от Psilocybe 08.11.25 06:12:50 MSK

Это, конечно, задачка для awk, но надо и bash добавить 😀

mapfile -t < "$1"
for ((i=0; i<${#MAPFILE[@]}; ++i)) {
    [[ ${MAPFILE[i]} =~ node[0-9]+ ]] && {
        index=$i
        continue
    }
    [[ ${MAPFILE[i]} == $2 ]] && {
        echo ${MAPFILE[index]}
        ((++index))
        break
    }
}
for ((i=$index; i<${#MAPFILE[@]}; ++i)) {
    [[ ${MAPFILE[i]} =~ node[0-9]+ ]] && break
    echo ${MAPFILE[i]}
}

$ # команда, файл, строка
$ my_grep nodes bbb=world
node2
aaa=44
bbb=world
ccc=2023-03-14

papin-aziat ★★★★★
(08.11.25 21:53:37 MSK)

Спасибо всем!

Psilocybe ★★★★★
(09.11.25 00:04:14 MSK) автор топика

Если у тебя начало абзаца как-то специально промаркировано (^$, ^\s\s\s\s, ^Абзац:\s и т.п.) то все \n заменяешь (напр. tr’ом) на какую-нибудь хрень, типа \r, \r перед маркером абзаца заменяешь на \n, например sed’ом, теперь каждый абзац - одна строка, грепом выводишь нужный абзац, заменяешь \r обратно на \n.

типа tr '\n' '\r' "твой-файл.txt" | sed 's/\r\s\s\s\s/\n\s\s\s\s/g' | grep 'паттерн для искомого абзаца' | tr '\r' '\n'

Ну это если очень нужно именно грепом это сделать. Так-то awk справится и в одиночку, а он обычно есть даже в укушенных системах типа OpenWrt.

Stanson ★★★★★
(09.11.25 06:13:52 MSK)

← thunderbird и oauth2

General

Home Assistant (HA) уведомления на телефон →

Похожие темы