Корректный периодический парсинг текстовых файлов

0

2

Привет.

Есть необходимость раз в {период времени} пробегать объемный текстовый файл, контент в котором постоянно обновляется.

Интересует та часть файла, которая начинается с {метка} и до конца.

Первым решением стал sed, выделяющий искомую часть контента для последующего использования.

Однако упомянутый прежде объем файла, а также высокая периодичность запуска истошно увеличили нагрузку на CPU.

Какой подход наиболее грамотный в решении подобной задачи, учитывающий то, что размер файла может меняться и предполагающий высокой частоту подобных операций?

Иных инструментов, кроме стандартных Linux нет.

Первая мысль — использовать tail для сокращения объема данных. Этот метод использовался ранее при решении подобных проблем. Однако прирост данных в файле неравномерен, поэтому заранее знать, сколько строк отсекать невозможно.

Перемещено hobbit из general

Ссылка

←	samba сломалась, сбой юнита nmb.service.

SSL + httpd

→

Файл только дописывается в конец новыми данными?

Сохраняй между запусками обработчика строку, на которой закончил обработку. Дальше с tail обрабатывай начиная с неё.
Запускай обработку только если файл изменился (проверяй размер или запускайся по inotify).
Читай файл с конца до метки (tac, например).

anlar
(16.10.25 10:11:21 MSK)

А потом свой велосипед - пародие на ELK ?

sanyo1234 ★
(16.10.25 10:13:30 MSK)

Ссылка

попробуй начать с программы на C или Go

kaldeon ★
(16.10.25 10:25:51 MSK)
Последнее исправление: kaldeon 16.10.25 10:26:02 MSK (всего исправлений: 1)

Ссылка

Вариантов нормальных тут два: а) хранить где-то позицию последней обработанной строки и б) если есть контроль над источником данных, поменять схему, пусть та программа пишет не в файл, а в stdout (может быть и туда, и туда, с помощью tee), а ваш скрипт уже будет обрабатывать строки по мере поступления.

ugoday ★★★★★
(16.10.25 10:27:42 MSK)

Ссылка

Ответ на: комментарий от anlar 16.10.25 10:11:21 MSK

Файл только дописывается в конец новыми данными.

Он - лог.

Я тут помыслил: а умеет sed искать не первую строку с начала файла, выводя остаток до конца, а искать первую строку при поиске с конца файла?

То есть при

..data..
..data..
<90% of content>
..
..data..
regex_1
..data..
..data..
regex_1
..data..
regex_1
..data..

шерстить не весь файл с начала, а поднимаясь последовательно с конца до первого вхождения искомого паттерна в файл, выводя затем результат в виде

regex_1
..data..
..data..
regex_1
..data..
regex_1
..data..

biophydener
(16.10.25 10:30:22 MSK) автор топика
Последнее исправление: biophydener 16.10.25 10:32:53 MSK (всего исправлений: 2)

Ответ на: комментарий от biophydener 16.10.25 10:30:22 MSK

В первом же ответе предолжено использовать tail.

С заданной строки почти наверняка может читать awk. Хотя давно не пользовался ни тем, ни другим, задачу явно проще решить написав на полноценном ЯП.

Chiffchaff
(16.10.25 10:42:39 MSK)

Ссылка

конвейер из head | tail

не?

хотя таки проще написать что-то на питошке, один фиг позицию лучше хранить в каком-то конфиге, дабы избежать ошибок при падении

Morin ★★★★★
(16.10.25 10:51:03 MSK)
Последнее исправление: Morin 16.10.25 10:52:40 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от biophydener 16.10.25 10:30:22 MSK

Файл только дописывается в конец новыми данными.

и никогда не чистится ?

x905 ★★★★★
(16.10.25 10:57:31 MSK)

Ответ на: комментарий от x905 16.10.25 10:57:31 MSK

Раз в несколько дней старые данные архивируются, а новые пишутся в свежий файл.

biophydener
(16.10.25 11:00:04 MSK) автор топика

Можно не повторять парсинг, а следить за приростом файла через классический tail -f. Текст после строки с меткой легко отрежет awk:

tail -f /var/yourlog | awk '/{метка}/,0' | обработка

tail -n+1 -f /var/yourlog выведет весь файл и продолжит следить.

legolegs ★★★★★
(16.10.25 11:05:40 MSK)
Последнее исправление: legolegs 16.10.25 11:08:51 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от biophydener 16.10.25 10:30:22 MSK

Он - лог.

Ну и натравите на него какой-нибудь fluent-bit. Он для того и предназначен.

ugoday ★★★★★
(16.10.25 11:09:03 MSK)

Ссылка

Ответ на: комментарий от biophydener 16.10.25 11:00:04 MSK

тогда фраза свыше «только дописывается в конец» не верна

x905 ★★★★★
(16.10.25 11:42:45 MSK)

Храни размер файла, делаешь ему сплит, первую часть выкидываешь, остальные смотришь на наличие метки.

ya-betmen ★★★★★
(16.10.25 11:46:48 MSK)

Ссылка

Ответ на: комментарий от x905 16.10.25 11:42:45 MSK

Новые события записываются в лог файл в дополнение к предыдущим.

В логе хранятся события за последние сутки.

К началу следующего дня лог архивируется, затем открывается новый файл.

biophydener
(16.10.25 13:38:10 MSK) автор топика

Ссылка

Короче, пытаюсь распутаться.

Мое итоговое предположение, как я могу реализовать задуманное.

Определяю номер строки, в которой в лог-файле впервые отмечается искомая временная метка

grep -n '{timestamp}' $log | head -n1 | awk -F ':' '{print $1}'

Использую полученный номер строки, чтобы вывести все с начала этой строки до конца файла

tail -n+${number} $log

В полученном выводе отслеживаю необходимые мне показатели.
В свою очередь увеличиваю временной интервал, в течение которого статистика собирается: запуск ежеминутно меняю на запуск раз в 5 минут.

Но по ощущениям я вернусь к той же проблеме, разве что достигну ее иными инструментами.

Например, интересует разница между sed, который сначала находит pattern, а затем печатает все до конца файла и grep, который как минимум большую часть файла исследует в поиске находящейся почти в самом конце строки, а затем просто показывает ее номер.

tail, который с определенной строки до конца файла контент печатает.

В чем их принципиальная разница, почему это работает значительно быстрее и менее ресурсоемко, чем просто sed? И работает ли оно вообще быстрее?..

biophydener
(16.10.25 14:10:51 MSK) автор топика
Последнее исправление: biophydener 16.10.25 14:12:16 MSK (всего исправлений: 2)

Ответ на: комментарий от biophydener 16.10.25 14:10:51 MSK

grep -n '{timestamp}' $log

Вот здесь вы уже прочитали файл с самого начала.

ugoday ★★★★★
(16.10.25 14:16:06 MSK)

Ответ на: комментарий от ugoday 16.10.25 14:16:06 MSK

И это заняло не меньше (или не существенно меньше) ресурсов, чем sed, печатающий файл с первого включения паттерна и до конца?

biophydener
(16.10.25 14:22:14 MSK) автор топика

Ответ на: комментарий от biophydener 16.10.25 14:22:14 MSK

А о каких размерах файла мы вообще говорим? И сколько занимает обработка сейчас?

legolegs ★★★★★
(16.10.25 14:24:15 MSK)

Ответ на: комментарий от biophydener 16.10.25 14:22:14 MSK

Ответ зависит от того, где именно находится искомая метка. Но судя по всему, она должна быть где-то в конце. Поэтому ответ — примерно одинаково.

ugoday ★★★★★
(16.10.25 14:24:39 MSK)

Ссылка

Тогда из предложенного ya-betmen: раз в интервал считать прирост файла в байтах, с помощью tail -c <bytes> выводить добавленное, а затем парсить?

biophydener
(16.10.25 14:26:40 MSK) автор топика

Ответ на: комментарий от biophydener 16.10.25 14:26:40 MSK

А зачем этот велосипед? Чем tail -f не угодил?

legolegs ★★★★★
(16.10.25 14:27:56 MSK)

Ответ на: комментарий от biophydener 16.10.25 14:26:40 MSK

Символ юникода занимает от одного до четырёх байт. Так что совет может сработать, если вы точно уверены в своих данных.

ugoday ★★★★★
(16.10.25 14:29:42 MSK)

Ссылка

Ответ на: комментарий от biophydener 16.10.25 14:10:51 MSK

А что если после первой обработки файла сбросить количество строк в переменную или файл и следующую обработку тупо начинать со следующей строки?

papin-aziat ★★★★★
(16.10.25 14:37:36 MSK)

Ссылка

Ответ на: комментарий от biophydener 16.10.25 14:26:40 MSK

Не надо в интервал, надо в момент начала работы скрипта. Ну и если файл ротируется, то время создания бы неплохо проверять, что ты в тот же файл смотришь.

Если файл текстовый без безумно длинных строк то можно по строкам а не по байтам, да.

ya-betmen ★★★★★
(16.10.25 14:40:36 MSK)

Ссылка

Ответ на: комментарий от legolegs 16.10.25 14:27:56 MSK

Полагаю, я запутал не только себя, но и всех здесь дискутирующих. Однако. Приношу извинения за столь абстрактную риторику.

Под меткой из исходного вопроса понимался timestamp. В части лога с первого включения timestamp — в поле field — может быть не предопределенное, а уникальное (при этом не случайное), значение (value). И моя задача — определение количества вхождений для каждого такого уникального значения за последний интервал N времени. Такое количество я в итоге считаю посредством uniq.

biophydener
(16.10.25 14:41:14 MSK) автор топика

Ответ на: комментарий от biophydener 16.10.25 14:41:14 MSK

tail -f log.file | indexer /data/dir

Где indexer читает входной поток по мере поступления и складирует данные в формате /data/dir/$value/$ts.log. Содержимое $ts.log — строчки с этим значением, в рамках заданного timestamp’a.

Тогда, если нас всегда интересуют известные интервалы (например пятиминутные), подбором значений задача сводится к wc нужного файла. Если нет — просто сильно сокращается необходимость читать ненужные данные.

P.S. Главное вовремя остановиться!

ugoday ★★★★★
(16.10.25 14:56:29 MSK)

Ссылка

Говорят что c++ должен дать суперскую скорость обработки теста.

TheNewDragon
(16.10.25 15:27:38 MSK)

Ответ на: комментарий от TheNewDragon 16.10.25 15:27:38 MSK

Вообще-то задачка скорее для perl. Можно сбацать решение, которое будет давать статистику на заданную глубину хоть раз в секунду и при этом читать файл только один раз в жизни.

legolegs ★★★★★
(16.10.25 15:41:10 MSK)

Ссылка

Ответ на: комментарий от TheNewDragon 16.10.25 15:27:38 MSK

С чего бы это? Задача упирается в: а) скорость последовательного чтения с диска; б) алгоритм, избегающий чтения лишних данных.

ЯП вообще ни при чём.

P.S. Задачу можно решить вообще без всякого программирования:

Поднимаем Postrgres.
Натравливаем на файл fluent-bit, который будет отсылать данные в Postgres.
Вытаскиваем нужные значения sql-запросом.

ugoday ★★★★★
(16.10.25 15:43:48 MSK)
Последнее исправление: ugoday 16.10.25 15:48:32 MSK (всего исправлений: 1)

Ссылка

Ты можешь обернуть свой сбор статистки в такой скрипт:

let OFFSET=0
while true; do
  NEXTOFFSET=$(tail -c+$((OFFSET+1)) /var/yourlog | grep -m1 -Fb '{метка}')
  NEXTOFFSET=${NEXTOFFSET%%:*}
  let OFFSET+=NEXTOFFSET
  
  tail -c+$((OFFSET+1)) /var/yourlog | твой фильтр

  sleep {период времени};
done

Если лог реально огромный (сотни мегабайт ненужных данных в начале), то прирост может быть значительным. tail -c+номер_байта_с_1 работает за константное время.

legolegs ★★★★★
(16.10.25 16:09:38 MSK)
Последнее исправление: legolegs 16.10.25 16:10:33 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от legolegs 16.10.25 14:24:15 MSK

Попытка углубиться на 1 минуту назад от текущего времени в средний лог размером ~0.5 Гб и ~1.5 млн строк (эти данные сформировались ~за треть суток) занимает ~90 секунд.

Чувствую себя DevOps’еком, который взял бензопилу, спилил сосну, и старательно вырезает этой же бензопилой из ствола зубочистку. Разница лишь в том, что место тупняка в исходном контексте осознать усердно не удается :(

biophydener
(16.10.25 16:15:15 MSK) автор топика
Последнее исправление: biophydener 16.10.25 16:16:54 MSK (всего исправлений: 1)

Ответ на: комментарий от biophydener 16.10.25 16:15:15 MSK

У тебя это всё на расбери пи крутится?

Я когда скрипт выше набрасывал, то сделал тестовый файл в 500мб. Так его греп за секунду проходил. И это притом, что у меня вместо компьютера core2duo с НЖМД.

legolegs ★★★★★
(16.10.25 16:19:51 MSK)

Я делал выборки на 50 гб текстовых файлов. Это по времени занимало ровно скорость чтения hdd, а нагрузки на процессор существенной не было. То есть всё таки прдлагаю подумать «почему у вас нагрузка на cpu»? Попробуйте поискать в архивных логах, которые не меняются. Про написание собственного софта. Ну в базе данных логи будут утилизировать cpu ещё больше. Какая то самописная программа будет работать хуже, чем отлаженные gnu утилиты. Писать на С, при этом лог переводить в бинарный вид, возможно разделяя на часть поисковой колонки и колонки с данными. Вот так победил бы. Но ещё раз, убедитесь, что на том же компьютере не заблокированные файлы также утилизируют проц.

azsx ★
(17.10.25 07:50:24 MSK)

Ответ на: комментарий от azsx 17.10.25 07:50:24 MSK

Кажется, все оказалось значительно проще — на машине 1 ГБ рамы, и это — причина ее утопления.

Даже не подумал, что стоит обращать внимание на характеристики, потому что обыкновенно мощности других хостов в значительной степени выше.

Разница во времени выполнения на схожих данных на хосте рядом — примерно два порядка.

Спасибо всем за участие в дискуссии. В особенности — legolegs.

biophydener
(17.10.25 21:33:45 MSK) автор топика
Последнее исправление: biophydener 17.10.25 21:35:28 MSK (всего исправлений: 2)

Первая мысль — использовать tail для сокращения объема данных. Этот метод использовался ранее при решении подобных проблем. Однако прирост данных в файле неравномерен, поэтому заранее знать, сколько строк отсекать невозможно.

Насколько неравномерен? Есть ли какой-то адекватный максимум, больше которого не запишется? Можно взять tail вот так с запасом, дабы не читать весь объёмный файл, а дальше уже по старинке sed, соответственно.

upd: да, а дальше tail -f, правильно выше подсказали.

CrX ★★★★★
(17.10.25 21:41:03 MSK)
Последнее исправление: CrX 17.10.25 21:42:07 MSK (всего исправлений: 1)

Ссылка

Перед каждым парсингом файла делать logrotate, так у тебя всегда будет небольшой файл и в нём только новые еще ни разу не обработанные данные. {метка} от предыдущего просмотра автоматически становится ненужной

futurama ★★★★★
(17.10.25 22:08:18 MSK)
Последнее исправление: futurama 17.10.25 22:09:35 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от legolegs 16.10.25 16:19:51 MSK

Я когда скрипт выше набрасывал, то сделал тестовый файл в 500мб. Так его греп за секунду проходил.

Так как вы его делали, возможно он в кэше и остался.

time grep aaa /var/log/m*  >/dev/null
real	0m1.306s

Общий объем /var/log/m* 497Mb

anc ★★★★★
(18.10.25 04:05:07 MSK)

я в таких случаях всегда делаю tail -F /file | ./script.pl или -f

sergej ★★★★★
(18.10.25 04:36:09 MSK)

Ссылка

Ответ на: комментарий от biophydener 17.10.25 21:33:45 MSK

Кажется, все оказалось значительно проще — на машине 1 ГБ рамы, и это — причина ее утопления.
Даже не подумал

С этого начинать надо. Я реально не нахожу объяснения этому феномену, народ может долго и упорно считать тики cpu, iops-ы носителей, при этом в упор не замечая что мозги давно закончились.

anc ★★★★★
(18.10.25 04:38:57 MSK)

Ссылка

Ответ на: комментарий от anc 18.10.25 04:05:07 MSK

Да, закешировался. Но даже еслиб нет, 90 секунд для 500 мб как у ТС это долго. И да, есть смысл оптимизировать.

legolegs ★★★★★
(18.10.25 16:30:26 MSK)
Последнее исправление: legolegs 18.10.25 16:30:31 MSK (всего исправлений: 1)

Ответ на: комментарий от legolegs 18.10.25 16:30:26 MSK

Да, закешировался.

Это основное!

Но даже еслиб нет, 90 секунд для 500 мб как у ТС это долго.

Да, долго. Но замечу, что ТС уже выше обнаружил что мозгов мало.

anc ★★★★★
(18.10.25 20:17:45 MSK)

Ответ на: комментарий от anc 18.10.25 20:17:45 MSK

Лично мне претит решать алгоритмическую проблему аппаратным образом. Для задачи ТС не нужно много памяти.

legolegs ★★★★★
(18.10.25 20:42:50 MSK)

Ссылка

Для того чтобы оставить комментарий войдите или зарегистрируйтесь.

←	samba сломалась, сбой юнита nmb.service.

Admin

SSL + httpd

→

Похожие темы