Нужно запилить ztail

0

2

Я видел множество раз запросы вида «мне нужна идея что написать». Вот вот - нужен ztail. Который tail, но чтобы работало со сжатыми файлами. Да, нужно. У нас пачка nginx пишут сжатые логи, которые мне хотелось бы смотреть В РЕАЛЬНОМ ВРЕМЕНИ.

Спасибо.

Ссылка

←	А есть ли у нас кардридер для кучи (2-4) SD-шек?

Linux тема ElegantMatrix

→

unzip .log |tail

деньги можешь перечислить в фонд развития ЛОРа.

TPPPbIHDELj ★
(21.10.25 15:29:29 MSK)

Обязательно добавь в задачу, что реализация должна быть на rust

cobold ★★★★★
(21.10.25 16:24:44 MSK)

Ссылка

Ответ на: комментарий от TPPPbIHDELj 21.10.25 15:29:29 MSK

Ну как же, есть zcat, zgrep и др., а ztail – нет, из общей картины выбивается :)

yars068 ★★★★★
(21.10.25 16:27:04 MSK)
Последнее исправление: yars068 21.10.25 16:27:22 MSK (всего исправлений: 1)

Насколько я знаю, начать распаковывать gz с середины штатно нельзя. То есть ztail должен будет пробежать по всему файлу с его начала (но не показывать), что явно не то, что ждут от такой утилиты. Но если надо то это примерно zcat | tail, разве что zcat придётся подправить чтобы он при EOF не падал а ждал продолжения.

Надо будет менять формат: паковать например по 1 мбайту и записывать «пакетами» в выходной файл. Если не дописывать туда никаких метаданных для быстрой перемотки - его даже gunzip продолжит понимать. Но дописывать придётся.

У нас пачка nginx пишут сжатые логи

Это как?

firkax ★★★★★
(21.10.25 16:50:10 MSK)
Последнее исправление: firkax 21.10.25 16:51:56 MSK (всего исправлений: 1)

Попробуй

The Logfile Navigator, lnav, is a log file viewer for the terminal.

он вроде умеет

Given a set of files/directories, lnav will:

decompress as needed;
detect their format;

alx777 ★★
(21.10.25 16:53:36 MSK)

Ссылка

https://github.com/weirdbricks/ztail

Осталось только переписать с кристального на более мутный.

dataman ★★★★★
(21.10.25 16:57:46 MSK)

Ответ на: комментарий от yars068 21.10.25 16:27:04 MSK

Ну как же, есть zcat, zgrep и др., а ztail – нет, из общей картины выбивается :)

И всех их сложить в один .deb пакет, как suckless-tools :)

alx777 ★★
(21.10.25 17:00:01 MSK)

Ссылка

Ответ на: комментарий от dataman 21.10.25 16:57:46 MSK

Там код примитивный - он каждый раз распаковывает файл заново. Никакой магии, так любой дурак сможет.

Chiffchaff
(21.10.25 18:04:26 MSK)

Ответ на: комментарий от Chiffchaff 21.10.25 18:04:26 MSK

А так сможет: https://hub.darcs.net/dylex/ztail?

dataman ★★★★★
(21.10.25 18:29:38 MSK)

alias ztail='function z(){ local a f p; for a in $@;do [ ${a:0:1} != "-" ] && f+=" $a" || p+=" $a";done && zcat $f|tail $p;};z'

madcore ★★★★★
(21.10.25 18:32:21 MSK)
Последнее исправление: madcore 21.10.25 18:51:04 MSK (всего исправлений: 1)

Ответ на: комментарий от dataman 21.10.25 18:29:38 MSK

Увы, Haskell я совсем не знаю, даже приблизительно не понимаю, что там делается.

Chiffchaff
(21.10.25 18:32:35 MSK)

Ссылка

Ответ на: комментарий от Chiffchaff 21.10.25 18:04:26 MSK

так иначе с зипом и не выйдет

madcore ★★★★★
(21.10.25 18:40:53 MSK)

Ответ на: комментарий от madcore 21.10.25 18:40:53 MSK

С gzip’ом должна быть возможность сделать иначе. Он реализует потоковое сжатие, не блочное, что позволяет сжимать и разжимать потоки. Собственно говоря, сервер, который пишет логи, явно не сжимает каждый раз файл заново - это было бы слишком дорого и долго.

Возможно, просто, что потоковое разжатие никому до сих пор не требовалось, потому и не реализовано.

Chiffchaff
(21.10.25 18:44:48 MSK)

Ответ на: комментарий от Chiffchaff 21.10.25 18:44:48 MSK

хз как там организовать навигацию по сжатому, поток же нельзя разжимать не с начала
а так, проще такое хранить на фс со сжатием

madcore ★★★★★
(21.10.25 18:49:33 MSK)

Ответ на: комментарий от madcore 21.10.25 18:49:33 MSK

А… Я больше сконцентрировался на функционале tail -f. Который, наверное, можно реализовать, без того, чтобы разжимать файл постоянно.

Для реализации tail без опций наверное не страшно расшифровать файл с начала, если это не требуется делать постоянно.

Chiffchaff
(21.10.25 18:53:29 MSK)

Ссылка

Ответ на: комментарий от Chiffchaff 21.10.25 18:44:48 MSK

С gzip’ом должна быть возможность сделать иначе.

Поэтому, наверное, и написали https://github.com/circulosmeos/gztool:

GZIP files indexer, compressor and data retriever. Create small indexes for gzipped files and use them for quick and random data extraction. No more waiting when the end of a 10 GiB gzip is needed!

dataman ★★★★★
(21.10.25 19:05:50 MSK)

Ссылка

Ответ на: комментарий от firkax 21.10.25 16:50:10 MSK

Это как?

в смысле? Штатно.

targitaj ★★★★★
(21.10.25 23:25:45 MSK) автор топика

Ссылка

Ответ на: комментарий от madcore 21.10.25 18:32:21 MSK

Слишком тяжело будет. Машины вообще-то под нагрузкой.

targitaj ★★★★★
(21.10.25 23:27:11 MSK) автор топика

Зачем нужен ztail, если есть zcat file |tail?

bryak ★★★★
(21.10.25 23:30:33 MSK)

Ссылка

Ответ на: комментарий от targitaj 21.10.25 23:27:11 MSK

кажется, я понял, что на самом деле тебе нужно, невнимательно прочитал
только я хз как как обычный гзип к концу перемотать

Машины вообще-то под нагрузкой.

тогда и распаковывать лучше уже на своей машине, что-то типа такого

ssh nginxhost 'tail -c+0 -f /var/log/nginx/XXX.log.gz'|gzip -d

madcore ★★★★★
(22.10.25 01:06:09 MSK)

Ссылка

У нас пачка nginx пишут сжатые логи, которые мне хотелось бы смотреть В РЕАЛЬНОМ ВРЕМЕНИ.

Разве писать в конец gzip, не трогая начало, теоретически возможно?

Если нет, то тогда смысл tail -f пропадает.

kaldeon ★
(22.10.25 01:10:07 MSK)
Последнее исправление: kaldeon 22.10.25 01:12:24 MSK (всего исправлений: 1)

Проблема решается по-другому. Нужно с другого сервера (без нагрузки) примонтировать фс с логами и локальными ресурсами разжимать файлы.

kaldeon ★
(22.10.25 01:14:50 MSK)

Ссылка

Ответ на: комментарий от kaldeon 22.10.25 01:10:07 MSK

писать можно в конец, пока не пришел конечный блок с црц и размером, читать - нет, заголовок-то в начале и дальше нужно последовательно прочесть все данные

madcore ★★★★★
(22.10.25 01:57:36 MSK)

Ссылка

Ответ на: комментарий от madcore 21.10.25 18:40:53 MSK

Мне кажется, со всеми словарными способами сжатия не выйдет. Там же фишка в чем – словарь строится на лету. Поэтому не получится разжать файл с его середины, поскольку будут встречаться индексы из словаря, которых пока нет.

Если немного модифицировать алгоритм словарного сжатия, чтобы сохранил словарь отдельно. Тогда бы можно было прочитав отдельно словарь, разжать файл из любой его точки.

hibou ★★★★★
(22.10.25 03:56:31 MSK)

Ответ на: комментарий от kaldeon 22.10.25 01:10:07 MSK

Разве писать в конец gzip, не трогая начало, теоретически возможно?

Можно распаковывать «склеенные» gzip-файлы:

(echo abc | gzip; echo 123 | gzip) | gzip -d

No ★★
(22.10.25 05:02:39 MSK)

Ссылка

логи, которые мне хотелось бы смотреть В РЕАЛЬНОМ ВРЕМЕНИ.

Отчего бы не перестать страдать фигнёй и поставить Opensearch?

ugoday ★★★★★
(22.10.25 11:20:32 MSK)

Ссылка

Ответ на: комментарий от hibou 22.10.25 03:56:31 MSK

либо резать поток на законченные блоки, через эн чего-то завершать и начинать снова
тогда можно будет поймать заголовок гзипа рано или поздно, не распаковывая целиком
но с произвольной навигацией по строкам это сильно поможет

madcore ★★★★★
(22.10.25 12:35:58 MSK)

Ответ на: комментарий от madcore 22.10.25 12:35:58 MSK

Кстати, одна из проблем словарных методов сжатия – размеры словаря при больших файлах. Решают эту проблему все форматы по-разному. Один из способов решения – как раз таки сброс словаря каждые N килобайт. Вот надо узнать как поступает gz. Может быть это получится использовать?

hibou ★★★★★
(22.10.25 13:18:40 MSK)

Ответ на: комментарий от hibou 22.10.25 13:18:40 MSK

Вроде нет там никакого сброса. Единственный вариант это построить индекс и потом при наличии этого индекса можно делать быстрый seek.

Но вообще надо смотреть на конкретный софт, который этот gzip формирует. Так-то можно тупо сделать cat file1.gz file2.gz > file3.gz и это будет работать. Если конкретный софт формирует конечный gzip путем таких конкатенаций независимых кусков, тогда можно попробовать.

А вообще есть прекрасный формат xz который позволяет делать произвольные seek-и. Не знаю, написал ли кто-то xztail, но формат это точно позволяет.

vbr ★★★★★
(22.10.25 14:24:25 MSK)
Последнее исправление: vbr 22.10.25 14:28:29 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от hibou 22.10.25 13:18:40 MSK

есть возможность
например, если сделать gzip *.log -c >xxx.log.gz, то для каждого файла будет новый заголовок и, соответственно, словарь

с сжатыми логами nginx не работал, но он тоже умеет вставлять заголовок, через сколько он будет зависит от параметра buffer=size(возможно, ещё потребуется flush=...) в access_log

если я правильно понял задачу ТС, надо просто дождаться пока не появится очередной заголовок, либо поискать ближайший от конца файла и начать тайлить оттуда

madcore ★★★★★
(22.10.25 16:41:06 MSK)

Ссылка

Для того чтобы оставить комментарий войдите или зарегистрируйтесь.

←	А есть ли у нас кардридер для кучи (2-4) SD-шек?

General

Linux тема ElegantMatrix

→

Похожие темы