А как бы вы оттранкейтили начало файла, в который пишет процесс?

0

1

Есть достаточно нетривиальная задача, если найдется решение хотя бы для linux - было бы уже неплохо.

Есть процесс, запущенный через fork() + close(1, 2) + open(file1, file2) + execve. Соответственно он пишет свой stdout/err в файл.

Что нужно - периодически чекать размер файла в другой программе (тривиально) и если он больше чем N (пусть будет 10 МБ) - отрезать ему M байт (пусть будет 5 МБ) с начала (не тривиально). Оставив таким образом только последние 5 МБ её выхлопа.

Не тривиально, потому что этот же файл всё еще пишется запущенной исходной программой.

Да, можно в теории поступить по-другому - открыть файл, скопировать его в другой, сохранить как .log.1, затранкейтив полностью исходный. Но есть проблема в том, что таких «пишущих» процессов будет что-то около 50 и засирать каталог очень не хочется (тем более, что практика показала, что искать что-то одновременно в log.1 … log.9 не очень удобно (особенно когда это что-то попадает куском в первый файл, а куском во второй)).

logrotate не доступен, потому что это условно-portable сервис + его надо запускать под виндами, желательно не переписав его на 90%.

UPD:
В общем на чем сейчас остановились: перехватывать на себя выхлоп через пайпы - не вариант, нужно плодить миллион (80 шт) нитей чтобы обслуживать все запущенные сервисы (40 шт).
Сейчас рассматриваем вариант с одной нитью и работать как logrotate - делать log.1, log.2 для всех разом. Непенятно только как заставить каретку в программе переехать на начало, ведь если работающий сервис не сделал close - то его позиция каретки зафикшена и если после моего truncate файла будет write со стороны программы - то там будет не 0, а файл, размером N МБ + добавка последней записи.
Кто расскажет, какую магию делает logrotate и logrotatewin? https://pastebin.com/ewDukJJx

Ссылка

←	Libgpiod меняет значения GPIO при завершении приложения

Clojure, подскажите - зачем применяются defrecord, deftype?

→

fallocate()

reprimand ★★★★★
(27.08.21 04:29:57 MSK)

Ссылка

Что нужно - периодически чекать размер файла в другой программе (тривиально) и если он больше чем N (пусть будет 10 МБ) - отрезать ему M байт (пусть будет 5 МБ) с начала (не тривиально). Оставив таким образом только последние 5 МБ её выхлопа.

Всмысле? Пока процесс файл не отпустил место на диске Вам никто не вернёт (даже если Вы файл удалите). Можно конечно в нём пытаться делать дыры из параллельного процесса, но я не уверен что Вы этого хотите.

bugfixer ★★★★★
(27.08.21 04:40:45 MSK)

оттранкейтили

https://www.youtube.com/watch?v=A-MhUnIByp0

LINUX-ORG-RU ★★★★★
(27.08.21 04:42:26 MSK)

Ссылка

Не тривиально, потому что этот же файл всё еще пишется запущенной исходной программой.

Надо, чтобы исходная программа умела по сигналу переоткрывать файл и начинать писать с 5 МБ. Тогда переименовываешь файл, создаёшь пустой, посылаешь сигнал, заполняешь первые 5 МБ. Иначе без потерь никак.

monk ★★★★★
(27.08.21 13:44:06 MSK)

Ответ на: комментарий от monk 27.08.21 13:44:06 MSK

Можно чтобы просто переоткрывала. Тогда готовишь файл размером 5МБ, переименовываешь рабочий во временный, затем подготовленный в рабочий. Посылаешь сигнал. Из временного переливаешь данные, удаляешь.

monk ★★★★★
(27.08.21 13:45:44 MSK)

Ссылка

Ответ на: комментарий от bugfixer 27.08.21 04:40:45 MSK

Пока процесс файл не отпустил место на диске Вам никто не вернёт (даже если Вы файл удалите).

При обрезании размера возвращает. У logrotate есть copytruncate. Работает.

monk ★★★★★
(27.08.21 13:46:47 MSK)

Ссылка

его надо запускать под виндами

По умолчанию Вам даже открыть не дадут файл, если он открыт другим процессом. Но это настраивается в параметрах CreateFile.

Возможно, стоит взять SQLite + WAL, где танцы с блокировками при работе сразу нескольких программ с одной базой для всех ОС уже решены?

anonymous
(27.08.21 13:53:35 MSK)

Можно попробовать подсунуть пайп и перенаправлять логи в какую нибудь БД для временных рядов.

TDrive ★★★★★
(27.08.21 13:59:40 MSK)

Ответ на: комментарий от TDrive 27.08.21 13:59:40 MSK

только там с блокировкой записи в файл нужно быть осторожным)) из пайпа обязательно кто то должен читать

TDrive ★★★★★
(27.08.21 14:03:14 MSK)

Ссылка

Ответ на: комментарий от anonymous 27.08.21 13:53:35 MSK

Возможно, стоит взять SQLite + WAL, где танцы с блокировками при работе сразу нескольких программ с одной базой для всех ОС уже решены?

Там с обрезанием размера файла тоже нетривиально.

monk ★★★★★
(27.08.21 14:26:59 MSK)

Ссылка

Например, сделать журнал как кольцевой буфер нужного размера.

anonymous
(27.08.21 14:41:41 MSK)

Если можно править само приложение, то ротацию лучше организовать прямо в нём, раз оно портативное. А внутри него уже сделать опции отдельно на запись в файлы с ограничением размера, отдельно на stdout.

А как бы вы оттранкейтили начало файла, в который пишет процесс?

Я бы сделал так.

apt_install_lrzsz ★★★
(27.08.21 14:56:35 MSK)

Ссылка

пусть пишет в vfs.

найти подходящую в этих ваших интернетах или сделать самому на коленке по «howto create virtual file system in linux»

«если файл открыт только одним процессом и его размер больше XXX мег, то обрезать лишнее (или просто физически писать в следующую пачку, а эту переименовать)»

MKuznetsov ★★★★★
(27.08.21 17:43:02 MSK)

Ссылка

Ответ на: комментарий от anonymous 27.08.21 14:41:41 MSK

Например, сделать журнал как кольцевой буфер нужного размера.

Причём управление этим журналом можно сделать отдельной приблудой, а stdout сабжевой проги перенаправлять не в файл, а на вход приблуды – например вместо open(file1, file2) написать open(/run/приблуда.socket, /run/приблуда.socket2).

dimgel ★★★★★
(28.08.21 06:32:14 MSK)

Ссылка

если файл предполагается не сильно большим, то я бы посмотрел в сторону ringbuffer+mmap

но тут изначальная потребность немного кривая. какой смысл в «последних» 5МБ? стандартная практика N-файлов по M-размеру (или T-времени). какой-то кривой велосипед изобретается, имхо. особливо если речь про 50 процессов. тут прям напрашивается использование стандартного системного логгера, а он уж сам отротейтит как полагается.

ergo ★★★
(29.08.21 23:07:40 MSK)
Последнее исправление: ergo 29.08.21 23:13:01 MSK (всего исправлений: 2)

Ответ на: комментарий от ergo 29.08.21 23:07:40 MSK

использование стандартного системного логгера

Решение должно быть кроссплатформенным, под виндами такого нет.

какой смысл в «последних» 5МБ?

Примерно неделя логов.

PPP328 ★★★★★
(30.08.21 04:39:44 MSK) автор топика

Ссылка

Через снимок файловой системы и чтение информации логов из снимка.

iZEN ★★★★★
(30.08.21 08:11:00 MSK)

Ответ на: комментарий от iZEN 30.08.21 08:11:00 MSK

бздун как всегда решил пердануть не дочитав сообщение тса до конца.

anonymous
(30.08.21 08:27:16 MSK)

Без анальных плясок — никак.

Можно воспользоваться тем фактом, что I/O offset — это часть file description, а не file descriptor. Пишем программу-обёртку, которая будет хранить дубликаты файловых дескрипторов, полученных после open. Время от времени проверяем размер, если он выше порога — вручную копируем диапазон с 5M до конца по смещению 0 и делаем lseek + truncate.

Проблема в том, что тут огромная такая дыра с гонкой.

UPD: А, можешь ещё попробовать fallocate(FALLOC_FL_COLLAPSE_RANGE) + lseek(SEEK_CUR, -5*1024*1024). Хотя тут тоже гонка, но гораздо меньше.

intelfx ★★★★★
(30.08.21 08:35:48 MSK)
Последнее исправление: intelfx 30.08.21 08:38:53 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от anonymous 30.08.21 08:27:16 MSK

В снапшоты умеют: XFS, NTFS, UFS2, ZFS.

iZEN ★★★★★
(30.08.21 08:35:51 MSK)

Ответ на: комментарий от iZEN 30.08.21 08:35:51 MSK

Очевидный btrfs забыл, но каким боком тут снапшоты вообще?

intelfx ★★★★★
(30.08.21 08:36:38 MSK)

Ответ на: комментарий от intelfx 30.08.21 08:36:38 MSK

Каждый лог-файл представляет собой очередь, голова в некоторый момент времени укорачивается, а к хвосту файла добавляется новая информация.

Снапшоты нужны для моментальной и одновременной заморозки состояния нескольких файлов, чтобы прочесть информацию из их голов. В противном случае получим разнобойную информацию - в зависимости от скорости чтения и быстроты предобработки каждого из файлов.

Частоту снапшотинга нужно синхронизировать с частотой добавления новой информации в файлы, вернее, с частотой укорачивания голов.

iZEN ★★★★★
(30.08.21 16:29:00 MSK)

Ссылка

Ответ на: комментарий от intelfx 30.08.21 08:36:38 MSK

Очевидный btrfs забыл

Btrfs не годна в продакшен, забыл?

iZEN ★★★★★
(30.08.21 18:46:37 MSK)

Ссылка

Какой только фигней не страдают. Если нужна неделя логов, пиши в файл logs/.log, и позапрошлую удаляй при запуске.

anonymous
(01.09.21 08:52:51 MSK)

Ответ на: комментарий от iZEN 30.08.21 08:35:51 MSK

В снапшоты умеют: XFS

t184256 ★★★★★
(01.09.21 11:30:45 MSK)

Ссылка

закрывать дескриптор по окончании записи в файл. хотябы иногда.

zudwa ★
(01.09.21 11:43:19 MSK)

Ответ на: комментарий от anonymous 01.09.21 08:52:51 MSK

и позапрошлую удаляй при запуске.

Аптайм бесконечность.

PPP328 ★★★★★
(01.09.21 12:43:37 MSK) автор топика

На каждый файл завести по нити-монитору изменений.

В каждой такой прокси-нити организовать чтение консистентной копии головы файла, изменения в котором она отслеживает. Файл на время чтения будет блокироваться от изменений, чтобы не получить неконсистентную голову.

Собранные данные должны будут быть доступны нити-супервизору, которая будет «посещать» каждую нить и выспрашивать у неё свежую запись для обработки.

Вся эта машинерия строится на принципах синхронизации и блокировок по схеме «Много писателей - один читатель». Прокси-нити нужны, чтобы надолго не блокировать от изменений лог-файлы, когда до них дойдёт очередь.

iZEN ★★★★★
(01.09.21 13:12:15 MSK)

Все-таки задача выглядит, как будто мы не можем изменять исходники, но ведь можем же. Почему нельзя создать каталог для логов logs, в нем создать каталоги по числу процессов и писать логи по мегабайту, там, где происходит запись лога по таймеру ( наверняка найдется такое место, где бывает периодически ), там проверять размер записанного в текущий файл и общий размер файлов в каталоге для данного процесса, удалять ненужные.

anymouse ★
(01.09.21 15:44:02 MSK)

Ответ на: комментарий от TDrive 27.08.21 13:59:40 MSK

Можно попробовать подсунуть пайп и перенаправлять логи в какую нибудь БД для временных рядов.

Проработали этот вариант, столкнулись с проблемами. Запускаемых приложений около 40. При запуске подменяем stdout/err на пайп под linux, в CreateProcess указываем пайпы как выходные stdout/err.

И тут засада. Из пайпа кто-то должен читать. Это не сложно. Создаем нить, которая будет постоянно вычитывать выходной пайп. Опустим проблемы синхронизации подмены пайпа в нити когда приложение падает и нужно переподнимать канал. Всё равно как ни крути нужны две нити - для stdout и stderr раздельно, иначе друг друга блокируют.

Итого получаем 80 нитей, которые постоянно долбят read чтобы прочитать выхлоп и положить его в файл.

Плохо.

PPP328 ★★★★★
(03.09.21 07:24:17 MSK) автор топика

Ответ на: комментарий от anymouse 01.09.21 15:44:02 MSK

Все-таки задача выглядит, как будто мы не можем изменять исходники, но ведь можем же. Почему нельзя создать каталог для логов logs, в нем создать каталоги по числу процессов и писать логи по мегабайту, там, где происходит запись лога по таймеру ( наверняка найдется такое место, где бывает периодически ), там проверять размер записанного в текущий файл и общий размер файлов в каталоге для данного процесса, удалять ненужные.

Программа при запуске не в курсе что пишет в файл, её запускают и переопределяют stdout/err в файлы самостоятельно. По факту она просто срет в stdout/err. Это поменять нельзя - потому что иначе если запускать их много разом они будут друг другу мешать, потому что про друг друга они не в курсе.

PPP328 ★★★★★
(03.09.21 07:43:52 MSK) автор топика

Ссылка

Ответ на: комментарий от iZEN 01.09.21 13:12:15 MSK

А как бы вы оттранкейтили начало файла, в который пишет процесс? (комментарий)

PPP328 ★★★★★
(03.09.21 07:44:09 MSK) автор топика

Ссылка

Ответ на: комментарий от zudwa 01.09.21 11:43:19 MSK

Программы пишут в stdout/err, дескриптор в таком случае закрывать нельзя.

supervisord такой выхлоп умеет переопределять в файл и ротейтить несмотря на открытый дескриптор. Как?

UPD:
Посмотрел в исходниках. Он перехватывает stdout/err в pipe:

    def _prepare_child_fds(self):
        options = self.config.options
        options.dup2(self.pipes['child_stdin'], 0)
        options.dup2(self.pipes['child_stdout'], 1)
        if self.config.redirect_stderr:
            options.dup2(self.pipes['child_stdout'], 2)
        else:
            options.dup2(self.pipes['child_stderr'], 2)
        for i in range(3, options.minfds):
            options.close_fd(i)

PPP328 ★★★★★
(03.09.21 07:45:51 MSK) автор топика
Последнее исправление: PPP328 03.09.21 07:49:26 MSK (всего исправлений: 1)

Ссылка

А чего не портануть syslogd и вызов в винду? еще в 90-х так делали, работало. Даже сеточка работала. Думаю готовых портов валом.

slapin ★★★★★
(03.09.21 09:09:44 MSK)

Ссылка

Ответ на: комментарий от PPP328 03.09.21 07:24:17 MSK

Итого получаем 80 нитей, которые постоянно долбят read чтобы прочитать выхлоп и положить его в файл.

А чем плохо? Они же просто висят в ожидании данных.

TDrive ★★★★★
(03.09.21 10:28:36 MSK)

Ответ на: комментарий от PPP328 01.09.21 12:43:37 MSK

Удаляй по таймеру.

(Маркдаун съел угловые скобки, там было <weeknum>.log)

anonymous
(03.09.21 12:53:38 MSK)

Ссылка

На правах упоротого школьника

Можно писать логи в кольцевой буфер и периодически сбрасывать его на диск/консоль. Молись о 100% аптайме :)

algamest
(03.09.21 13:50:05 MSK)

Ссылка

Ответ на: комментарий от TDrive 03.09.21 10:28:36 MSK

Оккам.jpg.

Сейчас прорабатываем неблокирующие чтения из пайпа. Решаем проблему того что в долбаном windows анонимные пайпы не могут быть async. Смешно, с учетом того, что в драйвере анонимные и именованные пайпы - одно и то же.

PPP328 ★★★★★
(03.09.21 16:19:17 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Libgpiod меняет значения GPIO при завершении приложения

Development

Clojure, подскажите - зачем применяются defrecord, deftype?

→

Похожие темы