Как предугадать и не допустить переполнение диска?

Считай среднюю скорость прироста для двух интервалов:

«Длинный», условно, средняя за сутки.
«Короткий», условно, средняя за последний час.

Затем используй максимальное значение из этих двух и на его основе делай вывод, пора ли уже слать оповещение.

Это поможет на случай резких скачков.

Также возможно стоит настроить проверку, что если резко (за несколько минут) залито данных свыше некоторого порога, то слать уведомление чтобы админ проверил причину аномальной активности.

wandrien ★★
(09.11.23 17:57:20 MSK)

что то ерундой попахивает. с чего взята история что темп прироста линейный? а если ддос? а какой смысл хранить терабайты никому не нужного лога и устаревшего кэша? размер кэша и лога nginx можно задать в самом nginx. алерты есть забиксе. но алерт просто предупредит по факту что места мало, чет то там недопустить это не к нему. нужно просто посчтитать сколько место нужно и настроить логирование и кэширование. еще логротайт есть.

antech ☆
(09.11.23 18:17:50 MSK)

Ответ на: комментарий от wandrien 09.11.23 17:57:20 MSK

да вы туда еще нейросеть натренируйте )

antech ☆
(09.11.23 18:18:50 MSK)

Ответ на: комментарий от antech 09.11.23 18:18:50 MSK

Не поверишь, но именно об этом я и подумал, когда писал.

С такими нечёткими заданиями как раз отлично справилась бы сеть.

Еще лет 10 развития IT, и возможно этос станет действительно настолько дешево, что приставить к такому заданию ИИ-помощника станет быстрее, чем велосипедить скрипт.

wandrien ★★
(09.11.23 18:21:58 MSK)

Ответ на: комментарий от wandrien 09.11.23 18:21:58 MSK

читаю и удивляюсь, этож надо детектить аномальную активность по изменению темпа прироста лога. А сам лог никак нельзя анализировать на наличие аномальной активности и внесением в бан например?

antech ☆
(09.11.23 18:23:39 MSK)

Нейросеть подключай, ну. На входе текущее время и рост, на выходе рост в следующем интервале. Пускай гадает

DumLemming ★★
(09.11.23 18:28:19 MSK)

хрустальный шар, говорят, здорово помогает.

ну или гадание на внутренностях жертвенных животных.

но если нужно непременно с налетом технологичности, как сейчас модно, тогда берем минимальный статистически значимый интервал времени(такой, при котором обязательно случается статистически значимое увеличение объема данных), минуту например. далее 5 минут, пол-часа и искомые два часа. таким образом получаем целых 4 оракула, предрекающих нам будущее. на основе актуальных данных высчитываем когда наступит час Ч, для всех указанных интервалов.

оракул номер один, минутный - самый нервный. оракул номер четыре - непробиваемый, как бригадный генерал на пенсии.

всех оракулов можно усреднить и таким образом получить оракула номер пять. который в отсутствии значимых аномалий должен неплохо справляться со своей задачей.

а если справляться не будет, то руководство может отсечь петуху голову каменным ножом в полнолуние, в полночь, на кладбище. должно помочь открыть чакры, третий глаз и что там еще и составить расписание инцидентов связанных с переполнением диска. на основе которых оповещения делаются элементарно.

удачи.

olelookoe ★★★
(09.11.23 18:41:14 MSK)

Ответ на: комментарий от olelookoe 09.11.23 18:41:14 MSK

та это дурость, при ддосе лично я видел рост по 10г лога в сек. все эти интервалы это несерьезно. до первого инцидента где лог мгновенно заполонит собой все. нужен правильно скофигурированый лог. от этого и все проблемы.

antech ☆
(10.11.23 00:52:26 MSK)

необходимо настроить оповещение, будущее предупреждать нас за ~2 часа до достижения пороговых значений
Правил роста директории мне не рассказали.

«Хачу харчо». Ну удачи им, надеюсь вы им сказали что вашу бабушку звали не Ванга?

anc ★★★★★
(10.11.23 03:05:54 MSK)

Ответ на: комментарий от antech 10.11.23 00:52:26 MSK

10г лога в сек

Далеко не все хранят логи на RAID0 из NVME.

mky ★★★★★
(10.11.23 05:14:24 MSK)

А что-то типа zabbix попробовать не хотите ли?

user13
(10.11.23 07:23:37 MSK)

Задача решается элементарно. Максимальная скорость записи диска умножаем на 2 часа. Если места меньше – сигнализация админу. А по факту задача поставлена не корректно, отказаться выполнять.

azsx
(10.11.23 07:54:31 MSK)

необходимо настроить оповещение, будущее предупреждать нас за ~2 часа до достижения пороговых значений

Глупость какая-то. Просто предупреждать при пересечении порогового значения, которое поставить около 80%.

за ~2 часа до достижения пороговых значений (до окончания свободного на диске места)

Это за два часа до 100%? Типа админы дежурят круглосуточно, без выходных, как пожарники, только вместо системы мониторинга велосипедный скрипт)

goingUp ★★★★★
(10.11.23 08:13:36 MSK)

переполнение диска невозможно физически, только до 100%

итого скажи что задачу выполнил - не допустил

x905 ★★★★★
(10.11.23 08:29:29 MSK)

Ответ на: комментарий от wandrien 09.11.23 18:21:58 MSK

Общался с какой-то ненормальной, которая утверждала, что программисты - это макаки, их всех выкинут и ИИ заменят.

LongLiveUbuntu ★★★★★
(10.11.23 09:12:37 MSK)

Делай замеры с частотой 5 минут, делай прогноз по последним 2-3 замерам предполагая что рост будет линейным. Будет не хуже чем прогрессбар установщика у винды.

slowpony ★★★★★
(10.11.23 10:53:01 MSK)

Ответ на: комментарий от goingUp 10.11.23 08:13:36 MSK

дада, сначало ты ставишь алерт на 70 он всех задалбывает, тебе говорят поменяй на 80, он снова всех задалбливает, говорят меняй на 90 )))))))) а потом КАК ЭТО место кончилось? а почему нас не предупредили

antech ☆
(10.11.23 11:31:08 MSK)

Ответ на: комментарий от LongLiveUbuntu 10.11.23 09:12:37 MSK

что люди - подвид макаки, их всех выкинут и ИИ заменят.

fixed

goingUp ★★★★★
(10.11.23 12:31:11 MSK)

Ответ на: комментарий от goingUp 10.11.23 12:31:11 MSK

~~Ученые~~ Обезьяны изнасиловали журналиста ~~орудием труда~~

wandrien ★★
(10.11.23 12:36:37 MSK)

Вообще странное задание «сообщать за 2 часа до достижения 100% объема диска».

1. Директорию в которую пишутся логи лучше сделай как точку монтирования для псевдодиска.
2. Задать «мягкую» квоту на использование места на псевдодиске, при ее превышении отправляется уведомление по почте, а после периода отсрочки, который по умолчанию составляет 7 дней, мягкая квота становится жесткой.
3. Все это потестить, запросить премию.

splinter ★★★★★
(10.11.23 12:57:33 MSK)
Последнее исправление: splinter 10.11.23 12:58:36 MSK (всего исправлений: 1)

предупреждать нас за ~2 часа до достижения пороговых значений

А что будет если предупредишь за час? За 5 минут?

ya-betmen ★★★★★
(10.11.23 14:59:25 MSK)

Ответ на: комментарий от wandrien 09.11.23 17:57:20 MSK

Также возможно стоит настроить проверку, что если резко (за несколько минут) залито данных свыше некоторого порога, то слать уведомление чтобы админ проверил причину аномальной активности.

Это все легко делается на каком-нибудь check_mk безо всяких нейросетей

pekmop1024 ★★★★★
(10.11.23 15:12:53 MSK)

Ответ на: комментарий от user13 10.11.23 07:23:37 MSK

А заббикс то что даст? Он как-то хитро прогнозирует рост логов/кеша?

mky ★★★★★
(10.11.23 17:04:11 MSK)

Ответ на: комментарий от mky 10.11.23 17:04:11 MSK

Ну вообще он же формулирует, подавать сигнал если пройден определенный порог, ну сделать 2 алерта на 70% и на 90%

в общем для такого уже давно есть инструменты

user13
(10.11.23 17:05:50 MSK)

Ответ на: комментарий от user13 10.11.23 17:05:50 MSK

ИМХО, если бы от ТС просили присылать уведомление при 70% или другом проценте заполнения ФС, он бы это сделал, без темы на ЛОР.

А от ТС просят непойми что — как-то определить скорость роста логов/кеша и дать прогноз. Причём, наверное, у них уже не раз логи забивали всё, раз такая задача стоит. Но данных по объёмам/скорости роста с прошлых моментов нет. Или ТС не внимательно слушал ТЗ.

mky ★★★★★
(10.11.23 17:15:05 MSK)

Ответ на: комментарий от mky 10.11.23 17:15:05 MSK

Пусть напилит на основе заббикса кастомную метрику

user13
(10.11.23 17:16:47 MSK)

Ответ на: комментарий от mky 10.11.23 17:15:05 MSK

павла глобу на аутсорс, он предскажет

antech ☆
(10.11.23 17:32:01 MSK)

А какие действия должны будут приняты в течени 2 часов после аллерта? Может правильно было бы установить порог, к примеру 80% и автоматизировать дальнейшие предпринимаемые действия?

julixs ★★★
(10.11.23 17:50:49 MSK)

Известно лишь, что это директории под кэш и лог Nginx.

Нужно смотреть в сторону жёстких ограничений выделенного места под кеш и под логи, отдельно.

i-rinat ★★★★★
(10.11.23 18:04:48 MSK)

Ответ на: комментарий от ya-betmen 10.11.23 14:59:25 MSK

Тут вопрос стоит интереснее - что будет, если ПО предупреждение выдаст, а диск заполнится через 2 часа и 15 минут...

Притянут за растрату и разбазаривания имущества?

shTigrits ★★
(10.11.23 18:12:45 MSK)

Правильный ответ тут такой:

а) уведомление по пороговому значению и не трахать мозг.

б) хранить и анализировать логи на специально отведённом для того сервере (Opensearch подойдёт).

ugoday ★★★★★
(10.11.23 18:14:08 MSK)

Мысли в слюх

Найти и воспользоваться готовой хренью из коробки (системы/репозитория) фиг знает какой, лимиты там, фичи ФС и прочее.

Узнать максимальную скорость записи на диск (можно произвести программный тест во время запуска программы следилки)
На основе этого вычислить за какое время при текущем объёме диска он будет забит и исходя из этого времени сделать ALARM! смело положив болт на требование в неадекватные 2 часа.
Итого
- не смотреть на директории смотреть на объём пространства в ФС в целом
- не смотреть на 2 часа, а
  - вычислить скорость записи
  - вычислить текущий объём
  - посчитать забьётся ли при диск при максимальной записи быстрее чем за два часа
  - и если да послать АХТУНГ и ВНИМАНИЕ сразу же
  - пока не стало уже поздно.

Так ты как мне кажется гарантируешь что даже если в диск будут писать неистово с момента уведомления будут гарантированные пару часов дабы придти и разрулить ситуацию.

Но есть нюанс. Кто-то может внезапно создать несколько огромных, но пустых файлов и всё сломается (наверное) =))))))))))))
Типа man truncate но надо проверить оно прям резервирует место у фс или куда.

LINUX-ORG-RU ★★★★★
(10.11.23 18:15:52 MSK)
Последнее исправление: LINUX-ORG-RU 10.11.23 18:21:06 MSK (всего исправлений: 3)

Ответ на: комментарий от shTigrits 10.11.23 18:12:45 MSK

В этом случае я думаю проблемы не будет, за 2 часа админ успеет слить/удалить с сервака порнуху и все будут счастливы.

ya-betmen ★★★★★
(10.11.23 18:21:11 MSK)

Для директории выделить отдельный volume, чтобы занимаемое место узнавать дешёвым df, а не du
Поставить кубернетес (опционально)
Поставить node_exporter, prometheus, alertmanager, grafana
node_exorter будет сливать инфу в прометея, от него будут работать alertmanager, grafana
Написать promql-ки, там всё есть.

Делов на полгода максимум.

vbr ★★★
(10.11.23 18:24:45 MSK)

Снова привет. Для всех дебатирующих выше отвечу - я часть компании, которая сапортит различные веб-проекты (магазины, например).

Задачу принес такой, какой ее сформулировал клиент.

Ввиду того, что задача выполняется в сторонней инфраструктуре, где желательно не наворачивать ничего лишнего она на старте пытается быть выполненной имеющимися средствами - и в 90% случаев - это командная строка\скрипт.

В 90% случаев проще предпринять какие-то действия и:

все сделать красиво, хорошо и прелестно - в точности, как сформулировано в задаче - и все счастливы
все сделать так, как получится (но при этом действительно стараясь выполнять все грамотно) и практически доказать клиенту, что задача поставлена некорректно, и ее выполнение требует переформулировки либо смены подхода

Сейчас я пытаюсь сделать все

красиво, хорошо и прелестно - в точности, как сформулировано в задаче

чтобы

все <были> счастливы

alekseipa5
(10.11.23 20:36:21 MSK) автор топика

Ответ на: комментарий от alekseipa5 10.11.23 20:36:21 MSK

Всем спасибо за поданные идеи, буду стараться поочередно исполнять соответственно разные подходы.

alekseipa5
(10.11.23 20:37:48 MSK) автор топика

Вот зачем изобретать велосипед со скриптами? Ну поставь ты prometheus или zabbix, будешь мониторить все, что душа пожелает.

voltmod ★★
(12.11.23 08:42:49 MSK)

Ответ на: комментарий от voltmod 12.11.23 08:42:49 MSK

и в 90% случаев - это командная строка\скрипт

alekseipa5
(12.11.23 21:32:58 MSK) автор топика

Ответ на: комментарий от alekseipa5 12.11.23 21:32:58 MSK

Сегодня это место, завтра это память, после завтра нагрузка на диск. Будешь под каждую проблему скрипт писать? Ну удачи.

voltmod ★★
(13.11.23 09:44:35 MSK)

Что сделал сейчас: запустил скрипт, логирующий динамику роста директории, которую планирую впоследствии использовать для прогноза критического объема диска.

Есть такая штука: collectd. Там, кажется, оповещения тоже есть.

AS ★★★★★
(13.11.23 09:49:51 MSK)

Ответ на: комментарий от azsx 10.11.23 07:54:31 MSK

Так. А такой вопрос - если ВМ, с которой я работаю - контейнер по сути - как мне понять, на каком из 2-х nvme физического сервера этот контейнер работает?

alekseipa5
(14.11.23 10:48:17 MSK) автор топика

Ответ на: комментарий от i-rinat 10.11.23 18:04:48 MSK

quota?

mumpster ★★★★★
(14.11.23 20:23:36 MSK)

Ответ на: комментарий от alekseipa5 14.11.23 10:48:17 MSK

как мне понять, на каком из 2-х nvme физического сервера этот контейнер работает?

На том где лежат его файлики. Ваш КО.

anc ★★★★★
(15.11.23 09:15:30 MSK)

Похожие темы