Всем привет.
Хотелось бы услышать мнение широкой аудитории по поводу портянок которые высыпаются в лог у приложений k8s.
При этом приложение не упало, и продолжило работать когда сбой приведший к появлению этой портянки был устранён.
Стоит ли возиться и побеждать всё это?
Что решает вывод стандартных сообщений вместо рандомных портянок с адресами памяти и прочим случайным контентом:
- можно автоматически обработать лог и прислать алерт с явно обозначенной проблемой
- разгружает всевозможную инфраструктуру сбора/хранения логов
Минусы:
- разработчику не понятно, ведь всё работает
- бывает трудно воспроизвести
- если подобного уже накопилось много, будет много работы
Поскольку разговор предлагаю вести в самом широком смысле, каждый понимает постановку вопроса исходя из своего опыта, желательно правда приводить кейсы.
Ну вот у меня такой кейс:
- Приложение (RPS = ~1000) не достучалось в клик, и высыпало 14К строк в лог. Сработали алерты, но пока открывалось окно с детализацией (например OpenSearch) проблема «рассосалась». В течении дня это происходит, скажем, до 10 раз.