Заметил, что zabbix начал (не было раньше) сыпать алерты о времени превышении доступа к диску (Linux: sda: Disk read/write request responses are too high (read > 20 ms for 15m or write > 20 ms for 15m))
Посмотрел графики (Сутки):
Server 1: Last 62ms min 0.4ms agv 60ms max 1163ms
Для сравнения посмотрел на другом сервере, там цифры на порядок меньше:
Server 2: Last 0ms min 0ms agv 0.4ms max 18ms
Server 1
hdparm -tT /dev/sda
Timing cached reads: 34864 MB in 1.98 seconds = 17587.21 MB/sec
Timing buffered disk reads: 766 MB in 3.00 seconds = 255.21 MB/sec
hdparm -tT /dev/md42
Timing cached reads: 35312 MB in 1.98 seconds = 17830.18 MB/sec
Timing buffered disk reads: 1316 MB in 3.01 seconds = 437.52 MB/sec
Server 2
hdparm -tT /dev/nvme0n1
Timing cached reads: 32202 MB in 2.00 seconds = 16125.95 MB/sec
Timing buffered disk reads: 6176 MB in 3.00 seconds = 2058.31 MB/sec
Сервера особо ничем не загружены, iotop показывает (top) что один процесс пишет 5M/s ну systemd-journald c nginx там ещё меньше
Какие вообще приемлемые показатели должны у await и скорость диска нормального? Понятно, что nvme шустрее на порядок, но все же, если сервер не гоняет огромные цифры.
Ну и в целом CPU IOWAIT avg 3%(c пиками до 23%, из общей загрузки проца 44%). Что смотреть нужно ещё?
Стоит ли поднимать планку чтобы до 40ms или искать причину в диске?
ATA device, with non-removable media
Model Number: Patriot Burst
Serial Number: C8B307980E0300711763
Firmware Revision: SBFM61.3
Transport: Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
nvme list
/dev/nvme0n1 Samsung SSD 970 EVO Plus 500GB 500.11

