LINUX.ORG.RU
ФорумAdmin

Какой «нормальное» время доступа (await) и скорость к диску должна быть

 ,


0

1

Заметил, что zabbix начал (не было раньше) сыпать алерты о времени превышении доступа к диску (Linux: sda: Disk read/write request responses are too high (read > 20 ms for 15m or write > 20 ms for 15m))

Посмотрел графики (Сутки):

Server 1: Last 62ms min 0.4ms agv 60ms max 1163ms

Для сравнения посмотрел на другом сервере, там цифры на порядок меньше:

Server 2: Last 0ms min 0ms agv 0.4ms max 18ms

Server 1
hdparm -tT /dev/sda
 Timing cached reads:   34864 MB in  1.98 seconds = 17587.21 MB/sec
 Timing buffered disk reads: 766 MB in  3.00 seconds = 255.21 MB/sec

hdparm -tT /dev/md42
 Timing cached reads:   35312 MB in  1.98 seconds = 17830.18 MB/sec
 Timing buffered disk reads: 1316 MB in  3.01 seconds = 437.52 MB/sec


Server 2
hdparm -tT /dev/nvme0n1
 Timing cached reads:   32202 MB in  2.00 seconds = 16125.95 MB/sec
 Timing buffered disk reads: 6176 MB in  3.00 seconds = 2058.31 MB/sec


Сервера особо ничем не загружены, iotop показывает (top) что один процесс пишет 5M/s ну systemd-journald c nginx там ещё меньше

Какие вообще приемлемые показатели должны у await и скорость диска нормального? Понятно, что nvme шустрее на порядок, но все же, если сервер не гоняет огромные цифры.

Ну и в целом CPU IOWAIT avg 3%(c пиками до 23%, из общей загрузки проца 44%). Что смотреть нужно ещё?

Стоит ли поднимать планку чтобы до 40ms или искать причину в диске?

ATA device, with non-removable media
        Model Number:       Patriot Burst
        Serial Number:      C8B307980E0300711763
        Firmware Revision:  SBFM61.3
        Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0

nvme list
/dev/nvme0n1 Samsung SSD 970 EVO Plus 500GB 500.11

★★★★

Последнее исправление: gobot (всего исправлений: 3)

В коде могут быть «сбросы по таймауту», приводящие к закикливанию, которые в итоге поставят систему. Например андройд закрывает приложение принудительно если оно не отвечает, а потом оно опять открывается и опять закрывается, мне такое не нравится, но такой код встречается часто, поэтому у нормальных пацанов есть варнинги имхо.

fucpsy
()
Ответ на: комментарий от fucpsy

Кто ОНИ? Чего ждут? zabbix тест делает по доступу к диску и ответ получается вот эти цифры: 60ms (означает что в течении 15 минут 60ms это был минимальное время. Тест делается раз в минуту, поэтому, то есть 15 проверок и все они дали результат больше 60ms)

Много это или мало, но в zabbix эта цифра по дефолту идет и раньше не было алертов. С чем сравнить кроме своего второго сервера я не знаю, но там другой диск совсем, намного быстрее

gobot ★★★★
() автор топика
Ответ на: комментарий от gobot

«kick-еры в loop-е» переустановят тебе систему за долгие ответы твоих ненагруженных серверов, а потом повторят, я так понял :)

loglogav
()
Последнее исправление: loglogav (всего исправлений: 2)

hdparm -tT /dev/sda

cached reads

buffered disk reads

Тебя ждет ещё много, много удивительных открытий.

  1. скорость кэша и буфера не имеет ничего общего со скоростью диска

  2. у дисков есть 2 жестких лимита: скорость поточного (bulk) чтения и количество операций в секунду (iops)

Понятно, что nvme шустрее на порядок, но все же,

На три-четыре

router ★★★★★
()