Форум — Admin

B9DRT + WD Velociraptor + mdadm raid0 - тупит один из дисков

Приветствую.

Имеется несколько систем (Ubuntu 14.04, 4.4.0-24...34) на Supermicro B9DRT, в каждом стоят по 2 Velociraptor-а WDC WD1000CHTZ-04JCPV1, прошивка 04.06A01 (во избежание дальнейших вопросов - версии дисков, плат и прошивок одинаковы для проблемных и непроблемных систем). На дисках поднят mdadm raid (половина в зеркале, половина в raid0):

md1 : active raid0 sda4[0] sdb4[1]
      1171295232 blocks super 1.2 512k chunks
      
md0 : active raid1 sdb2[1] sda2[0]
      380728128 blocks super 1.2 [2/2] [UU]

На некоторых поверх raid0 собран lvm, сути проблемы не меняет. Везде хостятся виртуалки kvm в raw файлах. Периодически на части таких систем один из дисков в массиве начинает откровенно тупить:

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0.00     6.00    0.00   77.00     0.00   389.00    10.10     0.00    0.05    0.00    0.05   0.05   0.40
sdb               0.00     4.00    0.00   25.00     0.00    93.00     7.44    69.84  945.28    0.00  945.28  40.00 100.00
md0               0.00     0.00    0.00  154.00     0.00   741.00     9.62     0.00    0.00    0.00    0.00   0.00   0.00
dm-0              0.00     0.00    0.00  154.00     0.00   741.00     9.62    76.94  153.45    0.00  153.45   6.49 100.00

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0.00     9.00    0.00   19.00     0.00   292.50    30.79     0.03    1.68    0.00    1.68   0.84   1.60
sdb               0.00     2.00    0.00   26.00     0.00   372.00    28.62    93.66 1784.62    0.00 1784.62  38.46 100.00
md0               0.00     0.00    0.00   25.00     0.00   500.00    40.00     0.00    0.00    0.00    0.00   0.00   0.00
dm-0              0.00     0.00    0.00   25.00     0.00   500.00    40.00   102.56 2247.52    0.00 2247.52  40.00 100.00

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0.00     0.00    0.00   26.00     0.00   172.00    13.23     0.00    0.15    0.00    0.15   0.15   0.40
sdb               0.00     2.00    0.00   24.00     0.00   124.00    10.33    79.36 2107.83    0.00 2107.83  41.67 100.00
md0               0.00     0.00    0.00   50.00     0.00   400.00    16.00     0.00    0.00    0.00    0.00   0.00   0.00
dm-0              0.00     0.00    0.00   50.00     0.00   400.00    16.00    84.44 1115.60    0.00 1115.60  20.00 100.00

Потом через некоторое время очухивается и нагрузка на оба диска распределяется равномерно. По графикам выглядит примерно так: https://cloud.mail.ru/public/EEJY/Wzy8nSzMX

Во время тупления hdparm выглядит так (чуть лучше-хуже, но разница на порядки):

/dev/sda:
Timing cached reads:   18394 MB in  2.00 seconds = 9206.27 MB/sec
Timing buffered disk reads: 566 MB in  3.00 seconds = 188.56 MB/sec
/dev/sdb:
Timing cached reads:   15470 MB in  2.00 seconds = 7741.09 MB/sec
Timing buffered disk reads:   2 MB in  3.77 seconds = 543.36 kB/sec

После выравнивается. Пробовал отключать AHCI, ALPM, выключал ncq, бестолку. Также пробовал менять диски местами: все равно там, где тупил sdb, продолжает тупить sdb. Поставил на место Velociraptor-ов Constellarion.2, собрал такую же конфигурацию массивов - проблема ушла (подтверждено на 2х системах), несколько дней графики на дисках идут синхронно. В интернете нашел только одно упоминание о подобном поведении, но давнее и без ответов.

Что это может быть и в какую сторону копать? Честно говоря, у меня идеи закончились. Грешил на совместимость дисков и контроллера, но есть система, на которой абсолютно такая же конфигурация работает абсолютно без проблем уже несколько месяцев. Также есть системы, в которых не собран raid, а диски используются по-отдельности - там тоже проблем не обнаружено...

Заранее спасибо

lspci
(19.09.16 15:41:07 MSK)

9 комментариев

Сообщения lspci