LINUX.ORG.RU
ФорумAdmin

B9DRT + WD Velociraptor + mdadm raid0 - тупит один из дисков

 


0

4

Приветствую.

Имеется несколько систем (Ubuntu 14.04, 4.4.0-24...34) на Supermicro B9DRT, в каждом стоят по 2 Velociraptor-а WDC WD1000CHTZ-04JCPV1, прошивка 04.06A01 (во избежание дальнейших вопросов - версии дисков, плат и прошивок одинаковы для проблемных и непроблемных систем). На дисках поднят mdadm raid (половина в зеркале, половина в raid0):

md1 : active raid0 sda4[0] sdb4[1]
      1171295232 blocks super 1.2 512k chunks
      
md0 : active raid1 sdb2[1] sda2[0]
      380728128 blocks super 1.2 [2/2] [UU]
На некоторых поверх raid0 собран lvm, сути проблемы не меняет. Везде хостятся виртуалки kvm в raw файлах. Периодически на части таких систем один из дисков в массиве начинает откровенно тупить:
Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0.00     6.00    0.00   77.00     0.00   389.00    10.10     0.00    0.05    0.00    0.05   0.05   0.40
sdb               0.00     4.00    0.00   25.00     0.00    93.00     7.44    69.84  945.28    0.00  945.28  40.00 100.00
md0               0.00     0.00    0.00  154.00     0.00   741.00     9.62     0.00    0.00    0.00    0.00   0.00   0.00
dm-0              0.00     0.00    0.00  154.00     0.00   741.00     9.62    76.94  153.45    0.00  153.45   6.49 100.00

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0.00     9.00    0.00   19.00     0.00   292.50    30.79     0.03    1.68    0.00    1.68   0.84   1.60
sdb               0.00     2.00    0.00   26.00     0.00   372.00    28.62    93.66 1784.62    0.00 1784.62  38.46 100.00
md0               0.00     0.00    0.00   25.00     0.00   500.00    40.00     0.00    0.00    0.00    0.00   0.00   0.00
dm-0              0.00     0.00    0.00   25.00     0.00   500.00    40.00   102.56 2247.52    0.00 2247.52  40.00 100.00

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0.00     0.00    0.00   26.00     0.00   172.00    13.23     0.00    0.15    0.00    0.15   0.15   0.40
sdb               0.00     2.00    0.00   24.00     0.00   124.00    10.33    79.36 2107.83    0.00 2107.83  41.67 100.00
md0               0.00     0.00    0.00   50.00     0.00   400.00    16.00     0.00    0.00    0.00    0.00   0.00   0.00
dm-0              0.00     0.00    0.00   50.00     0.00   400.00    16.00    84.44 1115.60    0.00 1115.60  20.00 100.00
Потом через некоторое время очухивается и нагрузка на оба диска распределяется равномерно. По графикам выглядит примерно так: https://cloud.mail.ru/public/EEJY/Wzy8nSzMX

Во время тупления hdparm выглядит так (чуть лучше-хуже, но разница на порядки):

/dev/sda:
Timing cached reads:   18394 MB in  2.00 seconds = 9206.27 MB/sec
Timing buffered disk reads: 566 MB in  3.00 seconds = 188.56 MB/sec
/dev/sdb:
Timing cached reads:   15470 MB in  2.00 seconds = 7741.09 MB/sec
Timing buffered disk reads:   2 MB in  3.77 seconds = 543.36 kB/sec
После выравнивается. Пробовал отключать AHCI, ALPM, выключал ncq, бестолку. Также пробовал менять диски местами: все равно там, где тупил sdb, продолжает тупить sdb. Поставил на место Velociraptor-ов Constellarion.2, собрал такую же конфигурацию массивов - проблема ушла (подтверждено на 2х системах), несколько дней графики на дисках идут синхронно. В интернете нашел только одно упоминание о подобном поведении, но давнее и без ответов.

Что это может быть и в какую сторону копать? Честно говоря, у меня идеи закончились. Грешил на совместимость дисков и контроллера, но есть система, на которой абсолютно такая же конфигурация работает абсолютно без проблем уже несколько месяцев. Также есть системы, в которых не собран raid, а диски используются по-отдельности - там тоже проблем не обнаружено...

Заранее спасибо



Последнее исправление: lspci (всего исправлений: 1)

а) запуск теста через S.M.A.R.T.

б) отходит кабель? в dmesg и syslog при этом характерные scsi ошибки

в) на том же scsi host может висеть что-то ещё помирающее? Если два винта висят на одном scsi host ( см. lsscsi, первая цифра ), тормоза одного винта приводят к тормозам всего scsi host и винтов, которые через него доступны )

router ★★★★★
()

Что это может быть и в какую сторону копать?

деградация поверхности блина, копать в сторону замены

батарейку на матери замени, на всякий случай

targitaj ★★★★★
()
Последнее исправление: targitaj (всего исправлений: 1)
Ответ на: комментарий от router

а) смарт чистый и весь такой хороший

б) кабеля нет, sda распаяны напрямую на плате, sdb на backplane. Думал в эту сторону, но проблема массовая, а заменя с WD на сигейты полностью решила проблему. думаю, дело не в разъемах. И при плохом контакте наверняка бы хоть на одном сервере поймал ошибки интерфейса, а их нет. До кучи похоже поймал аналогичную проблему (пока не подтверждено, коплю статистику) с тормозами sda на одном из серверов.

в) помирающего нет. там всего 2 винта на каждый сервер, местами меняю - бестолку, начинает тормозить поменяный.

lspci
() автор топика
Ответ на: комментарий от targitaj

А как объяснить то, что при смене положения начинает тупить тот диск, который до этого не тупил?

Батарейки на матерях достаточно свежие.

Ситуация примерно такая: 7 лезвий по 2 сервера = 14 серверов, из них на 7 собрана конфигурация с рейдом, на остальных вообще ни разу проблем с подобными тупняками не замечал (но там отслеживать сложнее, ибо графики загрузки дисков изначально разные). Из этих 7 с рейдом на трех адский тупеж одного из дисков, на одном пока непонятно, на оставшихся трех абсолютно такая же конфигурация работает нормально

lspci
() автор топика
Ответ на: комментарий от lspci

Вот что значит читать по диагонали... Так у тебя это массовое явление? Хорошо было бы на проблемных машиных винты на другие (совсем другие) поменять. Я слышал о проблемах из-за «несовместимостей» firmware винтов и матерей.

targitaj ★★★★★
()
Ответ на: комментарий от targitaj

Да, массовое. Причем в последнее время частота тупежа увеличивается, поэтому рассуждения о деградации дисков вполне могут быть обоснованны. Но вся проблема в том, что я пока не могу это отловить и достоверно доказать. Пытался найти хоть какое-то различие между беспроблемной и проблемной системами - ну все одинаковое - и матери, и ядра, и прошивки и разбиение дисков. Все жду, затупит или нет. Про замену на совсем другие выше написал - замена годовалых WD на 4-летние сигейты полностью вылечивает.

lspci
() автор топика
Ответ на: комментарий от lspci

Вот это тоже имеет место быть: В спеках железа должно быть указано что мы «кушаем», а что «не очень» не исключаю вероятности что ваши wd ему «не нравятся».

anc ★★★★★
()
Ответ на: комментарий от anc

Да и тут вроде не должен был накосячить. В tested hdd мой диск есть: http://www.supermicro.com/support/resources/HDD/display.cfm?Category=SS&s...

В той же табличке и сигейты ST9500620NS, с которыми все работает нормально.

Вот, налил сервер с нуля. Сначала все хорошо, ровнехонько, потом фигак - и горб у sdb, потом опять ровно. https://cloud.mail.ru/public/9Uqv/eswggPHtF

Вобщем, да, самое правильное, наверное, постепенно заменить диски и забыть о проблеме, тем более что по нынешним временам 1 ssd получается быстрее, дешевле и проще в содержании, чем пара недорапторов.

lspci
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.