LINUX.ORG.RU

Жестокий RAID10

 , ,


0

3

Господа!
Я в отчаянии. x_x

Что имеем:

  • Debian 6.0.3 (2.6.32-5-686)
  • Аппаратный RAID10 Adaptec 6405E
  • 4 HDD 300 Gb SATA-II 300 Western Digital VelociRaptor 10000rpm
  • Один логический диск, разбитый по разделам ext4

Всё было установлено прекрасно и работало месяца 3 на выделенном продакшн-серваке. Все были счастливы.
На днях появились проблемы:

1. Катастрофическая скорость записи в mysql. Простые запросы на вставку даже в новые простые таблицы от 0.25 до 0.7 и выше. Рядом на соседнем близнице 0.00 - 0.01. База та же. Таблицы те же.

2. Что-то страшное с логическим диском:

hdparm -t /dev/sda 
выдаёт стабильно:
/dev/sda:
 Timing buffered disk reads:   8 MB in  4.58 seconds =   1.75 MB/sec

3. Мониторинг контроллера рапортует, что у него всё лучше всех! Причём любой запрос к нему через корявого фирменного менеджера идёт с ужасающими задержками в минуту и выше. Но общение с ним, вроде идёт.

# lspci -v
02:00.0 RAID bus controller: Adaptec Device 028b (rev 01)
	Subsystem: Adaptec Device 0200
	Flags: bus master, fast devsel, latency 0, IRQ 16
	Memory at fb000000 (64-bit, non-prefetchable) [size=4M]
	Memory at fb7ff000 (64-bit, non-prefetchable) [size=2K]
	Memory at fb7fe000 (32-bit, non-prefetchable) [size=256]
	[virtual] Expansion ROM at dc400000 [disabled] [size=256K]
	Capabilities: [40] Power Management version 3
	Capabilities: [50] MSI: Enable- Count=1/1 Maskable- 64bit+
	Capabilities: [70] Express Endpoint, MSI 00
	Capabilities: [ac] MSI-X: Enable- Count=16 Masked-
	Capabilities: [100] Advanced Error Reporting
	Kernel driver in use: aacraid
И даже:
# modprobe -l | grep aac
kernel/drivers/scsi/aacraid/aacraid.ko

Спрашиваем контроллер:

arcconf GETCONFIG 1
Ждём и получаем, что у него всё гуд, он даже не деградирован, температура в норме, никаких тасков не делает.
Controllers found: 1
----------------------------------------------------------------------
Controller information
----------------------------------------------------------------------
   Controller Status                        : Optimal
   Channel description                      : SAS/SATA
   Controller Model                         : Adaptec 6405E
   Controller Serial Number                 : 2A0611E6D47
   Physical Slot                            : 5
   Temperature                              : 36 C/ 96 F (Normal)
   Installed memory                         : 128 MB
   Copyback                                 : Disabled
   Background consistency check             : Disabled
   Automatic Failover                       : Enabled
   Global task priority                     : High
   Performance Mode                         : Default/Dynamic
   Stayawake period                         : Disabled
   Spinup limit internal drives             : 0
   Spinup limit external drives             : 0
   Defunct disk drive count                 : 0
   Logical devices/Failed/Degraded          : 1/0/0
   NCQ status                               : Enabled
   Statistics data collection mode          : Enabled
   --------------------------------------------------------
   Controller Version Information
   --------------------------------------------------------
   BIOS                                     : 5.2-0 (18668)
   Firmware                                 : 5.2-0 (18668)
   Driver                                   : 1.1-7 (28000)
   Boot Flash                               : 5.2-0 (18668)

----------------------------------------------------------------------
Logical device information
----------------------------------------------------------------------
Logical device number 0
   Logical device name                      : matrix
   RAID level                               : 10
   Status of logical device                 : Optimal
   Size                                     : 571382 MB
   Stripe-unit size                         : 256 KB
   Read-cache mode                          : Enabled
   Write-cache mode                         : Disabled (write-through)
   Write-cache setting                      : Disabled (write-through)
   Partitioned                              : Yes
   Protected by Hot-Spare                   : No
   Bootable                                 : Yes
   Failed stripes                           : No
   Power settings                           : Disabled
   --------------------------------------------------------
   Logical device segment information
   --------------------------------------------------------
   Group 0, Segment 0                       : Present (Controller:1,Connector:0,Device:0)      WD-WXG1E21X1444
   Group 0, Segment 1                       : Present (Controller:1,Connector:0,Device:1)      WD-WXG1E21X0439
   Group 1, Segment 0                       : Present (Controller:1,Connector:0,Device:2)      WD-WXE1E11SSL26
   Group 1, Segment 1                       : Present (Controller:1,Connector:0,Device:3)      WD-WXG1E2159548


----------------------------------------------------------------------
Physical Device information
----------------------------------------------------------------------
      Device #0
         Device is a Hard drive
         State                              : Online
         Supported                          : Yes
         Transfer Speed                     : SATA 3.0 Gb/s
         Reported Channel,Device(T:L)       : 0,0(0:0)
         Reported Location                  : Connector 0, Device 0
         Vendor                             : WDC
         Model                              : WD3000HLFS-01MZU
         Firmware                           : 04.05G04
         Serial number                      : WD-WXG1E21X1444
         Size                               : 286168 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
         S.M.A.R.T. warnings                : 0
         Power State                        : Full rpm
         Supported Power States             : Full rpm,Powered off,Reduced rpm
         NCQ status                         : Enabled
      Device #1
         Device is a Hard drive
         State                              : Online
         Supported                          : Yes
         Transfer Speed                     : SATA 3.0 Gb/s
         Reported Channel,Device(T:L)       : 0,1(1:0)
         Reported Location                  : Connector 0, Device 1
         Vendor                             : WDC
         Model                              : WD3000HLFS-01MZU
         Firmware                           : 04.05G04
         Serial number                      : WD-WXG1E21X0439
         Size                               : 286168 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
         S.M.A.R.T. warnings                : 0
         Power State                        : Full rpm
         Supported Power States             : Full rpm,Powered off,Reduced rpm
         NCQ status                         : Enabled
      Device #2
         Device is a Hard drive
         State                              : Online
         Supported                          : Yes
         Transfer Speed                     : SATA 3.0 Gb/s
         Reported Channel,Device(T:L)       : 0,2(2:0)
         Reported Location                  : Connector 0, Device 2
         Vendor                             : WDC
         Model                              : WD3000HLFS-01MZU
         Firmware                           : 04.05G04
         Serial number                      : WD-WXE1E11SSL26
         Size                               : 286168 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
         S.M.A.R.T. warnings                : 0
         Power State                        : Full rpm
         Supported Power States             : Full rpm,Powered off,Reduced rpm
         NCQ status                         : Enabled
      Device #3
         Device is a Hard drive
         State                              : Online
         Supported                          : Yes
         Transfer Speed                     : SATA 3.0 Gb/s
         Reported Channel,Device(T:L)       : 0,3(3:0)
         Reported Location                  : Connector 0, Device 3
         Vendor                             : WDC
         Model                              : WD3000HLFS-01MZU
         Firmware                           : 04.05G04
         Serial number                      : WD-WXG1E2159548
         Size                               : 286168 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
         S.M.A.R.T. warnings                : 0
         Power State                        : Full rpm
         Supported Power States             : Full rpm,Powered off,Reduced rpm
         NCQ status                         : Enabled


Command completed successfully.

Что интересно:

dd if=/dev/zero of=test.dump
2900338+0 records in
2900338+0 records out
1484973056 bytes (1.5 GB) copied, 35.1875 s, 42.2 MB/s

Прошу, направьте куда смотреть! Скорость работы машины катастрофически мала. Это видно даже по обычным операциям с файлами, не говоря уже о mysql.

Хотел бы заметить, что достаточное время после установки - такого не наблюдалось.

Огромное Спасибо!



Последнее исправление: milkynex (всего исправлений: 1)

А есть возможность напрямую посмотреть S.M.A.R.T. дисков массива?

Что интересно:

dd if=/dev/zero of=test.dump
2900338+0 records in
2900338+0 records out
1484973056 bytes (1.5 GB) copied, 35.1875 s, 42.2 MB/s

Возможно оно просто в кеш попало.

Ну и да, аппаратный RAID такой аппаратный, такой Ънтерпрайзный и такой надёжный 8).

Deleted
()
Ответ на: комментарий от Deleted

Ну и да, аппаратный RAID такой аппаратный, такой Ънтерпрайзный и такой надёжный 8).

Полностью на все 100500 согласен с Вами. Но... Заставили :)

milkynex
() автор топика
Ответ на: комментарий от Deleted

А есть возможность напрямую посмотреть S.M.A.R.T. дисков массива?

Попробую. Но вв данном случае я так понимаю только через адаптековскую утилитку.

milkynex
() автор топика
Ответ на: комментарий от milkynex

Ещё, кстати, можно попробовать обновить прошивку контроллера, если есть более свежая. Но осторожно и после бэкапов...

Deleted
()
Ответ на: комментарий от Deleted

Ещё, кстати, можно попробовать обновить прошивку контроллера

Думал об этом. Но ведь странно. Работало жеж! Ещё есть подозрения на ext4

milkynex
() автор топика
Ответ на: комментарий от milkynex

На дружественном jabber-канале ещё рекомендуют в техподдержку производителя контроллера обратиться.

Deleted
()

Если место позволяет, я бы вначале уменьшил размер текущего раздела с ext4. На освободившемся месте создать новый раздел с ext4 (и по возможности с другими fs, для проверки). Потом в новом разделе создать микробазу с mysql и проверить скорость работы. Потом скопировать туда основную базу и проверить скорость работы.

justAmoment ★★★★★
()
Ответ на: комментарий от justAmoment

я бы вначале уменьшил размер текущего раздела с ext

Да. Походу нужно с начала разобраться в чём же затык - ФС или контроллер.

milkynex
() автор топика
Ответ на: комментарий от milkynex

эм... страшно делать ресайз на работающем разделе. как можно безопаснее всего уменьшить, например, безобидный раздел /tmp не перегружая сервер?

milkynex
() автор топика
Ответ на: комментарий от milkynex

эм... страшно делать ресайз на работающем разделе. как можно безопаснее всего уменьшить, например, безобидный раздел /tmp не перегружая сервер?

На работающем не нужно делать resize. Отмонтировать /tmp и в gparted сделать resize безо всяких перегрузок.

P.S. На примонтированном и работающем разделе можно, например, в btrfs resize делать — это заявлено в фичах btrfs.

justAmoment ★★★★★
()

Я бы попробовал включить WB-cache на логическом разделе. Сейчас он у тебя выключен, видимо потому что нет батарейки на контроллере. Если это не поможет - писать в саппорт. Ничем другим не занимайся, время потеряешь. Проблема явно не в ФС.

Chumka ★★★
()
Ответ на: комментарий от Chumka

Я бы попробовал включить WB-cache

Спасибо! Попробую. Самое что интересное - после презагрузки - всё ок! Очень странное поведение...

milkynex
() автор топика
Ответ на: комментарий от unanimous

Без батарейки это может быть отложенным суицидом.

Так выбора у меня немного :) Сегодня перегрузили сервер - всё снова гуд! Всё летает.

hdparm -t /dev/sda
Timing buffered disk reads: 1060 MB in  3.00 seconds = 353.00 MB/sec
И обмен информацией с контроллером мнгновенный!! Доли секунд! До этого приходилось по минуте ждать. Что-то не так с этим adaptec было. А может ещё и вернётся :(

milkynex
() автор топика
Ответ на: комментарий от milkynex

Прошейте BIOS, он старый у вас: http://www.adaptec.com/en-us/speed/raid/asr/fw_bios/6405e_fw_b19076_exe.htm

К сожалению, Adaptec не пишет, что исправил, но за время своего общения с прошивками контроллеров я понял, что его надо шить сразу, как покупаешь. Иначе - глюки. Бал, например, Adaptec, который зависал под ESXi, был и Intel, на коровый на ставился оффтопик. Все вылечилось прошивкой

anonymous
()
Ответ на: комментарий от anonymous

Прошейте BIOS

Спасибо, буду шить. Хотя мистика, конечно...

milkynex
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.