LINUX.ORG.RU
ФорумAdmin

ZFSonlinux deadlock

 ,


0

1

Коллеги, я, как один из пропагандистов ZFSonlinux, считаю своим долгом поделиться с вами следующим фактом:

Сегодня один сервер виртуальных машин, которые размещёны на ZFS (zfsonlinux 0.6.3 на ubuntu 12.04) выпал в осадок со следующей ошибкой:

vm14 kernel: [1707698.827567] SPLError: 422:0:(spl-err.c:67:vcmn_err()) WARNING: Pool 'zpool14' has encountered an uncorrectable I/O failure and has been suspended.

Это сервер с аппаратным raid adaptec 3805, ASM сообщает что все диски живы-здоровы, тем более там есть hot-spare.

Не уверен до конца, что виновата ZFSonlinux, ибо есть ещё 17 серверов под ней, которые пока работают без вопросов, буду разбираться, но мой долг предупредить вас. Есть факт который меня заранее разочаровывает - упавший сервер имел самый большой I/O.

P.S. Suspend не правильный, выести из него систему невозможно, init 6 не ребутит систему, только reset кнопкой, пришлось будить техника, это жесть.

★★★★★

Последнее исправление: King_Carlo (всего исправлений: 5)

Ну так эта, полный лог ядра б поглядеть, были ли еще упоминания об ошибках ввода вывода.

blind_oracle ★★★★★
()

ну и 'zpool status -v' что говорит?

EvgGad_303 ★★★★★
()
Ответ на: комментарий от vxzvxz

http://en.wikipedia.org/wiki/ZFS#ZFS_and_hardware_RAID

Не рекомендуется смешивать ZFS RAID с аппаратным RAID. Рекомендуется перевести ваш аппаратный RAID-контроллер в режим JBOD и использовать ZFS для управления RAID. ZFS не может полностью защитить данные пользователя при использовании аппаратного контроллера RAID, поскольку она не в состоянии выполнять автоматическое самовосстановление, еcли она не контролирует избыточность дисков и данных. ZFS предпочитает прямой, эксклюзивный доступ к дискам, без лишних помех. Если пользователь настаивает на использовании аппаратного контроллера RAID, контроллер должен быть сконфигурирован в режиме JBOD (т.е. с отключенной функциональностью RAID), что позволит ZFS гарантировать целостность данных. Обратите внимание. что аппаратный контроллер RAID в режиме JBOD всё ещё способен отсоединить диски, которые не отвечают в установленное время; в данном случае может потребоваться включение поддержки TLER/CCTL/ERC для предотвращения выпадения дисков. Эти ограничения не применяются при использовании не-RAID контроллеров, которые являются предпочтительным методом поддержки ZFS дисков.

vxzvxz ★★★
()

Пропарсил логи, zfs похоже не виновата, это дисковая система:

acraid: Host adapter abort request (2,0,1,0)
Jul 9 03:19:56 vm14 kernel: [1700167.768152] aacraid: Host adapter reset request. SCSI hang ?
Jul 9 03:20:21 vm14 kernel: [1700192.832054] sd 2:0:1:0: [sdb] Medium access timeout failure. Offlining disk!
Jul 9 03:20:21 vm14 kernel: [1700192.832166] sd 2:0:1:0: Device offlined - not ready after error recovery
Jul 9 03:20:21 vm14 kernel: [1700192.832168] sd 2:0:1:0: Device offlined - not ready after error recovery
Jul 9 03:20:21 vm14 kernel: [1700192.832170] sd 2:0:1:0: Device offlined - not ready after error recovery
Jul 9 03:20:21 vm14 kernel: [1700192.832177] sd 2:0:1:0: [sdb] Unhandled error code
Jul 9 03:20:21 vm14 kernel: [1700192.832179] sd 2:0:1:0: [sdb]
Jul 9 03:20:21 vm14 kernel: [1700192.832181] Result: hostbyte=DID_TIME_OUT driverbyte=DRIVER_OK
Jul 9 03:20:21 vm14 kernel: [1700192.832183] sd 2:0:1:0: [sdb] CDB:
Jul 9 03:20:21 vm14 kernel: [1700192.832185] Write(10): 2a 00 ca 91 8c 71 00 00 2f 00
Jul 9 03:20:21 vm14 kernel: [1700192.832194] end_request: I/O error, dev sdb, sector 3398536305


Странно, что молчит ASM.

King_Carlo ★★★★★
() автор топика
Последнее исправление: King_Carlo (всего исправлений: 1)
Ответ на: комментарий от nerdogeek

посыпался твой *dd, нашальнике

Только посыпался не hdd, а массив raid10 из 8 дисков на аппаратном raid adaptec, а их фирменный ASM даже не пикнул, он и сейчас считает, что всё хорошо.

King_Carlo ★★★★★
() автор топика

отходЯ от темы, а вы какую виртулизацию используете, КVM? виртуалке отдаете zvol? как с производительностью по сранению с LVM томом?

apmucm
()
Ответ на: комментарий от apmucm

какую виртулизацию используете, КVM?

Да, KVM.

виртуалке отдаете zvol?

В основном в raw, не так давно стал использовать zvol.

как с производительностью по сранению с LVM томом?

Не сравнивал на одной железке, но проблем с I/O нет.

King_Carlo ★★★★★
() автор топика
Ответ на: комментарий от apmucm

я сравнивал zvol и raw:

при использовании zvol происходит более активное использование дисковой подсистемы в среднем на 2-5%, при этом нагрузка на связку ram+процессор падает иногда до 10%

при использовании raw наоборот, активность ввода-вывода дисковой подсистемы меньше, но растет нагрузка на проц и рама активнее используется.

vxzvxz ★★★
()

P.S. Suspend не правильный, выести из него систему невозможно, init 6 не ребутит систему, только reset кнопкой, пришлось будить техника, это жесть.

#echo b > /proc/sysrq-trigger

D4rk4
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.