LINUX.ORG.RU
решено ФорумAdmin

Деградация RAID10

 , , ,


0

1

Имеется RAID10 из 4 дисков, контроллер Adaptec ASR-5805.

За последние две недели дважды при загрузке выдавал сообщение о деградации массива, однако перезапускался и позволил вытащить актуальную информацию. Накануне дал сбой снова, думаю, что основательно. Есть несколько вопросов.

Смарт-тесты каждого диска массива показали состояние без неисправностей. Смарт-тест является показателем здоровья диска или у контроллера RAID свои показатели исправности?

Допустим все-таки проблема в одном из жестких дисков. При запуске системы контроллер одним из вариантов предлагает «Rebuilding». Что он сделает?

1. Пересоберет массив заново на старых дисках и перенесет данные в резервную область диска

2. Ничего не сделает и будет ждать диск-замену для пересборки массива

P.S. Нашел у Adapteca загружаемый образ Store Manager, который, как предполагаю, позволит провести диагностику.

Нужное направление выбрал? Подскажите, пожалуйста, куда смотреть и найти причины

Если есть HOT_SPARE то будет ребилдится

если нет 2. Ничего не сделает и будет ждать диск-замену для пересборки массива

rootmaster
()
Ответ на: комментарий от rootmaster

Спасибо. А как могло быть так, что рейд выдал сообщение о деградации и отказывался работать, однако после перезагрузки проработал 2 недели?

kukuruku11
() автор топика
Ответ на: комментарий от kukuruku11

А как могло быть так, что рейд выдал сообщение о деградации и отказывался работать, однако после перезагрузки проработал 2 недели?

Может все-таки после пересборки на старых дисках продолжил работать?

anc ★★★★★
()
Ответ на: комментарий от anc

Как так? Диск же деградирует или все-таки вариант «Пересоберет массив заново на старых дисках и перенесет данные в резервную область диска» возможен. Горячей замены нет

kukuruku11
() автор топика
Ответ на: комментарий от kukuruku11

Я поэтому и спросил, вы пересбор пнули? Если да, то тут много нюансов, точнее чуть больше чем дофига... Может пересобрали со старым диском? диски случайно не десктопные? btw и на серверных с sct тоже можно попасть на хороший смарт, но это большая редкость.

anc ★★★★★
()
Последнее исправление: anc (всего исправлений: 1)
Ответ на: комментарий от kukuruku11

и перенесет данные в резервную область диска

Вот это не распарсил, вы про бэды? Так это дело контролера самого харда, а никак не raid контролера.

anc ★★★★★
()
Ответ на: комментарий от anc

Просто ничего не делал, после перезагрузки вернулся позже к сереверу, он собрал рейд. Диски не серверные Toshiba DT01ACA100, сервер домашний.

kukuruku11
() автор топика
Ответ на: комментарий от kukuruku11

Тогда скорее всего диск/диски сыпяться. Очень характерное поведение для варианта не серверных хардов в рэйде, смарт в порядке, рэйд рассыпался, пересобрали, немного поработали, опять рассыпался. Во всяком случае я на такие грабли не раз уже попадал в разных вариантах, но всегда был виноват «слоненок» харды. Кстати опять-таки по практике полетевший контролер доставляет куда больше трэша.

anc ★★★★★
()
Ответ на: комментарий от kukuruku11

Выбрасывай ESXi, бери proxmox, ставь адекватные диски, ставь mdadm. В противном случае, убедись, что твой RAID официально поддерживается в ESXi.

Если совсем тяжко с серверными дисками, тогда можешь попробовать proxmox+mdadm+lvm+lvmcache (по надобности)+твои диски. - Жить скорее всего будет более стабильнее.

DALDON ★★★★★
()
Последнее исправление: DALDON (всего исправлений: 1)
Ответ на: комментарий от anc

Спасибо, буду надеятся, что дело не в контроллере

kukuruku11
() автор топика
Ответ на: комментарий от DALDON

Спасибо, рейд и контроллер поддерживаются в esxi. Альтернативу esxi попробую, все равно терять нечего, буду учиться.

С серверными дисками - да, напряг, для домашнего сервера, это оверхед

kukuruku11
() автор топика
Ответ на: комментарий от DALDON

Выбрасывай ESXi

Почему так однозначно про ESXi и почему связка proxmox+mdadm+lvm+lvmcache стабильнее?

можешь попробовать proxmox+mdadm+lvm+lvmcache (по надобности)+твои диски

использовать диски, которые в данный момент в рассыпавшемся рейде? или уже все - выбрасывать старые и брать новые?

kukuruku11
() автор топика
Ответ на: комментарий от kukuruku11

Спасибо, рейд и контроллер поддерживаются в esxi. Альтернативу esxi попробую, все равно терять нечего, буду учиться.

Ну, если поддерживается, тогда ещё куда не шло. Вообще, как любой Enterprise продукт, чтобы качественно работало - нужно чтобы все железо (МП, сеть и т.д) - было официально поддерживаемо.

DALDON ★★★★★
()
Ответ на: комментарий от kukuruku11

использовать диски, которые в данный момент в рассыпавшемся рейде? или уже все - выбрасывать старые и брать новые?

Разбираться с этими. Или качественно пытаться разобраться в текущей ситуации, или менять диски.

Могу тебе рассказать РЕАЛЬНЫЙ мой случай:

Есть у меня несколько серверных МП. Кажется даже Intelовских. И есть у меня Adaptec ASR-6*** - кажется. Так вот, у меня на серверных дисках раз в пару недель разваливался RAID 10. - На некоторых мат. платах ситуация исправлялась прошивкой всех возможнных компонент Мат. платы. Плюс обязатательная прошивка самого RAID - все работало как часики. На некоторых - никак не хотело. Хочешь чтобы четко работало - идешь на сайт Adaptec, ищешь список совместимых МП с твоим контроллером, делаешь как там написано. Не хочешь сей возни? - убираешь Adaptec, делаешь на Linux. Дебажишь диски в случае чего.

почему связка proxmox+mdadm+lvm+lvmcache стабильнее

Она может не сколько стабильнее, сколько Linux на common железе чуть попроще дебажить. Можешь посмотреть тут мои нытик треды по данным вопросам.

DALDON ★★★★★
()
Последнее исправление: DALDON (всего исправлений: 1)
Ответ на: комментарий от DALDON

Могу тебе рассказать РЕАЛЬНЫЙ мой случай:

Этот пример хорош для случая когда «с этого все началось», но не для случая «год» работало и только потом сломалось.

Но бывают и исключения, к сожалению само железо уже не помню только то что сервак hp а харды сигейты, но ситуация полностью похожая на вашу, причем сервак новый, харды новые, в результате все-таки оказались виноваты харды, вся партия оказалась такой, у нас их на складе много было, позже на другом железе все показали одинаковый результат.

anc ★★★★★
()
Ответ на: комментарий от anc

Этот пример хорош для случая когда «с этого все началось», но не для случая «год» работало и только потом сломалось.

Ты знаешь, я что-то намучался с этим прилично, оно тоже как-то работало сперва, а как стал сервера чаще перезагружать, так все и посыпалось. Массивы разваливались именно при загрузке. Я не говорю что мой пример, прям как икона. Просто говорю, что такое бывает. Все же ADAPTEC, серверное решение, но как-то с натяжкой.

DALDON ★★★★★
()
Ответ на: комментарий от kukuruku11

С серверными дисками - да, напряг, для домашнего сервера, это оверхед

А зачем тогда raid10 ? Только скорость?
fyi Десктопные могут полететь разом усе (если с одной партии) от плохого смарт до смерти ооочень мало времени, были случаи когда даже ошибка смарта не успевала появиться, дохли и все.
Я даже для дома забил покупать десктопные, какие-то еще остались( наверное), но блин даже чисто экономически получается выгоднее один серверный чем н-цать десктопных менять, а уж гемор... потерянные данные (лентяй я, от случая к случаю бэкаплю не особо важные, а потом внезапно что-то да нужно :) )
ЗЫ если ssd-ки то да, эт дорого... пока так же не готов, но думаю это не ваш вариант.

anc ★★★★★
()
Ответ на: комментарий от DALDON

как стал сервера чаще перезагружать, так все и посыпалось

кстати, за месяц до деградации, пару раз свет отключали, может как-то и повлияло.

kukuruku11
() автор топика
Ответ на: комментарий от anc

А зачем тогда raid10 ? Только скорость?

просто было под рукой 4 штуки, решил собрать. с прицелом на надежность и скорость

Я даже для дома забил покупать десктопные, какие-то еще остались( наверное), но блин даже чисто экономически получается выгоднее один серверный чем н-цать десктопных менять

убедили) продам десктопные возьму один серверный или ssd. какие модели советуете, чтобы дешево и сердито?

и, как понимаю, adaptec можно исключить как ненужного посредника и подключатать к материнской плате?

или же adaptec оставить на будущее расширение, а сейчас работать на одном диске? будут проблемы при добавлении идентичного диска или диска другого производителя и создании рейда?

kukuruku11
() автор топика
Ответ на: комментарий от kukuruku11

убедили) продам десктопные возьму один серверный или ssd. какие модели советуете, чтобы дешево и сердито?

комментарий к моему вопросу - объем диска от 500 Гб

kukuruku11
() автор топика
Ответ на: комментарий от kukuruku11

убедили) продам десктопные возьму один серверный

Надеюсь место бэкапа есть. Дома пользую все без рэйда, кроме NAS который в raid 1 как хранилка/бэкап.

или ssd.

Минус (как выше писал) - убер дорого.

какие модели советуете, чтобы дешево и сердито?

Дешево не бывает. А так все как обычно, на текущий момент я бы с WD начинал. HGST вроде хвалят но личной большой наработки нэма. Сигейты хают на текущий момент, но тут тоже все не так однозначно, большое кол-во отказных является и следствием большого кол-ва купленных, статистика та еще сука :)

и, как понимаю, adaptec можно исключить как ненужного посредника и подключатать к материнской плате?

Опять таки, при учете чисто домашнего использования. Решайте сами, если часто бэкап не делаете и есть вариант что в случае смерти контролера понадобиться данные доставать, и нет аналогичных например на работе, то беда.

будут проблемы при добавлении идентичного диска или диска другого производителя и создании рейда?

В теории не должно возникнуть проблем. «В теории» это потому что всегда остается небольшой но шанс на возможную проблему, т.е. 100% вероятности никогда не будет.

anc ★★★★★
()
Ответ на: комментарий от anc

Да и 3ТБ-ки не рекомендую, бедовые модели у почти всех оказались.

anc ★★★★★
()
Ответ на: комментарий от kukuruku11

1004 он и дешевле и мозгов побольше. А в сторону 2Тб не смотрели? Там цена не сильно больше, при учете обьема в два раза больше, емним перед НГ они не более 9кр стоили. Соврал дороже, вот например http://www.nix.ru/autocatalog/hdd_western_digital/HDD-2-Tb-SATA-6Gb-s-Western...

anc ★★★★★
()
Последнее исправление: anc (всего исправлений: 1)
Ответ на: комментарий от anc

Неее, 1 Тб вполне хватит на первое время. Спасибо вам за помощь

kukuruku11
() автор топика
Ответ на: комментарий от anc

Дело принимает новый оборот) хотел продиагностировать диски и контроллер загрузочный образом от адаптека и понял, что сначала грузится bios контроллера.

Для чего нужна такая последовательность загрузки и нужно ли его отключать?

kukuruku11
() автор топика
Ответ на: комментарий от kukuruku11

Честно не понял всего вопроса, чуть больше золота дайте, что куда, чем диагностировать и т.д. Если про чистую диагностику дисков, да просто на sata матери воткните и не мучайте голову

anc ★★★★★
()
Ответ на: комментарий от anc

Нашел причину! вроде)

Теперь по порядку

Честно не понял всего вопроса, чуть больше золота дайте, что куда, чем диагностировать и т.д.

У адаптека помимо встроенного в адаптер функционала есть два инструмента - ASM и MSM для управления рейдами. Второй я решил использовать, чтобы получить детальную инфу по системе и загрузился с него.

Итог - контроллер ок, рейда нет, одного из дисков контроллер не видит.

Сейчас будет интереснее. Сервак у меня стоит в таком корпусе . Три диска располагаются в корзине , а четвертый на отдельных салазках подключается к плате с 4-pin питанием .

Просмотрев серийники дисков, обратил внимание, что не определяется диск из этого нижнего отсека. Ооооок. Поменял местами с диском из корзины, и диск-замена тоже не определился. Разбираемся дальше, кто виноват, кабель или плата с 4pin, к которой подключается диск.

Подключил диск напрямую к контроллеру и он определился. Дело получается либо в плате, либо в фиксации диска на этих салазках.

Диск, который стоял внизу, показал значение aborted commands - 105, при нулевых значениях других дисков. Да, aborted commands - 1 показал «диск-замена», который использовал для теста, не знаю связано ли это.

Aborted commands, как понимаю, указывает на сбой связи между ддиском и контроллером.

Немного безысходности) рейд все равно не запустился, когда подключил диск напрямую. Это могло случится от того, что я возможно перепутал кабели подключения дисков к контроллеру? или все таки это проблемный диск сыпется?

kukuruku11
() автор топика
Ответ на: комментарий от kukuruku11

Кстати да, чего это я... про еще очевидный вариант «шлейфы» забыл, все на серваках которые не дергают зациклился. aborted commands 105 не так смертельно, но если растет то тогда стоит панику наводить.

рейд все равно не запустился, когда подключил диск напрямую. Это могло случится от того, что я возможно перепутал кабели подключения дисков к контроллеру?

Не Запустился или Не пересобрался в исходном состоянии? Если второе то конечно попутали диски, самая распространенная ошибка - ошиблись последовательностью.
ЗЫ Вы кстати так и не написали сколько времени оно до сбоя работало? И с БП все нормально?
Итого корзина/шлейфы тоже могут быть причиной развала. Так же как и глюки БП.

anc ★★★★★
()
Последнее исправление: anc (всего исправлений: 1)
Ответ на: комментарий от anc

Кстати да, чего это я... про еще очевидный вариант «шлейфы» забыл, все на серваках которые не дергают зациклился. aborted commands 105 не так смертельно, но если растет то тогда стоит панику наводить.

Да, вот эта плата-посредник подвела. Ее можно открутить, не смертельно

Не Запустился или Не пересобрался в исходном состоянии? Если второе то конечно попутали диски, самая распространенная ошибка - ошиблись последовательностью.

Ошибка аналогичная предыдущим двум. RAID0 missing, RAID1 missing (три варианта - перезагрузка, настройки контроллера, пауза для чтения ошибки).

ЗЫ Вы кстати так и не написали сколько времени оно до сбоя работало? И с БП все нормально?

От последнего сбоя до выхода из строя 8 дней, важную инфу успел вытащить. Питание zalman zm600-glx. к чему вопрос про БП? может не тянуть?

В целом я понял свою ошибку - не те диски выбрал, уже взял wd re, на выходных буду настраивать по новой, только по уму

kukuruku11
() автор топика
Ответ на: комментарий от kukuruku11

Ошибка аналогичная предыдущим двум. RAID0 missing, RAID1 missing (три варианта - перезагрузка, настройки контроллера, пауза для чтения ошибки).

Похоже на второй вариант, последовательностью ошиблись.

От последнего сбоя до выхода из строя 8 дней

Я про - до первого сбоя сколько жило?

к чему вопрос про БП? может не тянуть?

Если только начали такую конфигурацию (см. вопрос выше) или например что-то поменяли (например видяху помощнее поставили) то может и не потянуть, вобщем тут считайте сами потребляемую мощность по вашему железу.
Еще может начать «фигню» гнать по питанию «от старости». Напомнило историю 2-летней давности со стареньким hp dl380 емнип g5, напрыгались с ним тогда... родная диагностика ОК, на панели (у него на морде не хилое кол-во выведено) тоже ок, а вставал зараза причем без нагрузки с завидной периодичностью, хард ребут (т.е. чел пришел в офис с утра и по питанию ребутнул) и опять работаем. Закончилось тем что он высветил ошибку на втором модуле питания второго проца, которого там с роду не было установлено, заменили БП, до сих пор все ок.
Еще так же из личного опыта и БП в серверах hp, сервак начал просто ребутатся с завидным постоянством, при том что у него было два БП, сдохший основной гнал пургу и переключение на резервный как-то происходило через одно место, т.е. ребут. Сервак был весьма удаленный, терпели до поры до времени, после замены БП все норм работает уже лет пять наверное.

anc ★★★★★
()
Последнее исправление: anc (всего исправлений: 1)
Ответ на: комментарий от anc

Чего-то меня опять не в ту степь занесло, на сервера. Собстно БП как расходки на десктопах по практике уже гораздо больше 10 лет как.

anc ★★★★★
()
Ответ на: комментарий от anc

Я про - до первого сбоя сколько жило?

7 месяцев

Если только начали такую конфигурацию (см. вопрос выше) или например что-то поменяли (например видяху помощнее поставили) то может и не потянуть, вобщем тут считайте сами потребляемую мощность по вашему железу.

Не, машина используется только как сервер. Мощности БП с трехкратным запасом хватает. Компоненты новые не больше года в использовании, за исключение жестких дисков, они 2-3 года

kukuruku11
() автор топика
Ответ на: комментарий от anc

Чего-то меня опять не в ту степь занесло

Все ок, интересно читать

kukuruku11
() автор топика
Ответ на: комментарий от kukuruku11

В первом приближении я бы вычеркнул нижнюю корзину, хз что там со шлейфами. Плюс харды не совсем «молодые», кстати уже интересно стало, smartctl скиньте по ним, если возможно.
А так конечно правильное направление, как писал выше, я со временем «устал» менять десктопные, поэтому перешел на серверные.

anc ★★★★★
()
Ответ на: комментарий от anc

Плюс харды не совсем «молодые», кстати уже интересно стало, smartctl скиньте по ним, если возможно.

MSM, который использовал вышел, показал ок по смартам. Отличие в aborted command. Ну, и часы наработки от 10 до 13 тысяч

kukuruku11
() автор топика
Ответ на: комментарий от kukuruku11

Есть еще другие параметры, которые может и не достигли критичных значений но могут заставить задуматься, например Load_Cycle_Count, Reallocated_Sector, ошибки по udma...

anc ★★★★★
()
Ответ на: комментарий от anc

Reallocated по нулям у всех были, как ни странно, диски в ящик закинул, к контроллеру лень подключать. все равно уже новый диск проверяется

kukuruku11
() автор топика
Ответ на: комментарий от kukuruku11

Ну потом посмотрите. Например ошибки по dma это почти всегда шлейфы/корзина виноваты, запредельный Load_Cycle_Count свойственен гриновым хардам (головки паркуют)

anc ★★★★★
()
Ответ на: комментарий от anc

Спасибо вам большое за помощь, много нового почерпнул из темы

kukuruku11
() автор топика
Ответ на: комментарий от kukuruku11

ДС. Но право не стоит. :) Рад был помочь.

anc ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.