mdadm: state spare

0

1

Работал Raid1 почти пол года на двух одинаковых HDD дисках (sda, sdb). Пару дней назад один из дисков(sdb) ушел в State: removed. После выполнения команд:

mdadm --zero-superblock /dev/sdb

mdadm /dev/md0 --add /dev/sdb

Синхронизация доходила до 0.2%, скорость падала до 14kb и диск ушел в «state: faulty»

и потом после

mdadm --remove /dev/sdb

mdadm --re-add /dev/sdb

начал синхронизироваться и в итоге ушел в «state: spare».

Текущий вывод следующих команд:

cat /var/log/syslog | grep sdb

https://ibb.co/BB0rDxX

mdadm -D /dev/md0

https://ibb.co/XCQdrn5

mdadm -E /dev/sdb

https://ibb.co/hRTs0Rd

smartctl -q noserial -a /dev/sdb

https://ibb.co/tZgCRV0

https://ibb.co/CMTThSr

Подскажите плз как восстановить рейд

Спасибо

Ссылка

← Почему netstat -ln не показывает прослушиваемый порт?

конфигурирование множества gitlab-runner-ов →

Поменять дохлый хард.
У вас уже реалока на 1622. Это считаем труп.
Далее у вас параметр 193 LCC = 152547 это в целом не смертельно, но уже половина жизни и это за пол года? Вроде не гриновый который сам в слип улетает.

И раз они у вас одинаковые, посмотрите так же на смарт sda на всякий случай.

anc ★★★★★
(05.12.19 06:49:07 MSK)

ЗЫ С такими показателями по смарту и если харды полугодичные, можно смело в гарантийку сдавать.

anc ★★★★★
(05.12.19 06:59:58 MSK)

Ссылка

Ответ на: комментарий от anc 05.12.19 06:49:07 MSK

Сейчас только телефон рядом. Сорян за вывод в нескольких скриншотах.

https://ibb.co/64knkPw

https://ibb.co/5KqDN1T

https://ibb.co/1fhGzhK

https://ibb.co/cLrZML8

https://ibb.co/ZXhTgmD

trader1601 ★
(05.12.19 07:18:06 MSK) автор топика

Ответ на: комментарий от trader1601 05.12.19 07:18:06 MSK

1. Диски ставили в разное время.
2. sda тоже уже с реалоком, но меньше.

Итого меняйте, но по частям. Сначала sdb в первую очередь, потом sda. Но менять надо достаточно быстро. Если по рукой есть свободные ставьте. Если нет то покупать. А то пролюбите все нафиг.

И на будущее, ставьте оповещение, что бы не доводить до такого.

anc ★★★★★
(05.12.19 07:29:07 MSK)
Последнее исправление: anc 05.12.19 07:32:54 MSK (всего исправлений: 2)

Ответ на: комментарий от anc 05.12.19 07:29:07 MSK

Спасибо за ответы. Продавец дисков сказал, что проверит их и если действительно проблема есть - то заменит на новые на след неделе.

Диски ставил и покупал одновременно. Где-то месяц назад была проблема, когда я увидел, что один из дисков в статусе removed. И через –re-add он бы синхронизирован с рейдом опять. До этого я вообще не смотрел что там и как(после установки системы). Все работало нормально. Возможно он отключался задолго до этого момента и я просто не замечал, лол. Поэтому время жизни и разное.

По поводу LCC - сервер чисто под Nextcloud, где 4-5 юзеров постоянно синхронят папки, виртуалки, личные фоточки, iCloud аккаунты. И поидее из-за этого диски постоянно то включаются то паркуются. Стои ли ставить 300сек или вообще выключать остановку головок? Вопрос электричества/шума не важен.

trader1601 ★
(05.12.19 08:26:43 MSK) автор топика

Ответ на: комментарий от trader1601 05.12.19 08:26:43 MSK

По поводу LCC - сервер чисто под Nextcloud, где 4-5 юзеров постоянно синхронят папки, виртуалки, личные фоточки, iCloud аккаунты. И поидее из-за этого диски постоянно то включаются то паркуются.

Эм как это соотноситься с чисилками LCC 43 vs 152547 в raid1 ?

И поидее из-за этого диски постоянно то включаются то паркуются.

По какой «идее» ? С чего реды должны парковаться?

anc ★★★★★
(05.12.19 08:46:34 MSK)

Ответ на: комментарий от anc 05.12.19 08:46:34 MSK

с кривого понимания надежности

anonymous
(05.12.19 09:15:32 MSK)

Ссылка

Ответ на: комментарий от anc 05.12.19 08:46:34 MSK

По какой «идее» ? С чего реды должны парковаться?

а с чего вдруг не должны? я согласен, что для red число неприлично большое, но вообще парковка головок - нормальное явление при активной, но не неравномерной нагрузке. Букально, если диск определённое время ( минуты ) простаивает, то паркуется. У гринов косяк не в том, что они паркуются, а в том, что таймаут какой-то имбецил взял с потолка и он оказался очень неудачным

У мен дома у редов под виртуалками порядка 3к лет за 5, под файлопомойкой и медиасервером - порядка 40к за то же время. Пруфы выкладывать?

150к, как у ТС, уже неприличное число, тем более за полгода. Тут никаких возражений. Возможно это блю или грин, там действительно нужно увеличивать таймаут до максимума ( емнип, у них это 5 или 10 минут )

router ★★★★★
(05.12.19 12:29:32 MSK)

Ответ на: комментарий от anc 05.12.19 08:46:34 MSK

Кстати, конкретно по модели ТС гугл находит плач по форумам о высоком LCC

https://community.wd.com/t/wd-red-wd40efrx-no-firmware-available-with-nasware-3-0-and-no-lcc-bug-reply-or-fix/17876

и там ссылки на аналогичные проблемы. Т.е. wd40efrx_68n32n0 действительно проблемный. видимо, надо признать, что это кусок говна, а не hdd, и менять на что-нибудь приличное. Если нет возможности, скачай wdidle3 для гринов и попробуй натравить на свой диск. Также желательно обновить прошивку ( да, для винта. нет, я серьёзно. они есть и они поддерживаются вендором )

З.Ы. от wd я такой подставы с red не ожидал

router ★★★★★
(05.12.19 12:42:18 MSK)

Ответ на: комментарий от router 05.12.19 12:29:32 MSK

но вообще парковка головок - нормальное явление при активной, но не неравномерной нагрузке.

Повторяю два харда в raid1
LCC 43 vs 152547 видим разницу?

anc ★★★★★
(05.12.19 12:50:16 MSK)

Ответ на: комментарий от anc 05.12.19 12:50:16 MSK

повторяю ответ

я согласен, что для red число неприлично большое, но вообще парковка головок - нормальное явление при активной, но не неравномерной нагрузке

я сагрился на конкретную фразу - "С чего реды должны парковаться? "

router ★★★★★
(05.12.19 12:55:09 MSK)

Ссылка

Ответ на: комментарий от router 05.12.19 12:42:18 MSK

любопытно. оставил ссылку на проблемы модели на странице винта на ядекс-маркете ( в вопросах ). через минуту удалили

router ★★★★★
(05.12.19 12:59:56 MSK)
Последнее исправление: router 05.12.19 13:00:36 MSK (всего исправлений: 2)

Ответ на: комментарий от router 05.12.19 12:59:56 MSK

Да ладно с LCC, хотя это тоже важный момент, там же ещё реалок по полной и на первом и на втором :( И несовпадение по POH

anc ★★★★★
(05.12.19 13:22:32 MSK)

Ссылка

Ответ на: комментарий от router 05.12.19 12:59:56 MSK

там барыги, им отзывы не нужны, им продавать надо

с отзывами вообще беда, не осталось площадок без цензуры и заказухи

но самое бесячее, это оценка проставляемая - магазину в карточке товара, убивал бы на месте. какое отношение магазин имеет к качеству товара?

anonymous
(05.12.19 13:38:12 MSK)

Ссылка

Совет: для своевременного обнаружения bad-ов нужно запустить smartd и указать в конфиге периодическое выполнение внутренних тестов накопителей.
А то всегда есть шанс, что какой-то файл долгое время не читается и не пишется - просто надобности не было, а когда возникает - выясняется, что он лежит на сбойных секторах.
Ну и мониторинг иметь на это дело никогда не помешает.

Пример smartd.conf:

/dev/sda -d sat -s L/../05/./23
/dev/sdb -d sat -s L/../20/./23

spirit ★★★★★
(05.12.19 14:18:10 MSK)

Ответ на: комментарий от spirit 05.12.19 14:18:10 MSK

для своевременного обнаружения bad-ов нужно запустить smartd

Этого мало. Надо что бы он ещё и оповещал о проблемах.

anc ★★★★★
(05.12.19 15:10:05 MSK)

Ответ на: комментарий от anc 05.12.19 15:10:05 MSK

Ну smartd почту может слать. Желательно, кончено, воткнуть в машину гарантировано сбойный диск, чтобы проверить будут ли письмо с предупреждением.

legolegs ★★★★★
(05.12.19 15:24:27 MSK)

Ответ на: комментарий от legolegs 05.12.19 15:24:27 MSK

Ну smartd почту может слать.

Может, но как верно вы заметили это ещё и проверить надо. У smartd есть вариант тестовой отправки, в целом достаточно.
Мне лично хватает email, кому-то и sms может нужно. Варианты разные. Я прошел тот путь «подорвались в три часа ночи», поэтому устраивает «без смс» :)

anc ★★★★★
(05.12.19 15:28:08 MSK)
Последнее исправление: anc 05.12.19 15:32:09 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от trader1601 05.12.19 08:26:43 MSK

увидел, что один из дисков в статусе removed. И через –re-add он бы синхронизирован с рейдом опять

Надо же быть таким дебилом.

anonymous
(05.12.19 15:33:40 MSK)

Ссылка

Ответ на: комментарий от anc 05.12.19 15:10:05 MSK

У меня обычно мониторинг проверяет вывод smartctl -a - смотрит на результат последнего теста, если не OK - кричит.
В smartd.conf в те строчки можно добавить "-m admin1@dmain.com,admin2@domain.com,... -M once" для отправки почты. Но это нужно иметь хотя бы минимально настроенный почтовик + отслеживать, что такие письма не приходят в спам. Мониторингом надёжнее.

spirit ★★★★★
(05.12.19 15:35:46 MSK)

Ответ на: комментарий от spirit 05.12.19 15:35:46 MSK

Все верно. Железо мониторить надо так же как и бэкапы. Точнее бэкапы в первую очередь. А вот алармы уже по вкусу.
Вспоминая старую историю с гулей, если вам четыре раза в ДЦ долбанула молния, вас и так найдут. А при нормально настроенном, кмк не имеет смысла в рассылках среди ночи смс.

anc ★★★★★
(05.12.19 16:10:16 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Почему netstat -ln не показывает прослушиваемый порт?

Admin

конфигурирование множества gitlab-runner-ов →

Похожие темы