mdadm [я просто оставлю это здесь]

Собственно не понятно, почему mdadm не выкинул не исправный диск...

DALDON ★★★★★
(29.02.16 11:00:01 MSK) автор топика

Ответ на: комментарий от DALDON 29.02.16 11:00:01 MSK

Собственно непонятно почему ты не читал ман и постишь муйнию

anonymous
(29.02.16 11:05:19 MSK)

Ответ на: комментарий от anonymous 29.02.16 11:05:19 MSK

А что я в мане должен был прочитать на сей счёт? o_0

Буду рад, если ткнёшь носом.

Еле вычислил сей убитый диск, благодаря la под 100.

DALDON ★★★★★
(29.02.16 11:19:58 MSK) автор топика

Ответ на: комментарий от DALDON 29.02.16 11:19:58 MSK

mdadm --query --detail /dev/mdX

anonymous
(29.02.16 11:28:20 MSK)

Ответ на: комментарий от DALDON 29.02.16 11:19:58 MSK

И только потом думать, аппаратный или программный сбой и может просто ресинкнуть массив

anonymous
(29.02.16 11:29:18 MSK)

Ссылка

Ответ на: комментарий от DALDON 29.02.16 11:00:01 MSK

[UU]

Значит он исправный. У тебя есть ошибки I/O?

anonymous
(29.02.16 11:46:14 MSK)

Ответ на: комментарий от anonymous 29.02.16 11:46:14 MSK

[2/1] гдеж исправный, подобную срань ловил на поганых шлейфах (отваливались временами), плавающий ресинк, пока окончательно не отвалилось, в логах как раз непонятно что.

anonymous
(29.02.16 11:50:44 MSK)

Ответ на: комментарий от anonymous 29.02.16 11:28:20 MSK

А что мне показал бы этот запрос, если у меня массив не разваливался..?

DALDON ★★★★★
(29.02.16 12:01:31 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 29.02.16 11:50:44 MSK

Пардон, 2/2 было. Это я скопипастил криво.

DALDON ★★★★★
(29.02.16 12:02:27 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 29.02.16 11:46:14 MSK

Ни одной ошибки ввода вывода не было! В том и дело... Всё штатно, за исключением la. Грешил на squid, все мозги ему поправил, думал он у меня уничтожает систему, ибо по iotop, фиг поймёшь, но выходило что squid грешен... Потом уже остановил squid, а он ссука не останавливается, я его торможу, а он не тормозится... Я его убиваю, а он не тормозится... Ну вот потом опытным путём выяснил, что вся операционка на каждую запись зависала... Уже стал это понимать, когда у меня команда: sync, стала тупо виснуть, а cache memory стал показывать огромные значения.

DALDON ★★★★★
(29.02.16 12:05:54 MSK) автор топика

Ответ на: комментарий от DALDON 29.02.16 12:05:54 MSK

У тебя диски не десктопные? На них проблема чтения/записи сопровождается повторными попытками выполнения операции, что приводит к огромным таймаутам. Ошибка будет только если все таймауты истекут. Чуть более серверные диски выдают ошибку сразу, и RAID-контроллер может забраковать диск.

anonymous
(29.02.16 12:16:47 MSK)

Ответ на: комментарий от DALDON 29.02.16 12:05:54 MSK

smart давай

anonymous
(29.02.16 12:30:30 MSK)

Ответ на: комментарий от anonymous 29.02.16 12:16:47 MSK

Вестимо desktop. Это последняя машинка, где стоят старые десктопные диски. Про TLER знаю, но, насколько я знаю, mdadm по идее не умеет же в TLER? Я предполагал, что он должен сам отстреливать без всяких TLER!

DALDON ★★★★★
(29.02.16 12:31:44 MSK) автор топика

Ответ на: комментарий от anonymous 29.02.16 12:30:30 MSK

А там похоже, что жЁпа.

http://paste.ofcode.org/s5AC2zPpysUyWGvbXRDBta

DALDON ★★★★★
(29.02.16 12:39:08 MSK) автор топика

Ответ на: комментарий от DALDON 29.02.16 12:39:08 MSK

Какого собственно фига, mdadm не вышвырнул его из массива?

DALDON ★★★★★
(29.02.16 12:40:27 MSK) автор топика

Ответ на: комментарий от DALDON 29.02.16 12:40:27 MSK

а сфигаль он его кикнет, ведь работает еще, и запомни плановое ТО с заменой, плановое ТО с заменой....

А кто будет рассказывать у меня 10 лет пашет, посылай >> ЛЕС

anonymous
(29.02.16 12:53:04 MSK)

Ссылка

Ответ на: комментарий от DALDON 29.02.16 12:40:27 MSK

а на разделе sdb2 есть ошибки записи/чтения?

axelroot ★
(29.02.16 12:57:48 MSK)

Ответ на: комментарий от axelroot 29.02.16 12:57:48 MSK

В dmesg идеальная тишина.

DALDON ★★★★★
(29.02.16 13:05:45 MSK) автор топика

Ссылка

Ответ на: комментарий от DALDON 29.02.16 12:40:27 MSK

Я так понимаю, для этого должно быть отдельное ПО, которое анализирует состояния смарта (и может еще чего другое) и уже оно кикает диски.

Сам mdadm не особо адекватно реагирует на ошибки диска (по-моему мнению. Мне бы хотелось, что бы он при малейших намеках выкидывал диск и забывал про него, подхватывая hot spare, но он всегда диск мучает, когда уже пора бы выкинуть)

Deleted
(29.02.16 13:08:16 MSK)

Ответ на: комментарий от Deleted 29.02.16 13:08:16 MSK

По моему разумению, он должен делать точно так же, он должен игнорить TLER, и при явных отклонениях выкидывать диск из массива. А то я понимаешь ли надеюсь, что у меня mdadm, все дела, а тут мне zabbix сыплет, что у меня la высокий. На хрен всю голову тут сломали пока разбирались в чём дело. Я то первым делом сделал: /cat/proc/mdstat - и не увидев никаких проблем, я принялся матюкать squid...

DALDON ★★★★★
(29.02.16 13:11:19 MSK) автор топика

Ответ на: комментарий от DALDON 29.02.16 13:11:19 MSK

Ты задачи попутал, задача md сохранить данные согласно конструкции райда любой ценой. То что ты хочешь, это мониторинг железа, костыляй сам или ищи решение, кто мешает тебе сыпать логи того-же смарта на почту каждую неделю?

anonymous
(29.02.16 13:18:17 MSK)

Ответ на: комментарий от DALDON 29.02.16 13:11:19 MSK

Хозяйке на заметку:
1. Не забываем про smartd. Массив это одно, а диск это другое.
2. smart не показатель, очень много десктопных хардов с нормальным смарт:
- ведут себя странно, только по косвенным данным и удается понять что виноват хард (правда чсх и с серверными бывает, но ооочень редко)
- умирают внезапно, т.е. даже не успевает смарт об этом сообщить. вчера норм, сегодня труп.

anc ★★★★★
(29.02.16 13:38:13 MSK)

Ответ на: комментарий от DALDON 29.02.16 13:11:19 MSK

Если ты еще ничего не починил в состеме, посмотри пожалуйста, что говорит mdadm --monitor /dev/md0 ? Я так понимаю, этот режим должен контроллировать состояние md-raid и отсюда идет индикация состояния и ошибок.

Deleted
(29.02.16 13:46:22 MSK)

Ссылка

Ответ на: комментарий от anc 29.02.16 13:38:13 MSK

Звучит правильно, но должна же быть одна точка сбора инфы где-то. Неужела md-raid никак не основывает данные о своем состоянии на смарте? Понятно, что смарт это не достаточное условие, но одно из необходимых.

Deleted
(29.02.16 13:48:17 MSK)

Ответ на: комментарий от Deleted 29.02.16 13:48:17 MSK

Ответ прост, это софт райд и смарта вообще может не быть, не?

anonymous
(29.02.16 13:50:09 MSK)

Ответ на: комментарий от anonymous 29.02.16 13:50:09 MSK

Да, согласен. Но этот момент не очень явно отражен в документации, имхо. (по-мне, так совсем не отражен)

Deleted
(29.02.16 13:54:27 MSK)

Ответ на: комментарий от Deleted 29.02.16 13:54:27 MSK

А вот тут соглашусь, качество документации сильно упало за последние годы.

anonymous
(29.02.16 13:56:18 MSK)

Ссылка

Ответ на: комментарий от Deleted 29.02.16 13:48:17 MSK

Никогда не задумывался над этим вопросом. Скорее всего по причине того, что обращать внимание стоит на изменение разных атрибутов. Например Reallocated Sector, ведь не гуд если они появились, но это так же еще не повод автоматически выкидывать хард из массива.
ЗЫ Но во всяком случае мертвые харды он выкидывает знатно, так что вроде как все исполнено.

anc ★★★★★
(29.02.16 13:58:39 MSK)
Последнее исправление: anc 29.02.16 14:00:41 MSK (всего исправлений: 1)

Ответ на: комментарий от anc 29.02.16 13:38:13 MSK

1. Не забываем про smartd. Массив это одно, а диск это другое.

Да, вот это я уже понял...

Спасибо!

DALDON ★★★★★
(29.02.16 14:15:18 MSK) автор топика

Ссылка

Ответ на: комментарий от Deleted 29.02.16 13:48:17 MSK

Да я вот так же предполагал, думал, сделал я mdadm, у меня всё в шоколаде, волосы шелковистые и мягкие... Тем более, что на TLER ему пофиг, а стало быть сам должен уметь тогда всё делать.

Если ты еще ничего не починил в состеме, посмотри пожалуйста, что говорит mdadm --monitor /dev/md0

Выкинул сбойный диск сразу же из массива, ибо работать надо. Пока выкинул только на программном уровне.

DALDON ★★★★★
(29.02.16 14:17:45 MSK) автор топика

Ответ на: комментарий от anonymous 29.02.16 13:50:09 MSK

Логично. Я ж могу его сотворить и на loop девайсах. Блин.

DALDON ★★★★★
(29.02.16 14:18:32 MSK) автор топика

Ответ на: комментарий от DALDON 29.02.16 14:17:45 MSK

ибо работать надо.

не до экспериментов, значит. Я точно не знаю, что ожидать от монитора этого.

Вообще, у меня были случаи, когда смарт был плох, а md продолжал шпарить, но чинилось без вникания и разбора ситуации - не админ я, надо было починить)

Deleted
(29.02.16 14:21:19 MSK)

Ответ на: комментарий от Deleted 29.02.16 14:21:19 MSK

Да ненужно тебе это

если уж интересно то вот это полезней cat /sys/block/md0/md/mismatch_cnt

anonymous
(29.02.16 14:29:04 MSK)

Ссылка

Ответ на: комментарий от Deleted 29.02.16 14:21:19 MSK

И вообще пошарься по сис блок, там много интересного

anonymous
(29.02.16 14:31:20 MSK)

Ссылка

Ответ на: комментарий от DALDON 29.02.16 14:18:32 MSK

Кстати тут задумался, а NAS-ы так же присылают выхлоп smart-а в случае проблем, а сообщения вида «рэйд разлетелся» уже по факту. А если учесть что расшифровка смарта дело то еще, в том смысле что стандарта-то нет, и каждый производитель может выдавать что он хочет, становиться логичнее вдвойне.

anc ★★★★★
(29.02.16 14:34:19 MSK)

Ответ на: комментарий от anc 29.02.16 14:34:19 MSK

насы аппаратные, с кучей обвяза и трапов, еще до разлетания должны материться. Хотя по факту это не всегда так (:

anonymous
(29.02.16 14:45:56 MSK)

Ссылка

Ответ на: комментарий от anc 29.02.16 13:58:39 MSK

Ну релоки - это приговор. Еще надо бы за pending-секторами (197) и ошибками UDMA (199). Последние лезут, когда китайский SATA-кабель из говна и палок начинает сбоить.

Radjah ★★★★★
(29.02.16 14:49:00 MSK)

Ответ на: комментарий от DALDON 29.02.16 13:11:19 MSK

при явных отклонениях выкидывать диск из массива

Когда диск сдохнет, он его и выкинет. Вот тебе явное отклонение :)

cipher ★★★★★
(29.02.16 14:53:28 MSK)

Ответ на: комментарий от Radjah 29.02.16 14:49:00 MSK

Ну релоки - это приговор.

Приговор харду, но не повод стопорить массив. Вот представьте два харда в raid1 из одной партии, в одно время появляются бэды, и что массив разваливать из-за этого?

anc ★★★★★
(29.02.16 14:58:15 MSK)

Ответ на: комментарий от anc 29.02.16 14:34:19 MSK

Ну вот я тоже стал задумываться об этих вещах, до сегодня, я как-то был уверен, что с mdadm, можно спать спокойно...

DALDON ★★★★★
(29.02.16 14:59:49 MSK) автор топика

Ответ на: комментарий от cipher 29.02.16 14:53:28 MSK

Ну в целом, да, логику в этом вижу, иначе действительно, если бы он выкидывал диски по каждому чиху, тогда массивы бы разваливались только в путь...

DALDON ★★★★★
(29.02.16 15:00:41 MSK) автор топика

Ответ на: комментарий от anc 29.02.16 14:58:15 MSK

Спасибо! Очень годные мысли..!

DALDON ★★★★★
(29.02.16 15:00:57 MSK) автор топика

Ссылка

Ответ на: комментарий от DALDON 29.02.16 14:59:49 MSK

таки можно, просто с чего паника?

Сдохнет, выкинет, матом пошлет в писме, если к мылу приучен с детства, перекинешь винт и спи себе дальше, лучше конечно оба, если братья близнецы и куплены одномоментно

Твоя ситуация не совсем типична, винт жить пытается (: а по статистике после релоков он таки может еще долго жить, но на момент поиска сбойных будет тупить, ну устроенна так «надежность с деградацией»

anonymous
(29.02.16 15:04:16 MSK)

Ответ на: комментарий от anonymous 29.02.16 15:04:16 MSK

Твоя ситуация не совсем типична, винт жить пытается

Угу, похоже... Ну вот и здорово! Я пришёл, мне тут всё порассказали. И в общем, то всё встало на свои места.

Пришлось потрепать нервов, ибо я никак не мог понять, как может быть la 110, при iotop+CPU - возле нулей...

Спасибо! Весьма интересно и познавательно.

DALDON ★★★★★
(29.02.16 15:13:16 MSK) автор топика

Ответ на: комментарий от DALDON 29.02.16 14:17:45 MSK

Да я вот так же предполагал, думал, сделал я mdadm, у меня всё в шоколаде, волосы шелковистые и мягкие... Тем более, что на TLER ему пофиг, а стало быть сам должен уметь тогда всё делать.

HDD в массивах должны поддерживать SCT:


SCT capabilities	
SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

Если эта хрень поддерживается, то hdd будет браковаться смартом при неудачных попытках чтения/записи в течении n секунд (задаётся в параметрах). Если смарт переведёт hdd в состояние failure, то mdadm тут же его выкинет из массива. Это вообще не его дело понимать живой хард или нет.
Так что не надо использовать десктопные харды в массивах.

~~King_Carlo~~ ★★★★★
(29.02.16 15:32:15 MSK)

Ответ на: комментарий от DALDON 29.02.16 15:13:16 MSK

Кстати об LA. В выхлопе ps squid скорее всего был глубоко в iowait (D).

Radjah ★★★★★
(29.02.16 15:33:36 MSK)

Ответ на: комментарий от anc 29.02.16 14:58:15 MSK

в одно время появляются бэды

Это уже какой-то совсем крайний случай.

Radjah ★★★★★
(29.02.16 15:35:09 MSK)

Ответ на: комментарий от DALDON 29.02.16 15:00:41 MSK

если бы он выкидывал диски по каждому чиху, тогда массивы бы разваливались только в путь...

[Оффтоп]Так делают СХД. Мониторят состояние дисков в рейд-группах, при симптомах смерти заранее перетаскивают данные на spare. Наверное, на обычном линукс хосте с рейд контроллером/mdadm тоже можно такое сделать, но я не в курсе.[/Оффтоп]

cipher ★★★★★
(29.02.16 15:52:10 MSK)

Ссылка

Ответ на: комментарий от DALDON 29.02.16 12:31:44 MSK

Про TLER знаю, но, насколько я знаю, mdadm по идее не умеет же в TLER?

Что там уметь? Контроллер просто вернёт ошибку сразу. Это работа ядра, а н утилиты mdadm. Если есть ошибка I/O на устройстве, то оно выкидывается из массива.

anonymous
(29.02.16 16:02:09 MSK)

Ответ на: комментарий от Radjah 29.02.16 15:35:09 MSK

в одно время появляются бэды
Это уже какой-то совсем крайний случай.

Я про reallocate, это по вашему что такое как не бэды? :)

anc ★★★★★
(29.02.16 16:02:26 MSK)

Похожие темы