LINUX.ORG.RU
решено ФорумAdmin

mdadm [я просто оставлю это здесь]

 , ,


3

5
# hdparm -tT /dev/sda

/dev/sda:
 Timing cached reads:   26304 MB in  1.99 seconds = 13220.03 MB/sec
 Timing buffered disk reads: 360 MB in  3.01 seconds = 119.54 MB/sec
# hdparm -tT /dev/sdb

/dev/sdb:
 Timing cached reads:   26240 MB in  1.99 seconds = 13186.53 MB/sec
 Timing buffered disk reads:  16 MB in  3.32 seconds =   4.82 MB/sec
# cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 sdb2[1] sda2[0]
      243567424 blocks super 1.2 [2/1] [UU]
      bitmap: 2/2 pages [8KB], 65536KB chunk

unused devices: <none>
★★★★★

Собственно не понятно, почему mdadm не выкинул не исправный диск...

DALDON ★★★★★ ()
Ответ на: комментарий от DALDON

Собственно непонятно почему ты не читал ман и постишь муйнию

anonymous ()
Ответ на: комментарий от anonymous

А что я в мане должен был прочитать на сей счёт? o_0

Буду рад, если ткнёшь носом.

Еле вычислил сей убитый диск, благодаря la под 100.

DALDON ★★★★★ ()
Ответ на: комментарий от DALDON

И только потом думать, аппаратный или программный сбой и может просто ресинкнуть массив

anonymous ()
Ответ на: комментарий от DALDON

[UU]

Значит он исправный. У тебя есть ошибки I/O?

anonymous ()
Ответ на: комментарий от anonymous

[2/1] гдеж исправный, подобную срань ловил на поганых шлейфах (отваливались временами), плавающий ресинк, пока окончательно не отвалилось, в логах как раз непонятно что.

anonymous ()
Ответ на: комментарий от anonymous

А что мне показал бы этот запрос, если у меня массив не разваливался..?

DALDON ★★★★★ ()
Ответ на: комментарий от anonymous

Ни одной ошибки ввода вывода не было! В том и дело... Всё штатно, за исключением la. Грешил на squid, все мозги ему поправил, думал он у меня уничтожает систему, ибо по iotop, фиг поймёшь, но выходило что squid грешен... Потом уже остановил squid, а он ссука не останавливается, я его торможу, а он не тормозится... Я его убиваю, а он не тормозится... Ну вот потом опытным путём выяснил, что вся операционка на каждую запись зависала... Уже стал это понимать, когда у меня команда: sync, стала тупо виснуть, а cache memory стал показывать огромные значения.

DALDON ★★★★★ ()
Ответ на: комментарий от DALDON

У тебя диски не десктопные? На них проблема чтения/записи сопровождается повторными попытками выполнения операции, что приводит к огромным таймаутам. Ошибка будет только если все таймауты истекут. Чуть более серверные диски выдают ошибку сразу, и RAID-контроллер может забраковать диск.

anonymous ()
Ответ на: комментарий от anonymous

Вестимо desktop. Это последняя машинка, где стоят старые десктопные диски. Про TLER знаю, но, насколько я знаю, mdadm по идее не умеет же в TLER? Я предполагал, что он должен сам отстреливать без всяких TLER!

DALDON ★★★★★ ()
Ответ на: комментарий от DALDON

Какого собственно фига, mdadm не вышвырнул его из массива?

DALDON ★★★★★ ()
Ответ на: комментарий от DALDON

а сфигаль он его кикнет, ведь работает еще, и запомни плановое ТО с заменой, плановое ТО с заменой....

А кто будет рассказывать у меня 10 лет пашет, посылай >> ЛЕС

anonymous ()
Ответ на: комментарий от DALDON

Я так понимаю, для этого должно быть отдельное ПО, которое анализирует состояния смарта (и может еще чего другое) и уже оно кикает диски.

Сам mdadm не особо адекватно реагирует на ошибки диска (по-моему мнению. Мне бы хотелось, что бы он при малейших намеках выкидывал диск и забывал про него, подхватывая hot spare, но он всегда диск мучает, когда уже пора бы выкинуть)

Deleted ()
Ответ на: комментарий от Deleted

По моему разумению, он должен делать точно так же, он должен игнорить TLER, и при явных отклонениях выкидывать диск из массива. А то я понимаешь ли надеюсь, что у меня mdadm, все дела, а тут мне zabbix сыплет, что у меня la высокий. На хрен всю голову тут сломали пока разбирались в чём дело. Я то первым делом сделал: /cat/proc/mdstat - и не увидев никаких проблем, я принялся матюкать squid...

DALDON ★★★★★ ()
Ответ на: комментарий от DALDON

Ты задачи попутал, задача md сохранить данные согласно конструкции райда любой ценой. То что ты хочешь, это мониторинг железа, костыляй сам или ищи решение, кто мешает тебе сыпать логи того-же смарта на почту каждую неделю?

anonymous ()
Ответ на: комментарий от DALDON

Хозяйке на заметку:
1. Не забываем про smartd. Массив это одно, а диск это другое.
2. smart не показатель, очень много десктопных хардов с нормальным смарт:
- ведут себя странно, только по косвенным данным и удается понять что виноват хард (правда чсх и с серверными бывает, но ооочень редко)
- умирают внезапно, т.е. даже не успевает смарт об этом сообщить. вчера норм, сегодня труп.

anc ★★★★★ ()
Ответ на: комментарий от DALDON

Если ты еще ничего не починил в состеме, посмотри пожалуйста, что говорит mdadm --monitor /dev/md0 ? Я так понимаю, этот режим должен контроллировать состояние md-raid и отсюда идет индикация состояния и ошибок.

Deleted ()
Ответ на: комментарий от anc

Звучит правильно, но должна же быть одна точка сбора инфы где-то. Неужела md-raid никак не основывает данные о своем состоянии на смарте? Понятно, что смарт это не достаточное условие, но одно из необходимых.

Deleted ()
Ответ на: комментарий от Deleted

Ответ прост, это софт райд и смарта вообще может не быть, не?

anonymous ()
Ответ на: комментарий от anonymous

Да, согласен. Но этот момент не очень явно отражен в документации, имхо. (по-мне, так совсем не отражен)

Deleted ()
Ответ на: комментарий от Deleted

А вот тут соглашусь, качество документации сильно упало за последние годы.

anonymous ()
Ответ на: комментарий от Deleted

Никогда не задумывался над этим вопросом. Скорее всего по причине того, что обращать внимание стоит на изменение разных атрибутов. Например Reallocated Sector, ведь не гуд если они появились, но это так же еще не повод автоматически выкидывать хард из массива.
ЗЫ Но во всяком случае мертвые харды он выкидывает знатно, так что вроде как все исполнено.

anc ★★★★★ ()
Последнее исправление: anc (всего исправлений: 1)
Ответ на: комментарий от anc

1. Не забываем про smartd. Массив это одно, а диск это другое.

Да, вот это я уже понял...

Спасибо!

DALDON ★★★★★ ()
Ответ на: комментарий от Deleted

Да я вот так же предполагал, думал, сделал я mdadm, у меня всё в шоколаде, волосы шелковистые и мягкие... Тем более, что на TLER ему пофиг, а стало быть сам должен уметь тогда всё делать.

Если ты еще ничего не починил в состеме, посмотри пожалуйста, что говорит mdadm --monitor /dev/md0

Выкинул сбойный диск сразу же из массива, ибо работать надо. Пока выкинул только на программном уровне.

DALDON ★★★★★ ()
Ответ на: комментарий от anonymous

Логично. Я ж могу его сотворить и на loop девайсах. Блин.

DALDON ★★★★★ ()
Ответ на: комментарий от DALDON

ибо работать надо.

не до экспериментов, значит. Я точно не знаю, что ожидать от монитора этого.

Вообще, у меня были случаи, когда смарт был плох, а md продолжал шпарить, но чинилось без вникания и разбора ситуации - не админ я, надо было починить)

Deleted ()
Ответ на: комментарий от Deleted

Да ненужно тебе это

если уж интересно то вот это полезней cat /sys/block/md0/md/mismatch_cnt

anonymous ()
Ответ на: комментарий от Deleted

И вообще пошарься по сис блок, там много интересного

anonymous ()
Ответ на: комментарий от DALDON

Кстати тут задумался, а NAS-ы так же присылают выхлоп smart-а в случае проблем, а сообщения вида «рэйд разлетелся» уже по факту. А если учесть что расшифровка смарта дело то еще, в том смысле что стандарта-то нет, и каждый производитель может выдавать что он хочет, становиться логичнее вдвойне.

anc ★★★★★ ()
Ответ на: комментарий от anc

насы аппаратные, с кучей обвяза и трапов, еще до разлетания должны материться. Хотя по факту это не всегда так (:

anonymous ()
Ответ на: комментарий от anc

Ну релоки - это приговор. Еще надо бы за pending-секторами (197) и ошибками UDMA (199). Последние лезут, когда китайский SATA-кабель из говна и палок начинает сбоить.

Radjah ★★★★★ ()
Ответ на: комментарий от DALDON

при явных отклонениях выкидывать диск из массива

Когда диск сдохнет, он его и выкинет. Вот тебе явное отклонение :)

cipher ★★★★★ ()
Ответ на: комментарий от Radjah

Ну релоки - это приговор.

Приговор харду, но не повод стопорить массив. Вот представьте два харда в raid1 из одной партии, в одно время появляются бэды, и что массив разваливать из-за этого?

anc ★★★★★ ()
Ответ на: комментарий от anc

Ну вот я тоже стал задумываться об этих вещах, до сегодня, я как-то был уверен, что с mdadm, можно спать спокойно...

DALDON ★★★★★ ()
Ответ на: комментарий от cipher

Ну в целом, да, логику в этом вижу, иначе действительно, если бы он выкидывал диски по каждому чиху, тогда массивы бы разваливались только в путь...

DALDON ★★★★★ ()
Ответ на: комментарий от DALDON

таки можно, просто с чего паника?

Сдохнет, выкинет, матом пошлет в писме, если к мылу приучен с детства, перекинешь винт и спи себе дальше, лучше конечно оба, если братья близнецы и куплены одномоментно

Твоя ситуация не совсем типична, винт жить пытается (: а по статистике после релоков он таки может еще долго жить, но на момент поиска сбойных будет тупить, ну устроенна так «надежность с деградацией»

anonymous ()
Ответ на: комментарий от anonymous

Твоя ситуация не совсем типична, винт жить пытается

Угу, похоже... Ну вот и здорово! Я пришёл, мне тут всё порассказали. И в общем, то всё встало на свои места.

Пришлось потрепать нервов, ибо я никак не мог понять, как может быть la 110, при iotop+CPU - возле нулей...

Спасибо! Весьма интересно и познавательно.

DALDON ★★★★★ ()
Ответ на: комментарий от DALDON

Да я вот так же предполагал, думал, сделал я mdadm, у меня всё в шоколаде, волосы шелковистые и мягкие... Тем более, что на TLER ему пофиг, а стало быть сам должен уметь тогда всё делать.

HDD в массивах должны поддерживать SCT:


SCT capabilities
SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.


Если эта хрень поддерживается, то hdd будет браковаться смартом при неудачных попытках чтения/записи в течении n секунд (задаётся в параметрах). Если смарт переведёт hdd в состояние failure, то mdadm тут же его выкинет из массива. Это вообще не его дело понимать живой хард или нет.
Так что не надо использовать десктопные харды в массивах.

King_Carlo ★★★★★ ()
Ответ на: комментарий от DALDON

Кстати об LA. В выхлопе ps squid скорее всего был глубоко в iowait (D).

Radjah ★★★★★ ()
Ответ на: комментарий от anc

в одно время появляются бэды

Это уже какой-то совсем крайний случай.

Radjah ★★★★★ ()
Ответ на: комментарий от DALDON

если бы он выкидывал диски по каждому чиху, тогда массивы бы разваливались только в путь...

[Оффтоп]Так делают СХД. Мониторят состояние дисков в рейд-группах, при симптомах смерти заранее перетаскивают данные на spare. Наверное, на обычном линукс хосте с рейд контроллером/mdadm тоже можно такое сделать, но я не в курсе.[/Оффтоп]

cipher ★★★★★ ()
Ответ на: комментарий от DALDON

Про TLER знаю, но, насколько я знаю, mdadm по идее не умеет же в TLER?

Что там уметь? Контроллер просто вернёт ошибку сразу. Это работа ядра, а н утилиты mdadm. Если есть ошибка I/O на устройстве, то оно выкидывается из массива.

anonymous ()
Ответ на: комментарий от Radjah

в одно время появляются бэды

Это уже какой-то совсем крайний случай.

Я про reallocate, это по вашему что такое как не бэды? :)

anc ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.