LINUX.ORG.RU
решено ФорумAdmin

Мониторинг raid при помощи mdadm


0

1

Вот есть такая статья:
http://tldp.org/HOWTO/Software-RAID-HOWTO-6.html

В ней не написано, как именно наботает mdadm, когда мониторит (т.е. что при этом происходит).

1) Правильно ли я понимаю, что один раз за --delay секунд монитор читает лог и если в логе есть ошибки - отсылает письмо по почте?

2) как запустить сверку контрольных сумм по всем дискам? (В статье это не написано). А то вдруг пара дисков тихо протухнет, а я об этом не узнаю, пока прочитать не соберусь.

2) как запустить сверку контрольных сумм по всем дискам? (В статье это не написано).

/usr/share/mdadm/checkarray

SYNC_ACTION_CTL=/sys/block/$array/md/sync_action
[...]
case "$action" in
[...]
  check)
[...]
    echo $action > $SYNC_ACTION_CTL

Вообще-то в нормальных дистрибутивах это делается автоматически по крону ;)

А вообще-то в случае деградации рейда придёт письмо на почту

router ★★★★★
()
Ответ на: комментарий от router

А для ответа на первый вопрос достаточно почитать man mdadm ;)

router ★★★★★
()
Ответ на: комментарий от router

SYNC_ACTION_CTL=/sys/block/$array/md/sync_action


У меня нет такого файла, почему?

# ls -1 /sys/block/md0/md
array_size
array_state
bitmap
chunk_size
component_size
dev-sda
dev-sdb
layout
level
max_read_errors
metadata_version
new_dev
raid_disks
rd0
rd1
reshape_position
resync_start
safe_mode_delay

StrongDollar
() автор топика
Ответ на: комментарий от GotF

raid0

Но я все равно хочу знать об отвале диска, проверяя периодически,
а не тогда, когда надо будет использовать.

Знание заранее о возникновении ошибки (например от статического электричества) позволит заменить компьютер и восстановиться из бекапов тоже заранее, а не носиться как угорелому когда данные реально понадобятся.

StrongDollar
() автор топика
Ответ на: комментарий от router

Ну ты юморист.


Да, исходный вопрос решен, но появился новый, который я озвучил в посте:
http://www.linux.org.ru/jump-message.jsp?msgid=5746405&cid=5746717
а именно - как промониторить raid0

Контрольные суммы там кстати есть, только другие - по одной на каждый сектор и поддерживает их не mdadm, а аппаратура диска, так что проверить можно было бы, но непонятно как.

Правильно ли я понимаю, что своим ответом ты предлагаешь создать мне новою тему? Или ты все-таки позволишь мне обсудить этот новый вопрос в этой старой теме?

StrongDollar
() автор топика
Ответ на: комментарий от StrongDollar

Я предлагаю не трахать мозги окружающим, а почитать хотя бы википедию. Ты несёшь бред.

Сначала читай http://ru.wikipedia.org/wiki/RAID#RAID_0 (лучше - всю страницу)

Потом - http://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D1%85%D0%BD%D0%BE%D0%BB%D0%BE%D0%B3...

Если останутся вопросы - спрашивай

router ★★★★★
()
Ответ на: комментарий от StrongDollar

а именно - как промониторить raid0

Когда однажды он не загрузится, ты узнаешь, что на одном из твоих дисков, а может и на обоих проблемы. Это замечательное средство мониторинга встроено raid0. Даже софтовый.

zgen ★★★★★
()
Ответ на: комментарий от router

Когда ты узнаешь, что такое уровень raid


Я знаю, что такое уровень RAID
0 - это черезполосица
1 - зеркалирование
5 - одна контрольная сумма на все диски (дополнительный диск на массив)
6 - две контрольные суммы (два дополнительных диска на массив)

ликбез по SMART


частично помогло, но мне не ясно, как отослать по почте результаты проверки (и команду проверки я сходу не вспомнил, хотя раньше точно использовал)

StrongDollar
() автор топика
Ответ на: комментарий от StrongDollar

>> частично помогло, но мне не ясно, как отослать по почте результаты проверки

man smartd

и команду проверки я сходу не вспомнил

man smartctl

GotF ★★★★★
()
Ответ на: комментарий от StrongDollar

smartctl. Можно запускать в режиме демона - smartd (в большинстве дистрибутивов автоматически). В случае подозрения на скорую смерть винта ты получишь письмо.

router ★★★★★
()
Ответ на: комментарий от router

Если останутся вопросы - спрашивай


ок, проверять можно из cron при помощи
smartctl -t long /dev/hdc
Begin an extended self-test of drive /dev/hdc. You can issue this com-
mand on a running system. The results can be seen in the self-test log
visible with the '-l selftest' option after it has completed.

из man smartctl


Как результаты отослать по почте в случае отказа?

Кто-нибудь так делает или делают по-другому?

StrongDollar
() автор топика
Ответ на: комментарий от router

Можно запускать в режиме демона - smartd


-i N, --interval=N
Sets the interval between disk checks to N seconds, where N is a decimal integer. The minimum allowed value is ten and the maximum is the largest posi-
tive integer that can be represented on your system (often 2^31-1). The default is 1800 seconds.

Вот у меня вопрос - как он проверяет раз в 1800 секунд, если проверка диска занимает 15 часов? Значит он проверяет не поверхность диска, а только его статус.

Правильно ли я понимаю, что в дополнение к запуску smartd надо в кроне переодически запускать smartctl ? Будет ли длинный тест менять статус диска? Делается ли так в «Нормальных дистрибутивах» ?

StrongDollar
() автор топика
Ответ на: комментарий от StrongDollar

Если SMART диска включен (проверить smartctl -i <диск>), то проверка производится контроллером диска. А приложения для мониторинга (smartd) должны только читать таблицу SMART

Вручную запускать проверку не обязательно.

Простой пример: повесь на корзину с дисками вентиллятор и время от времени проверяй температуру в таблице SMART:

smartctl -a <диск> | grep -i temp

Т.е. для проверки достаточно убедиться, что

1) SMART на дисках включен
2) smartd настроен на мониторинг всех дисков (явно не указано мониторить только sda, например)
3) smartd запускается автоматически при старте ОС

И остаётся лишь время от времени проверять почту.

А про мониторинг _состояния_ raid-массива ты сам ответил в топике

router ★★★★★
()
Ответ на: комментарий от router

Кстати, smartd проверяет не только таблицу SMART, но и смотрит куда-то в инет на предмет информации о прошивке. Если станет известно, что твоя прошивка может убить винт, ты тоже будешь получать письма (и в выводе smartctl -a <диск> будет предупреждение)

router ★★★★★
()
Ответ на: комментарий от router

приложения для мониторинга (smartd) должны только читать таблицу SMART


Если не будет обращения к какому-либо сектору, а он испортится - контроллер диска об этом сразу не узнает.

Если регулярно выполнять бекапы, то все данные регулярно будут считываться и контроллер будет выявлять ошибки.

Вручную запускать проверку не обязательно.


Ну, это позволит знать о состоянии неиспользуемого места :)

StrongDollar
() автор топика
Ответ на: комментарий от GotF

Это расточительно. В твоем варианте проверкой занимается центральный процессор, а используемые мощности можно было бы пустить на выполнение более полезных задач. А в варианте со smartctl этим занимается контроллер диска, разгружая центральный процессор, и контроллер диска еще может оптимизировать проверку и работу с диском внутри себя, а между ЦП и контроллером диска такая оптимизация затруднительна :)

StrongDollar
() автор топика
Ответ на: комментарий от StrongDollar

>Я знаю, что такое уровень RAID

0 - это черезполосица

1 - зеркалирование



Допустим.

5 - одна контрольная сумма на все диски (дополнительный диск на массив)


Не-а. Это взаимно-обратная функция данных и кода восстановления, позволяющая в случае краха одного из носителей безболезненно считать информацию с массива.

6 - две контрольные суммы (два дополнительных диска на массив)


Опять не угадал.

iZEN ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.