Мониторинг raid при помощи mdadm

0

1

Вот есть такая статья:
http://tldp.org/HOWTO/Software-RAID-HOWTO-6.html

В ней не написано, как именно наботает mdadm, когда мониторит (т.е. что при этом происходит).

1) Правильно ли я понимаю, что один раз за --delay секунд монитор читает лог и если в логе есть ошибки - отсылает письмо по почте?

2) как запустить сверку контрольных сумм по всем дискам? (В статье это не написано). А то вдруг пара дисков тихо протухнет, а я об этом не узнаю, пока прочитать не соберусь.

Ссылка

← Не возможно скопировать скопировать архив по ssh. Проблема с поиском команд на удаленном хосте через туннель.

networkmanager перестал видеть точки доступа →

2) как запустить сверку контрольных сумм по всем дискам? (В статье это не написано).

/usr/share/mdadm/checkarray

SYNC_ACTION_CTL=/sys/block/$array/md/sync_action
[...]
case "$action" in
[...]
  check)
[...]
    echo $action > $SYNC_ACTION_CTL

Вообще-то в нормальных дистрибутивах это делается автоматически по крону ;)

А вообще-то в случае деградации рейда придёт письмо на почту

router ★★★★★
(02.01.11 14:39:15 MSK)

Ответ на: комментарий от router 02.01.11 14:39:15 MSK

А для ответа на первый вопрос достаточно почитать man mdadm ;)

router ★★★★★
(02.01.11 14:50:34 MSK)

Ссылка

Ответ на: комментарий от router 02.01.11 14:39:15 MSK

SYNC_ACTION_CTL=/sys/block/$array/md/sync_action

У меня нет такого файла, почему?

# ls -1 /sys/block/md0/md
array_size
array_state
bitmap
chunk_size
component_size
dev-sda
dev-sdb
layout
level
max_read_errors
metadata_version
new_dev
raid_disks
rd0
rd1
reshape_position
resync_start
safe_mode_delay

~~StrongDollar~~ ★
(02.01.11 15:38:21 MSK) автор топика

Ответ на: комментарий от StrongDollar 02.01.11 15:38:21 MSK

У меня нет такого файла, почему?

cat /sys/block/md0/md/level

GotF ★★★★★
(02.01.11 15:41:03 MSK)

Ответ на: комментарий от GotF 02.01.11 15:41:03 MSK

raid0

Но я все равно хочу знать об отвале диска, проверяя периодически,
а не тогда, когда надо будет использовать.

Знание заранее о возникновении ошибки (например от статического электричества) позволит заменить компьютер и восстановиться из бекапов тоже заранее, а не носиться как угорелому когда данные реально понадобятся.

~~StrongDollar~~ ★
(02.01.11 15:57:14 MSK) автор топика

Ответ на: комментарий от StrongDollar 02.01.11 15:57:14 MSK

>raid0

Ну ты юморист. Перечитай ещё раз свой же топик, потом какой-нибудь ликбез по raid'ам

router ★★★★★
(02.01.11 16:16:37 MSK)

Ответ на: комментарий от router 02.01.11 16:16:37 MSK

Ну ты юморист.

Да, исходный вопрос решен, но появился новый, который я озвучил в посте:
http://www.linux.org.ru/jump-message.jsp?msgid=5746405&cid=5746717
а именно - как промониторить raid0

Контрольные суммы там кстати есть, только другие - по одной на каждый сектор и поддерживает их не mdadm, а аппаратура диска, так что проверить можно было бы, но непонятно как.

Правильно ли я понимаю, что своим ответом ты предлагаешь создать мне новою тему? Или ты все-таки позволишь мне обсудить этот новый вопрос в этой старой теме?

~~StrongDollar~~ ★
(02.01.11 16:20:36 MSK) автор топика

Ответ на: комментарий от router 02.01.11 16:16:37 MSK

Когда ты узнаешь, что такое уровень raid, достигнуть просветления поможет ликбез по SMART

router ★★★★★
(02.01.11 16:21:04 MSK)

Ответ на: комментарий от StrongDollar 02.01.11 16:20:36 MSK

Я предлагаю не трахать мозги окружающим, а почитать хотя бы википедию. Ты несёшь бред.

Сначала читай http://ru.wikipedia.org/wiki/RAID#RAID_0 (лучше - всю страницу)

Потом - http://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D1%85%D0%BD%D0%BE%D0%BB%D0%BE%D0%B3...

Если останутся вопросы - спрашивай

router ★★★★★
(02.01.11 16:23:56 MSK)

Ответ на: комментарий от StrongDollar 02.01.11 16:20:36 MSK

а именно - как промониторить raid0

Когда однажды он не загрузится, ты узнаешь, что на одном из твоих дисков, а может и на обоих проблемы. Это замечательное средство мониторинга встроено raid0. Даже софтовый.

~~zgen~~ ★★★★★
(02.01.11 16:26:23 MSK)

Ссылка

Ответ на: комментарий от router 02.01.11 16:21:04 MSK

Когда ты узнаешь, что такое уровень raid

Я знаю, что такое уровень RAID
0 - это черезполосица
1 - зеркалирование
5 - одна контрольная сумма на все диски (дополнительный диск на массив)
6 - две контрольные суммы (два дополнительных диска на массив)

ликбез по SMART

частично помогло, но мне не ясно, как отослать по почте результаты проверки (и команду проверки я сходу не вспомнил, хотя раньше точно использовал)

~~StrongDollar~~ ★
(02.01.11 16:29:14 MSK) автор топика

Ответ на: комментарий от StrongDollar 02.01.11 16:29:14 MSK

>> частично помогло, но мне не ясно, как отослать по почте результаты проверки

man smartd

и команду проверки я сходу не вспомнил

man smartctl

GotF ★★★★★
(02.01.11 16:32:21 MSK)

Ссылка

Ответ на: комментарий от StrongDollar 02.01.11 16:29:14 MSK

smartctl. Можно запускать в режиме демона - smartd (в большинстве дистрибутивов автоматически). В случае подозрения на скорую смерть винта ты получишь письмо.

router ★★★★★
(02.01.11 16:32:47 MSK)

Ответ на: комментарий от router 02.01.11 16:23:56 MSK

Если останутся вопросы - спрашивай

ок, проверять можно из cron при помощи
smartctl -t long /dev/hdc
Begin an extended self-test of drive /dev/hdc. You can issue this com-
mand on a running system. The results can be seen in the self-test log
visible with the '-l selftest' option after it has completed.

из man smartctl

Как результаты отослать по почте в случае отказа?

Кто-нибудь так делает или делают по-другому?

~~StrongDollar~~ ★
(02.01.11 16:34:59 MSK) автор топика

Ссылка

Ответ на: комментарий от router 02.01.11 16:32:47 MSK

Можно запускать в режиме демона - smartd

-i N, --interval=N
Sets the interval between disk checks to N seconds, where N is a decimal integer. The minimum allowed value is ten and the maximum is the largest posi-
tive integer that can be represented on your system (often 2^31-1). The default is 1800 seconds.

Вот у меня вопрос - как он проверяет раз в 1800 секунд, если проверка диска занимает 15 часов? Значит он проверяет не поверхность диска, а только его статус.

Правильно ли я понимаю, что в дополнение к запуску smartd надо в кроне переодически запускать smartctl ? Будет ли длинный тест менять статус диска? Делается ли так в «Нормальных дистрибутивах» ?

~~StrongDollar~~ ★
(02.01.11 16:43:10 MSK) автор топика

Ответ на: комментарий от StrongDollar 02.01.11 16:43:10 MSK

Если SMART диска включен (проверить smartctl -i <диск>), то проверка производится контроллером диска. А приложения для мониторинга (smartd) должны только читать таблицу SMART

Вручную запускать проверку не обязательно.

Простой пример: повесь на корзину с дисками вентиллятор и время от времени проверяй температуру в таблице SMART:

smartctl -a <диск> | grep -i temp

Т.е. для проверки достаточно убедиться, что

1) SMART на дисках включен
2) smartd настроен на мониторинг всех дисков (явно не указано мониторить только sda, например)
3) smartd запускается автоматически при старте ОС

И остаётся лишь время от времени проверять почту.

А про мониторинг _состояния_ raid-массива ты сам ответил в топике

router ★★★★★
(02.01.11 17:06:13 MSK)

Ответ на: комментарий от router 02.01.11 17:06:13 MSK

Кстати, smartd проверяет не только таблицу SMART, но и смотрит куда-то в инет на предмет информации о прошивке. Если станет известно, что твоя прошивка может убить винт, ты тоже будешь получать письма (и в выводе smartctl -a <диск> будет предупреждение)

router ★★★★★
(02.01.11 17:10:04 MSK)

Ссылка

Ответ на: комментарий от router 02.01.11 17:06:13 MSK

приложения для мониторинга (smartd) должны только читать таблицу SMART

Если не будет обращения к какому-либо сектору, а он испортится - контроллер диска об этом сразу не узнает.

Если регулярно выполнять бекапы, то все данные регулярно будут считываться и контроллер будет выявлять ошибки.

Вручную запускать проверку не обязательно.

Ну, это позволит знать о состоянии неиспользуемого места :)

~~StrongDollar~~ ★
(02.01.11 17:17:19 MSK) автор топика

Ответ на: комментарий от StrongDollar 02.01.11 17:17:19 MSK

Есть гораздо более простой способ проверки поверхности — чтение диска в /dev/null.

GotF ★★★★★
(02.01.11 17:20:55 MSK)

Ответ на: комментарий от GotF 02.01.11 17:20:55 MSK

Это расточительно. В твоем варианте проверкой занимается центральный процессор, а используемые мощности можно было бы пустить на выполнение более полезных задач. А в варианте со smartctl этим занимается контроллер диска, разгружая центральный процессор, и контроллер диска еще может оптимизировать проверку и работу с диском внутри себя, а между ЦП и контроллером диска такая оптимизация затруднительна :)

~~StrongDollar~~ ★
(02.01.11 17:27:22 MSK) автор топика

Ссылка

Ответ на: комментарий от StrongDollar 02.01.11 16:29:14 MSK

>Я знаю, что такое уровень RAID

0 - это черезполосица

1 - зеркалирование

Допустим.

5 - одна контрольная сумма на все диски (дополнительный диск на массив)

Не-а. Это взаимно-обратная функция данных и кода восстановления, позволяющая в случае краха одного из носителей безболезненно считать информацию с массива.

6 - две контрольные суммы (два дополнительных диска на массив)

Опять не угадал.

iZEN ★★★★★
(03.01.11 08:47:59 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

Admin

networkmanager перестал видеть точки доступа →

Похожие темы