LINUX.ORG.RU
решено ФорумAdmin

Отлавливание ошибок чтения/записи на диск

 , ,


0

3

Всем привет,

Внезапно я озадачился такой проблемой. Вот допустим есть у меня система критическая в плане сохранения данных, к примеру сервер базы данных. На ней стоят диски, допустим HDD, хотя возможно и SSD, сути это не меняет. И предположим, диски начинают умирать потихоньку, но ведь сразу диск не умирает, наверняка сначала начнут появляться ошибки чтения в dmesg (который никто никогда не смотрит, пока все не сломается).

Отсюда два вопроса:

  1. Есть ли какой то нативный инструмент контроля и репортинга ошибок записи/чтения на диск? S.M.A.R.T. не предлагайте, потому что в него, во первых, тоже никто никогда не смотрит, а во вторых он не всегда помогает, насколько я понимаю.

  2. Возможно ли как то спровоцировать ошибку чтения диска не ломая сам диск при этом. Это нужно для тестинга.

Заранее благодарю.


Ответ на: комментарий от alex07

Если расхождения на raid1, а они будут, это также сходу в лоб прову.

anc ★★★★★
()
Ответ на: комментарий от alex07

Ну этож хецнер, пока из железа дым не вышел считают его рабочим.

Тем более, что тут

Reallocating sectors is normal work for a drive so this is nothing to be worried about.

они формально правы - небольшое количество бэдов это нормально примерно как битые пиксели на мониторах.

legolegs ★★★★★
()
Последнее исправление: legolegs (всего исправлений: 1)
Ответ на: комментарий от legolegs

они формально правы - небольшое количество бэдов это нормально примерно как битые пиксели на мониторах.

Дело в том что я примерно даже не представляю какое кол-во бэдов считать «нормальным». Сотни? Тысячи? Пытался это выяснить скачав спеки на жесткий диск, но и там пусто.

alex07
() автор топика
Ответ на: комментарий от legolegs

они формально не правы

починил

anc ★★★★★
()
Ответ на: комментарий от legolegs

Пока VALUE меньше TRESH

Кстати я вообще не понимаю как интерпретировать значение этих колонок: VALUE WORST THRESH. На мой взгляд там полная бессмыслица выводится.

alex07
() автор топика
Последнее исправление: alex07 (всего исправлений: 1)
Ответ на: комментарий от anc

Так тяжело прочитать, что продолжим флудить здесь?

Ну так там и сказано:

Value (Current) — текущее значение атрибута в попугаях (т. е. в величинах неизвестной размерности).

И тоже самое про остальные атрибуты. Поэтому я и говорю что непонятно.

P.D. Отметил задачу как решенную.

alex07
() автор топика
Ответ на: комментарий от alex07

Кстати я вообще не понимаю как интерпретировать значение этих колонок: VALUE WORST THRESH

Прошивка диска оценивает состояние в некоторых попугаях/очках здоровья VALUE. То, что написано в RAW VALUE - деталь реализации и формально не обязано быть никому понятно и документировано.

legolegs ★★★★★
()
Ответ на: комментарий от legolegs

например: value=5, thresh=7
это что значит? значение уже за чертой или еще до? а если до, то разница в 2 пункта как характеризует состояние? это хорошо или плохо?

anonymous
()
Ответ на: комментарий от anonymous

Это никак не характеризует. Абстрактные попугаи остаются абстрактными попугаями, и характеризует из только динамика изменения. Пока VALUE не пересекло порог TRESH диск считается хорошим. Как только пересечет в графе WHEN_FAILED будет время пробега в часах, когда это событие произошло.
После этого smartctl -H должен показывать FAILED.

Khnazile ★★★★★
()
Ответ на: комментарий от Khnazile

Как только пересечет в графе WHEN_FAILED будет время пробега в часах, когда это событие произошло.

То есть я правильно понимаю что если графа WHEN_FAILED не заполнена то прошивка диска считает что он ОК?

alex07
() автор топика
Ответ на: комментарий от alex07

Да, считает. Но надо понимать, что то, что по мнению прошивки механизм исправен, вовсе не означает, что он пригоден для хранения данных.

Khnazile ★★★★★
()
Ответ на: комментарий от anc

Но подробного объяснения этому параметру нет, все зависит производителя. Типа это может быть и плохо и ничего страшного.

Шта? Это количество секторов, которые винт не смог считать нормально во время самотестирования.

Deleted
()
Ответ на: комментарий от alex07

Дело в том что я примерно даже не представляю какое кол-во бэдов считать «нормальным»

Пока в смарт не будет написано Failing now или Failing at - диск считается исправным.

Deleted
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.