Вопрос по мониторингу SMART

smart, ssd, мониторинг

Добрый день. Имеется следующая проблема. Есть некий сервер, на котором стоят SSD-диски. Согласно договоренностей с хостером мы можем менять диски только при возникновении на них ошибок. Атрибуты S.M.A.R.T аргументом к замене не явдяются. Но smatrctl на этих ssd пишет в выводе, что SMART Error Log not supported. в принципе я могу проводить на нем smartctl -t short. Но я не уверен, что подобное хороший вариант, потому что а) дергать винт этим тестом каждые 10-15 минут скорее всего плохая идея. б) несколько раз встречал утверждения, что диск был уже в очень плохом состоянии, а self-test не выявлял на диске ошибки.

Вопрос - как наиболее правильно попытаться решить эту проблему

Ссылка

← Как сообщить об очень странном баге, чтобы это не сочли за шутку?

Подключение aufs через systemd (Debian 8) →

Решение — уйти от такого хостера.

post-factum ★★★★★
(18.07.16 19:38:48 MSK)

Ссылка

Твоя проблема не техническая, а юридическая. Диски дерьмо, но у тебя нет способа это доказать. Меняй хостера. Если подчиненный — пиши служебку руководителю с описанием проблемы, пусть юристы этим занимаются. Отношение типа: «Я — начальник, ты — дурак; неважно как, но чтоб всё работало!»? Тогда ничего, кроме увольнения не остается. Сочувствую. Можешь утешиться тем, что тебя всё равно бы уволили после полного выхода дисков из строя.

Vsevolod-linuxoid ★★★★★
(18.07.16 19:50:27 MSK)

Ссылка

Но smatrctl на этих ssd пишет в выводе, что SMART Error Log not supported

В смысле он пишет только это и ничего больше? Или всё-таки статус и атрибуты выдаёт?

legolegs ★★★★★
(18.07.16 19:52:37 MSK)

Ответ на: комментарий от legolegs 18.07.16 19:52:37 MSK

Допустим, пишет. И дальше что? Хостер посылает их на *** с показателями S.M.A.R.T., что мешает им послать их туда же с другими тестами? Судя по всему, диски поменяют только после полного выхода из строя.

Vsevolod-linuxoid ★★★★★
(18.07.16 19:58:14 MSK)

Ответ на: комментарий от Vsevolod-linuxoid 18.07.16 19:58:14 MSK

1. Все хостеры кладут болт на Reallocated_Sector_Ct и Current_Pending_Sector.

2. Не думаю, что они кладут на SMART overall-health. Это было бы действительно странно

3. Если вам дороги данные и бесперебойная работа - сделайте рейд. Внезапно выгорающие/выпаивающиеся чипы смарт всё равно не ловит, как и полетевшие подшипники на hdd.

legolegs ★★★★★
(18.07.16 20:11:41 MSK)

Ответ на: комментарий от legolegs 18.07.16 20:11:41 MSK

как и полетевшие подшипники на hdd.

Подшипник не сразу выходит из строя. Сначала должно повышаться количество ошибок чтения.

~~rezedent12~~ ☆☆☆
(18.07.16 22:30:15 MSK)

Ответ на: комментарий от rezedent12 18.07.16 22:30:15 MSK

Оно всегда абиссмальное, и особенно если существуют внешние факторы.

anonymous
(18.07.16 22:54:14 MSK)

Ответ на: комментарий от anonymous 18.07.16 22:54:14 MSK

Хотя, это было в том страшном сне, кажется. Он мне часто снится.

anonymous
(18.07.16 23:01:49 MSK)

Ссылка

Ответ на: комментарий от legolegs 18.07.16 20:11:41 MSK

Рейд есть. Просто хотелось бы реализовать схему, по которой заменять диски заранее, не дожидаясь их отхода в «страну вечных снов».

Причем остальные диски, которые поддерживают в smart error log, меняются без вопросов при появлении записи об ошибке в логе. А Reallocated_Sector_Ct и Current_Pending_Sector для них действительно не аргумент.

И да, воспользуюсь вашим советом - ловить по состоянию overall-health. Хорошо, думаю что это решение проблемы

Vetedie
(19.07.16 09:33:04 MSK) автор топика

Ответ на: комментарий от Vetedie 19.07.16 09:33:04 MSK

ЕМНИП, это называется SCT Error Recovery Control. Если диск начинает тупить, то контроллер его отстреливает и берез незанятый из резерва.

Если и этого нет, то бежать от такого хостера.

Radjah ★★★★★
(19.07.16 09:44:18 MSK)

Ссылка

Вопрос - как наиболее правильно попытаться решить эту проблему

Никак. СМАРТ — весьма дешёвая система, сделанная по принципу «давайте запилим хоть что-то». В бытовых накопителях она больше для нужд производителя: лог температуры и ударных воздействий. В серверном варианте чуть более полезная, но всё-равно.

За свою жизнь накопителей с ошибками смарта, я в глаза не видел. Для этого нужно работать в дата-центре.

Так что хостер по-своему прав.

Уже задолбало говорить, что конечный пользователь не имеет права интерпретировать RAW значения. Для этого под рукой нужно иметь даташит на накопитель *и* прошивку. Для конечного пользователя доступны только VALUE и THRESH. Если первое меньше второго, то это сигнал к *немедленной* замене.

Macil ★★★★★
(19.07.16 10:00:03 MSK)

Ответ на: комментарий от Macil 19.07.16 10:00:03 MSK

Окей, я как раз таки не говорю, что хостер не прав. Тут вопрос об оперативной замене дисков. Просто с теми же жесткими или ssd, что поддерживают SMART Error Log - проблем нет - появились ошибки, диск по заявке меняют. А вот в случае с парой серверов - Лог не поддерживается. Вот и ищем, как оперативно мониторить. Пока что решили сделать по принципу - если его SMART overall-health перейдет из состояния PASSED - то будем подавать заявку на замену.

Vetedie
(19.07.16 10:24:11 MSK) автор топика

Ссылка

Ответ на: комментарий от rezedent12 18.07.16 22:30:15 MSK

Ну, это не так

Не встречал такого на sas, а на sata просто на лету встаёт шпиндель и всё. Сигейты этим иногда болеют.

olegkrutov ★★
(19.07.16 11:21:27 MSK)

Ссылка

Ответ на: комментарий от Macil 19.07.16 10:00:03 MSK

Ну, зачем так категорично

Число релокейтов вполне однозначно, как и ошибок CRC, например.

olegkrutov ★★
(19.07.16 11:23:25 MSK)

Ответ на: Ну, зачем так категорично от olegkrutov 19.07.16 11:23:25 MSK

Нет, не однозначно. Однозначно - когда оно растёт.

legolegs ★★★★★
(19.07.16 11:38:06 MSK)

SMART Error Log not supported

попробуй обновить базу смартов

/usr/sbin/update-smart-drivedb

Deleted
(19.07.16 11:52:04 MSK)

Ответ на: комментарий от Deleted 19.07.16 11:52:04 MSK

Уже пробовали. Не помогло. Базы smart самые свежие.

Vetedie
(19.07.16 12:03:28 MSK) автор топика

Ссылка

Ответ на: комментарий от legolegs 19.07.16 11:38:06 MSK

Так считывайте эти параметры регулярно

И кладите в базу, там и увидите динамику. А сам диск честно отдаёт что заявлено, в стандарте нет указаний, что нужно указывать тренд, ну кроме WORST VALUE, но оно нормализовано.

olegkrutov ★★
(19.07.16 12:07:08 MSK)

Ссылка

Ответ на: Ну, зачем так категорично от olegkrutov 19.07.16 11:23:25 MSK

Число релокейтов вполне однозначно, как и ошибок CRC, например.

Совсем неоднозначно. Никто по гарантии не будет менять накопитель с ненулевым (растущим) reallocated. И уж точно никто и никогда не обязывал вендоров писать туда монотонно и линейно возрастающее число.

Macil ★★★★★
(19.07.16 12:58:47 MSK)

Ответ на: комментарий от Macil 19.07.16 10:00:03 MSK

За свою жизнь накопителей с ошибками смарта, я в глаза не видел.

Маленький у тебя опыт, дальше можно не читать.

steemandlinux ★★★★★
(19.07.16 14:15:06 MSK)

Ссылка

Подскажи, что за диски?

steemandlinux ★★★★★
(19.07.16 14:15:51 MSK)

Ответ на: комментарий от Macil 19.07.16 12:58:47 MSK

А это при чём?

Никто не говорит о возрастании или тем более гарантии, лишь о том, что параметр честно отражает число ошибок или имеющихся на данный момент релокейтов.

olegkrutov ★★
(19.07.16 20:56:03 MSK)

Ссылка

Ответ на: комментарий от steemandlinux 19.07.16 14:15:51 MSK

Сейчас скажу. Значит KINGSTON SV300S37A120G - это в случае с Кингстонами И с Интелом - это - INTEL SSDSC2BW120H6, который идет как Intel 53x and Pro 2500 Series SSDs

Vetedie
(20.07.16 10:29:57 MSK) автор топика