LINUX.ORG.RU

Вопрос по мониторингу SMART

 , ,


0

2

Добрый день. Имеется следующая проблема. Есть некий сервер, на котором стоят SSD-диски. Согласно договоренностей с хостером мы можем менять диски только при возникновении на них ошибок. Атрибуты S.M.A.R.T аргументом к замене не явдяются. Но smatrctl на этих ssd пишет в выводе, что SMART Error Log not supported. в принципе я могу проводить на нем smartctl -t short. Но я не уверен, что подобное хороший вариант, потому что а) дергать винт этим тестом каждые 10-15 минут скорее всего плохая идея. б) несколько раз встречал утверждения, что диск был уже в очень плохом состоянии, а self-test не выявлял на диске ошибки.

Вопрос - как наиболее правильно попытаться решить эту проблему

Решение — уйти от такого хостера.

post-factum ★★★★★ ()

Твоя проблема не техническая, а юридическая. Диски дерьмо, но у тебя нет способа это доказать. Меняй хостера. Если подчиненный — пиши служебку руководителю с описанием проблемы, пусть юристы этим занимаются. Отношение типа: «Я — начальник, ты — дурак; неважно как, но чтоб всё работало!»? Тогда ничего, кроме увольнения не остается. Сочувствую. Можешь утешиться тем, что тебя всё равно бы уволили после полного выхода дисков из строя.

Vsevolod-linuxoid ★★★★★ ()

Но smatrctl на этих ssd пишет в выводе, что SMART Error Log not supported

В смысле он пишет только это и ничего больше? Или всё-таки статус и атрибуты выдаёт?

legolegs ★★★★★ ()
Ответ на: комментарий от legolegs

Допустим, пишет. И дальше что? Хостер посылает их на *** с показателями S.M.A.R.T., что мешает им послать их туда же с другими тестами? Судя по всему, диски поменяют только после полного выхода из строя.

Vsevolod-linuxoid ★★★★★ ()
Ответ на: комментарий от Vsevolod-linuxoid

1. Все хостеры кладут болт на Reallocated_Sector_Ct и Current_Pending_Sector.

2. Не думаю, что они кладут на SMART overall-health. Это было бы действительно странно

3. Если вам дороги данные и бесперебойная работа - сделайте рейд. Внезапно выгорающие/выпаивающиеся чипы смарт всё равно не ловит, как и полетевшие подшипники на hdd.

legolegs ★★★★★ ()
Ответ на: комментарий от legolegs

как и полетевшие подшипники на hdd.

Подшипник не сразу выходит из строя. Сначала должно повышаться количество ошибок чтения.

rezedent12 ☆☆☆ ()
Ответ на: комментарий от anonymous

Хотя, это было в том страшном сне, кажется. Он мне часто снится.

anonymous ()
Ответ на: комментарий от legolegs

Рейд есть. Просто хотелось бы реализовать схему, по которой заменять диски заранее, не дожидаясь их отхода в «страну вечных снов».

Причем остальные диски, которые поддерживают в smart error log, меняются без вопросов при появлении записи об ошибке в логе. А Reallocated_Sector_Ct и Current_Pending_Sector для них действительно не аргумент.

И да, воспользуюсь вашим советом - ловить по состоянию overall-health. Хорошо, думаю что это решение проблемы

Vetedie ()
Ответ на: комментарий от Vetedie

ЕМНИП, это называется SCT Error Recovery Control. Если диск начинает тупить, то контроллер его отстреливает и берез незанятый из резерва.

Если и этого нет, то бежать от такого хостера.

Radjah ★★★★★ ()

Вопрос - как наиболее правильно попытаться решить эту проблему

Никак. СМАРТ — весьма дешёвая система, сделанная по принципу «давайте запилим хоть что-то». В бытовых накопителях она больше для нужд производителя: лог температуры и ударных воздействий. В серверном варианте чуть более полезная, но всё-равно.

За свою жизнь накопителей с ошибками смарта, я в глаза не видел. Для этого нужно работать в дата-центре.

Так что хостер по-своему прав.

Уже задолбало говорить, что конечный пользователь не имеет права интерпретировать RAW значения. Для этого под рукой нужно иметь даташит на накопитель *и* прошивку. Для конечного пользователя доступны только VALUE и THRESH. Если первое меньше второго, то это сигнал к *немедленной* замене.

Macil ★★★★★ ()
Ответ на: комментарий от Macil

Окей, я как раз таки не говорю, что хостер не прав. Тут вопрос об оперативной замене дисков. Просто с теми же жесткими или ssd, что поддерживают SMART Error Log - проблем нет - появились ошибки, диск по заявке меняют. А вот в случае с парой серверов - Лог не поддерживается. Вот и ищем, как оперативно мониторить. Пока что решили сделать по принципу - если его SMART overall-health перейдет из состояния PASSED - то будем подавать заявку на замену.

Vetedie ()
Ответ на: комментарий от rezedent12

Ну, это не так

Не встречал такого на sas, а на sata просто на лету встаёт шпиндель и всё. Сигейты этим иногда болеют.

olegkrutov ★★ ()
Ответ на: комментарий от legolegs

Так считывайте эти параметры регулярно

И кладите в базу, там и увидите динамику. А сам диск честно отдаёт что заявлено, в стандарте нет указаний, что нужно указывать тренд, ну кроме WORST VALUE, но оно нормализовано.

olegkrutov ★★ ()
Ответ на: Ну, зачем так категорично от olegkrutov

Re: Ну, зачем так категорично

Число релокейтов вполне однозначно, как и ошибок CRC, например.

Совсем неоднозначно. Никто по гарантии не будет менять накопитель с ненулевым (растущим) reallocated. И уж точно никто и никогда не обязывал вендоров писать туда монотонно и линейно возрастающее число.

Macil ★★★★★ ()
Ответ на: комментарий от Macil

За свою жизнь накопителей с ошибками смарта, я в глаза не видел.

Маленький у тебя опыт, дальше можно не читать.

steemandlinux ★★★★★ ()
Ответ на: Re: Ну, зачем так категорично от Macil

А это при чём?

Никто не говорит о возрастании или тем более гарантии, лишь о том, что параметр честно отражает число ошибок или имеющихся на данный момент релокейтов.

olegkrutov ★★ ()
Ответ на: комментарий от steemandlinux

Сейчас скажу. Значит KINGSTON SV300S37A120G - это в случае с Кингстонами И с Интелом - это - INTEL SSDSC2BW120H6, который идет как Intel 53x and Pro 2500 Series SSDs

Vetedie ()
Ответ на: комментарий от Vetedie

Все три хлам одноразовавый. Убей их. Записываешь 90%, остальные 10% много раз затираешь рандомом.

steemandlinux ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.