LINUX.ORG.RU

Коллеги, подскажите что с дисками..?!

 , , ,


1

2

Господа, имеется такое безобразие (на нескольких серверах):

  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       1

При этом: zfs scrub, например, проходит успешно. В итоге, получаем alerts, что диску хана, а по факту scrub - говорит что всё ок. Но диск не полностью полон.

Как правильно поступать в такой ситуации? Менять диск не обращая внимания на zfs? Проводить низкоуровневый формат и надеяться что уберутся ошибки? Или просто выбросить такие диски и забыть?

★★★★★

что с дисками

1 (один) нечитаемый, ещё не переназначенный сектор.

получаем alerts, что диску хана

Откуда alerts? Я не вижу в цитате нормализованных значений ниже порога критичности. Или у тебя что-то орёт, когда Current_Pending_Sector > 0 || Offline_Uncorrectable > 0?

scrub - говорит что всё ок

Видимо, повезло и сектор не был ничем занят.

Как правильно поступать в такой ситуации?

Посмотреть в SMART-логи, узнать оттуда номер сбойного сектора, принудительно переназначить сектор записью в него (я, кстати, до сих пор удивляюсь, что в ATA/SCSI/SMART/где угодно нет команд, которые бы делали это автоматически). Начинать думать над заменой диска (т. е. как минимум включить RAID и держать запаску под рукой).

intelfx ★★★★★ ()
Последнее исправление: intelfx (всего исправлений: 2)
Ответ на: комментарий от intelfx

1 (один) нечитаемый, ещё не переназначенный сектор.

Ок!

Откуда alerts? Я не вижу в цитате нормализованных значений ниже порога критичности. Или у тебя что-то орёт, когда Current_Pending_Sector > 0 || Offline_Uncorrectable > 0?

Да всё орет. У меня freenas, или на linux smartd - всё это добро начинает жутко орать...

Посмотреть в SMART-логи, узнать номер сбойного сектора, переназначить сектор вручную записью в него (я, кстати, до сих пор удивляюсь, что в ATA/SCSI/SMART/где угодно нет команд, которые бы делали это автоматически).

Буду рад примеру. :) - Интересно мне прямо попробовать.

Начинать думать над заменой диска.

В общем, на пустом месте такого возникать не должно? - У меня есть один сервер, на котором такая ситуация уже давно, просто уже не обращаю внимание. И за пару лет не увеличилось вроде, ничего. В общем, лучше заменить, да?

DALDON ★★★★★ ()
Ответ на: комментарий от DALDON

Буду рад примеру. :) - Интересно мне прямо попробовать.

Гм. Я был уверен, что у меня почти на каждом диске есть/были сбойные сектора. Сейчас посмотрел — нет ни на одном.

Вот древний скрипт для колхозной реанимации дисков со сбойными секторами: https://github.com/intelfx/bin/blob/master/system/smartreallocate.sh

Там в цикле запускается выборочный тест поверхности (с места последней остановки), парсится вывод smartctl на предмет первого сбойного сектора и выполняется запись в этот сектор мимо кэшей через hdparm.

Тебе тест запускать не нужно, нужно посмотреть в логи через smartctl -l error.

В общем, лучше заменить, да?

В зависимости от степени твоей энтерпрайзности. :) Если это файлопомойка с рейдом и за несколько лет диску не стало хуже — я бы забил.

intelfx ★★★★★ ()
Ответ на: комментарий от intelfx

Вот гляди:

[root@storage] ~# smartctl -a /dev/ada5 | grep -e 197 -e 198 -e Reallocated_Sector_Ct
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       1




[root@storage] ~# smartctl -l error /dev/ada5
smartctl 6.5 2016-05-07 r4318 [FreeBSD 10.3-STABLE amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Error Log Version: 1
No Errors Logged

Как, это, нахрен, понимать..?! :)

DALDON ★★★★★ ()
Последнее исправление: DALDON (всего исправлений: 1)
Ответ на: комментарий от DALDON

А, ну так всё правильно. Я не подумал. Если ты говоришь, что ФС не находит ошибок, значит, сбойный сектор нашёлся не в процессе чтения с диска, а в процессе самотестирования. А ошибки самотестирования в этот лог не попадают.

Посмотри smartctl -l xselftest,selftest -l selective. Если и там ничего не будет — запусти smartctl -t long или smartctl -t select,0-max.

intelfx ★★★★★ ()
Последнее исправление: intelfx (всего исправлений: 2)
Ответ на: комментарий от intelfx

Гм. Я был уверен, что у меня почти на каждом диске есть/были сбойные сектора. Сейчас посмотрел — нет ни на одном.

В работе сейчас 4 диска с ненулевыми значениями. Я сначала трепыхался, потом посмотрел, что недели идут, а значения не растут, и забил. Так они и пашут 4-й год с алертами.

devzero ()
Ответ на: комментарий от intelfx
[root@storage] ~# smartctl -l xselftest /dev/ada5

=== START OF READ SMART DATA SECTION ===
SMART Extended Self-test Log Version: 1 (1 sectors)
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

[root@storage] ~# smartctl -l selftest /dev/ada5

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

[root@storage] ~# smartctl -l selective /dev/ada5

=== START OF READ SMART DATA SECTION ===
SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Спасибо за годные советы, я не знал этих команд.

Вывод пока не особо понял, в первой команде, вижу:

SMART Extended Self-test Log Version: 1 (1 sectors)

Не всасываю, но, кажется это не об этом.

В общем, нету ничего такого, откуда тогда оно появилось, если в self test это тоже не выполнялось..?

smartctl -t long или smartctl -t select,0-max.

С данными не случится ничего? :)

DALDON ★★★★★ ()
Последнее исправление: DALDON (всего исправлений: 2)
Ответ на: комментарий от DALDON

SMART Extended Self-test Log Version: 1 (1 sectors)

Не всасываю, но, кажется это не об этом.

Не. Это о том, что сам лог занимает на диске один сектор.

В общем, нету ничего такого, откуда тогда оно появилось, если в self test это тоже не выполнялось..?

Да, я тоже в недоумении. :)

С данными не случится ничего?

Нет, это всё R/O тесты.

intelfx ★★★★★ ()
Ответ на: комментарий от intelfx

Не. Это о том, что сам лог занимает на диске один сектор.

Оуч. Спасибо!

Да, я тоже в недоумении. :)

Нет, это всё R/O тесты.

Усёк. Попробую замутить! О результате отпишусь.

DALDON ★★★★★ ()
Ответ на: комментарий от intelfx

Настрой дифференциальные алерты.

Мне стыдно, но я не знаю о чем это. :) У меня в целом, всё довольно примитивно, и по-умолчанию. - Все что сыплет руту, падает мне в почту.

DALDON ★★★★★ ()
Ответ на: комментарий от DALDON

А, просто письма от smartd, что ли? Ну я не имел в виду чего-то конкретного. Если ты юзаешь какой-то продвинутый мониторинг, его можно было бы настроить так, чтобы он сыпал алертами только об изменении показателей (типа edge-triggered).

intelfx ★★★★★ ()
Ответ на: комментарий от DALDON

Без понятия. Я ненастоящий админ. У меня есть домашняя файлопомойка — там крутится netdata с самописной обёрткой над smartctl на питоне и prometheus-стек (prometheus+alertmanager+grafana), а больше я ничего и не умею. Zabbix вообще обхожу за километр.

intelfx ★★★★★ ()
Последнее исправление: intelfx (всего исправлений: 1)
Ответ на: комментарий от intelfx

Спасибо! Я тоже не админ, а фиг пойми кто уже) Скорее бухгалтер. Отошел от этих дел, уже всё позабыл. Погляжу. В grafana потыкал тут давича: годная штука)

DALDON ★★★★★ ()

К вышесказанному добавлю что на некоторых прошивках WD, при наличии pending-секторов, начинают блокировать обмен по интерфейсу. Прошивки не всегда лишены багов.

VKraft ()
Последнее исправление: VKraft (всего исправлений: 1)

Ты читать не умеешь? С диском всё хорошо, только один сектор потенциально может быть ремапнут. Даже ремапнутые секторы не проблема, если число небольшое и не растёт. Ничего не надо с этим диском делать, алерты выключить и уволить идиота что их настроил.

slovazap ★★★★★ ()

Один сбойный сектор, тем более на zfs, означает. что надо повесить алерт на дальнюю периферию сознания, что, возможно, через какое-то время нужно будет покупать диск. Всё. Если диску станет совсем плохо и он будет сыпать ошибки r/w, то zfs его тупо выкинет из массива.

Freenas - не самый лучший вариант, nas4free гораздо лучше и мейнстримнее. А, учитывая то, что freebsd планирует переход на zol - linux лучший выбор для файлохранилки.

Dimez ★★★★★ ()
Ответ на: комментарий от slovazap

Ты читать не умеешь? С диском всё хорошо, только один сектор потенциально может быть ремапнут.

Ты читал, что я в начале написал, что у меня таких дисков не один, не два... - В разных серверах. А поведение, похожее... Я, собственно концептуально спрашиваю, что не так в консерватории.

DALDON ★★★★★ ()
Ответ на: комментарий от Dimez

Один сбойный сектор, тем более на zfs, означает.

А что такого магического сделает zfs? - Нихрена она не сделает, насколько я понимаю. При чтении, если с одного из диска не получится прочитать информацию, она просто повесит ошибку чтения на сбойный диск и массив перейдёт в состояние деградации. Было бы круто, если zfs мог бы взять любой свободный кусок на файловой системе и заюзать его. Но, это мечты, насколько я понимаю. Так что с чудом я тут пока не сталкивался... :(

DALDON ★★★★★ ()
Ответ на: комментарий от Dimez

Freenas - не самый лучший вариант, nas4free гораздо лучше и мейнстримнее. А, учитывая то, что freebsd планирует переход на zol - linux лучший выбор для файлохранилки.

У меня продуктив. Менять просто так, что-то на что-то я не готовый. :( Планируют они уже давно переход на zol, но пока не вижу подвижек. Есть вариант перехода с Freenas на nas4free, без геммороя с настройками прав доступа и т.д.? У меня всё это добро в домене samba и т.д. :)

P.S. - а уже есть линукс с состоянием доведенным до ума, уровня freenas? Я когда-то смотрел, больше были на поделки похожи, чем на что-то годное.

DALDON ★★★★★ ()
Ответ на: комментарий от slovazap

Ты читать не умеешь? С диском всё хорошо, только один сектор потенциально может быть ремапнут.

Вот с хренов ли диск это взял, если в логах smart никаких ни selftest, никаких просто ошибок нету? Я вот не умник, по тому спрашиваю, у тех, кто может подсказать. Ты из умных? Или только потрындеть/поумничать?

DALDON ★★★★★ ()
Ответ на: комментарий от DALDON

да.. )) перекупка и поглощения друг друга сказались на качестве но заводы таки разные, разная зарплата, экономика, тестирование и всё такое. вот такие уже больше двух лет пашут https://www.nix.ru/autocatalog/hdd_ibm_hitachi/HDD-3-Tb-SATA-6Gb-s-HGST-Ultra... 12шт в 10-м рейде

VKraft ()
Ответ на: комментарий от King_Carlo

Пока на уровне ощущений, но судя по количеству отказов HDD, уже действительно SSD было бы не намного дороже. Полагаю, что даже TLC решения с защитой от потери данных при пропадании питания, и серверного класса - сейчас, например, Intel появляются, уже были бы по стоимости сопоставимы с механикой, которой я в последнее время уже много поменял... :(

DALDON ★★★★★ ()
Ответ на: комментарий от DALDON

HDD сейчас - это примерно как дискеты 3,5" в конце прошлого тысячелетия. Качество падало (умышленно) настолько стремительно, что ими уже невозможно было пользоваться. История делает виток, всё повторяется.

King_Carlo ★★★★★ ()
Ответ на: комментарий от Dimez

А, учитывая то, что freebsd планирует переход на zol - linux лучший выбор для файлохранилки.

А если учитывать три попытки прикрутить TRIM к ZoL за последние шесть лет и внезапное появление TRIM в последнем RC ZoL, c подозрительно знакомыми по коммитам в бсдшный ZFS именами? Может даже жор CPU и ОЗУ в ZoL уберут.

anonymous ()
Ответ на: комментарий от King_Carlo

Согласен, для десктопа это так. Для больших объёмов данных цена/качество твердотельников пока не выигрывает у классических HDD так что тут пока ещё не всё умерло.

VKraft ()
Ответ на: комментарий от VKraft

Согласен, для десктопа это так.

Десктопы ушли на ssd уже лет 5-7 как. Я про серверы,все свои стораджи уже перевёл на ssd, людям нужны iops-ы, а уже потом объёмы.

King_Carlo ★★★★★ ()
Последнее исправление: King_Carlo (всего исправлений: 1)
Ответ на: комментарий от King_Carlo

trim абсолютно бесполезен и, следовательно, никому не нужен.

Обоснуете? - Я на уровне ощущений с этим согласен. А вот подтвердить мне нечем особо свои ощущения :)

Ощущения у меня базируются на том факте, что сейчас, мы очень мало что-то пишем и что-то перезаписываем. - Мы только дописываем, как правило... - А следовательно, trim, бесполезен. - Ну точнее, мало полезен.

DALDON ★★★★★ ()
Последнее исправление: DALDON (всего исправлений: 1)
Ответ на: комментарий от King_Carlo

Хорошо. Сколько записей на диск в месяц/год и сколько они проживут? У меня для 10-х рейдов всегда узкое горло это сеть если в стрейпе более 4-5 дисков. Цена, диагностика, замена всё ясно понятно. Как с SSD? Это вопрос с экономической точки зрения.

VKraft ()
Последнее исправление: VKraft (всего исправлений: 1)
Ответ на: комментарий от DALDON

При чтении, если с одного из диска не получится прочитать информацию, она просто повесит ошибку чтения на сбойный диск и массив перейдёт в состояние деградации.

А мужики то и не знают. ага :)

Dimez ★★★★★ ()
Ответ на: комментарий от King_Carlo

Trim даёт буст максимум в 5%, что +/- погрешность.

Отсутствие trim даёт частую перезапись ячеек накопителей и write amplification и вытекающую из них низкую скорость и малое количество IOPS'ов. TRIM - ещё как нужен.

Dimez ★★★★★ ()
Ответ на: комментарий от King_Carlo

Понятия не имею, я купил пол года назад много 860 pro, пока все живы. Когда начнут сыпаться напишу.

Решил посмотреть что это такое: https://www.nix.ru/autocatalog/ssd_samsung/SSD-1-Tb-SATA-6Gb-s-Samsung-860-PR...

Вот тут пишут, что оно не подходит для серверов... - Вы их для чего купили..? Я так понимаю, у них нету ионистора/конденсатора, а так же область SLC крошечная... - Я прав?

DALDON ★★★★★ ()
Последнее исправление: DALDON (всего исправлений: 1)