LINUX.ORG.RU
решено ФорумAdmin

short self test диска залип на 10%

 ,


0

3
smartctl -l selftest /dev/bus/0 -d sat+megaraid,12
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.3.0-62-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Self-test routine in progress 10%      8715         -

Я видел в Сети похожую проблему у чела и причиной была остановка шпинделя диска. У меня диск в рейде и все диски вроде как крутятся

/usr/sbin/megacli -PDList -aAll | grep -e state
Firmware state: Online, Spun Up
Firmware state: Online, Spun Up
Firmware state: Online, Spun Up
Firmware state: Online, Spun Up
Firmware state: Online, Spun Up
Firmware state: Online, Spun Up
Firmware state: Online, Spun Up
Firmware state: Online, Spun Up

Есть идеи как исправить ситуацию без даунтайма хоста?

★★★★★

Ответ на: комментарий от targitaj

Ну дак у тебя же массив отказоустойчивый? Выводи его, передёрни по питанию, протестируй вне массива, отдельно, и если раздуплится вводи обратно. Не раздуплится - меняй.

Jameson ★★★★★
()
Ответ на: комментарий от Jameson

Это вне моей компетенции, не говоря уже про удалённость ДЦ и допуски. Моя задача - понять возможно ли дать ему пинка удалённо. И дать рекомендации, если такой возможности нет.

targitaj ★★★★★
() автор топика
Ответ на: комментарий от targitaj

Да, возможно, вывести диск из массива, устроить ему перезапуск и обратно ввести можно удалённо, в консоли самого мегарайд. Вывести из массива и обратно ввести как минимум можно точно. И лампочкой на его корзине управлять тоже можно. И раз можно давать «рекомендации» — порекомендуй его вынуть и обратно вставить, после того как из массива его выведешь и лампочку на нём потушишь.

Jameson ★★★★★
()
Последнее исправление: Jameson (всего исправлений: 1)

7 из 8 дисков такие

smartctl --all /dev/bus/0 -d sat+megaraid,11 | grep -e ID -e Power_On_Hours
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       58571

Проблемный такой

smartctl --all /dev/bus/0 -d sat+megaraid,12 | grep -e ID -e Power_On_Hours
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  9 Power_On_Hours          0x0032   091   091   000    Old_age   Always       -       8716 (6 15 0)

Новый кусок гов... Ммммда.

targitaj ★★★★★
() автор топика
Ответ на: комментарий от targitaj

Ну меняй его нахер тогда. Можно вообще особо не церемониться так то, просто идентифицировать его корзину и попросить его вынуть, и минут через пять обратно вставить. Райд после его извлечения станет деградировавшим, но работоспособность сохранит. Дальше оттестируй этот диск отдельно и принимай решение, менять или обратно в райд вводить, с ребилдом.

Jameson ★★★★★
()

Есть идеи как исправить ситуацию без даунтайма хоста?

Что именно ты хочешь исправить и причём тут даунтайм?

У меня какой-то диск (а может и не один) с аналогичной проблемой годами работал и всё норм. Возможно, баг в прошивке, на остальные аспекты его работы не влияет. Если беспокоит запущеный тест, его можно отменить. Если беспокоит невозможность довести тест до конца (опасаешься что на диске ошибки, про которые ты не знаешь) - ну замени диск, он в массиве же? Вот и не будет дайнтайма.

Исправить в том плане, чтобы этот именно диск смог доделать тест - вряд ли получится, разве что перешить его как-то.

firkax ★★★★★
()
Последнее исправление: firkax (всего исправлений: 2)
Ответ на: комментарий от targitaj

Вообще если у тебя райд «как положено» сделан, и в нём предусмотрен hot spare диск, просто выводи этот диск из райда и меняй. Райд автоматически использует spare диск вместо этого и перестроится. А когда новый воткнёшь — сделай его spare, пусть он теперь в резерве стоит.

А вообще товарищ выше прав. Беспокоит что тест завис? Ну отмени его. Сильно беспокоит? Диск замени. А можно просто забить и заменить его когда он реально физически сдохнет совсем.

Если реально заняться нечем и сильно надирает — выведи его из массива, сделай оffline, потом online, отмени тест и запусти заново, причём можно сразу «большой тест», он всё равно у тебя вне массива. И потом принимай решение, вводить его в массив обратно или менять.

Jameson ★★★★★
()
Последнее исправление: Jameson (всего исправлений: 3)
Ответ на: комментарий от targitaj

Блин, ну чего ты как маленький? Пять звёзд, я тебя уже кучу лет читаю, ну man smartctl же! И там читай раздел «SMART RUN/ABORT OFFLINE TEST AND self-test OPTIONS:». smartctl -X /dev/bus/0 -d sat+megaraid,12

Jameson ★★★★★
()
Ответ на: комментарий от targitaj

Как по мне просто, ты либо можешь всё это проделать удалённо, либо у тебя лапки\нет прав\полномочий, и тогда непонятно зачем ты всё это тут спрашиваешь, раз управлять не можешь. Технически имея доступ к консоли megacli и smartctl ты можешь и конфигурацию райда выяснить, и определить есть ли у него hotspare диск, и проделать все нужные манипуляции.

Jameson ★★★★★
()
Ответ на: комментарий от targitaj

Ну посещение тебе понадобится только в случае если ты решишь физически диск заменить. Но, он у тебя не сломан! Глючит, но не сломан. Я бы предложил тебе просто тест отменить и не париться, когда он физически откажет — тогда и заменишь. Сразу посмотри конфигурацию райда через megacli, если там есть hotspare вообще никаких проблем, диск сдохнет, hotspare диск его заменит, отряд не заметит потери бойца, а ты заменишь сдохший диск путём физического визита в удобное тебе время, без спешки. И сделаешь его spare, пусть он теперь в резерве висит. Опять таки, если есть hotspare, и тебя всё равно эта ситуация беспокоит, как выше писал я, выведи диск из массива, выключи\включи через offline\online, обычно эта процедура питание тоже выключает\включает, оттестируй «большим» offline тестом и прими решение, заменить его или вернуть обратно в строй.

А если hotspare нет — чуточку сложнее, так как пока ты диск тестируешь и решаешь массив чуточку деграднёт и надёжность чуточку понизится.

Jameson ★★★★★
()
smartctl -l selftest /dev/bus/0 -d sat+megaraid,12
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.3.0-62-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Aborted by host               10%      8717         -

ммммда. Штош, подождём...

targitaj ★★★★★
() автор топика
Ответ на: комментарий от targitaj
smartctl -l selftest /dev/bus/0 -d sat+megaraid,12
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.3.0-62-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Self-test routine in progress 90%      8717         -
# 2  Short offline       Aborted by host               90%      8717         -
# 3  Short offline       Aborted by host               10%      8717         -

новые диски...

targitaj ★★★★★
() автор топика
Ответ на: комментарий от targitaj

Вообще в выхлопе не зря написано что это offline тест. Он хотя и короткий, примерно две минуты, но проводится в момент когда к диску нет других обращений, и прерывается если обращения есть. В райде как ты понимаешь его дёргают непрерывно, так что неудивительно что offline тесты на дисках входящих в массив могут завершиться нескоро\никогда.

Хочешь «честного и объективного» тестирования — делай его на выведенных из массива дисках. А вообще диски и так имеют функцию автоматического периодического online самотестирования, результаты которого в лог не записываются, но отражаются в smart атрибутах, которые читает райд контроллер.

Дополнительно сам контроллер периодически делает scrub для массива, что является вторым уровнем контроля надёжности. Так что запускать тесты smart вручную, тем более на включённых в массив дисках, избыточно. И я бы сказал бессмысленно.

Jameson ★★★★★
()
Ответ на: комментарий от targitaj

Ну возможно это какая то особенность прошивки конкретно этого диска, например у него тестирование не возобновляется после того как райд его подёргал, а у других возобновляется. Это ничего не показывает и не доказывает, в любом случае запускать вручную тесты smart на дисках включённых в массив не нужно, это избыточно и результат как видишь может быть «странным».

Для одиночного выведенного из массива диска — всегда пожалуйста, для «системного» смонтированного диска — тоже вариант, там обращения к нему менее частые, и если из трёх тестов например два подвиснут по причине «глючной» прошивки, а третий завершится ошибок не обнаружив — это тоже нормально. Но для нормального аппаратного райда с мозгами всё это избыточно, он сам заботится о «здоровье» дисков и предпримет меры если диску станет плохо.

Jameson ★★★★★
()
Ответ на: комментарий от Jameson

результат как видишь может быть «странным».

Массив ни при чём, у меня такое было на обычной однодисковой системе без наворотов. И нет, это не случайно не повезло с одним тестом, а именно сбойный контроллер диска в этом аспекте - он всегда виснет на тесте.

Но для нормального аппаратного райда с мозгами всё это избыточно, он сам заботится о «здоровье» дисков и предпримет меры если диску станет плохо.

«Плохо» в понимании контроллера это когда диск уже сдох, или почти сдох. Если мониторить смарт, то об этом можно иногда заранее узнать, кому-то будет не лишним.

firkax ★★★★★
()
Ответ на: комментарий от targitaj

Скачай storcli, она имеет намного менее обосранный синтаксис, чем CaMelCaSe megacli, от которого хочется перманентно блевать

Dimez ★★★★★
()
Последнее исправление: Dimez (всего исправлений: 1)
Ответ на: комментарий от firkax

Массив ни при чём, у меня такое было на обычной однодисковой системе без наворотов. И нет, это не случайно не повезло с одним тестом, а именно сбойный контроллер диска в этом аспекте - он всегда виснет на тесте.

А на отмонтированном диске точно так же тест зависал? Если тест проводить так как собсно он и задуман, в оффлайн режиме накопителя? Я уже выше об этом писал, дабы не провоцировать отвал во время теста из за тех людей которые запускают тесты смарт на смонтированных или входящих в массивы дисках предусмотрено прерывание тестирования при любом обращении к диску. Затем оно должно продолжиться, по идее, но не всегда так происходит. На отмонтированном диске проведению теста точно ничего не помешает.

«Плохо» в понимании контроллера это когда диск уже сдох, или почти сдох. Если мониторить смарт, то об этом можно иногда заранее узнать, кому-то будет не лишним.

ЕМНИП многие райды умеют по смарт определять предотказное состояние диска без запуска offline тестирования, аналогично это можно делать и самому, совсем не обязательно для этого форсированно тесты гонять, диск и так сам себя тестирует периодически и атрибуты своего износа в смарт отображает.

Offline тесты нужны не для периодической проверки, они скорее для ревизионного тестирования перед заменой, переустановкой в другой комп, или при получении «на руки» неизвестного диска, с целью проверки его здоровья. То что «короткий» тест можно гонять без размонтирования носителя не означает что так нужно делать.

Jameson ★★★★★
()
Последнее исправление: Jameson (всего исправлений: 1)
Ответ на: комментарий от Kron4ek

я тесты делаю очень редко, но, думаю, в моем случае исчезновение файлов с ssd и гибель пары ssd связаны именно с багами в контроллере. Хоть тут «знающие» бьют себя в грудь и говорят ссд живее всех живых ) В германии совсем недавно писали о гибели дорогущих 4Т ssd.

Понятное дело можно по гарантии поменять, хотя уже это морока и потеря времени, но файлы не вернуть.

monkdt
()
Последнее исправление: monkdt (всего исправлений: 1)