short self test диска залип на 10%

0

3

smartctl -l selftest /dev/bus/0 -d sat+megaraid,12
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.3.0-62-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Self-test routine in progress 10%      8715         -

Я видел в Сети похожую проблему у чела и причиной была остановка шпинделя диска. У меня диск в рейде и все диски вроде как крутятся

/usr/sbin/megacli -PDList -aAll | grep -e state
Firmware state: Online, Spun Up
Firmware state: Online, Spun Up
Firmware state: Online, Spun Up
Firmware state: Online, Spun Up
Firmware state: Online, Spun Up
Firmware state: Online, Spun Up
Firmware state: Online, Spun Up
Firmware state: Online, Spun Up

Есть идеи как исправить ситуацию без даунтайма хоста?

Ссылка

← kvm/qemu эмуляция nvme

Dovecot плевать на имена eml файлов? →

Пробовал запустить long test - ситуация не изменилась.

targitaj ★★★★★
(17.05.23 17:28:49 MSK) автор топика

Ссылка

Вроде некоторые диски просто-напросто не рапортируют прогресс селфтеста. Как долго тест оставался залипшим, прежде чем ты решил, что хватит?

token_polyak ★★★★★
(17.05.23 17:33:36 MSK)

Ответ на: комментарий от token_polyak 17.05.23 17:33:36 MSK

Больше месяца.

targitaj ★★★★★
(17.05.23 17:34:34 MSK) автор топика

Ответ на: комментарий от targitaj 17.05.23 17:34:34 MSK

Прокрестился и убежал.

token_polyak ★★★★★
(17.05.23 17:35:47 MSK)

Ответ на: комментарий от token_polyak 17.05.23 17:35:47 MSK

Именно, да.

targitaj ★★★★★
(17.05.23 17:37:46 MSK) автор топика

Ссылка

Это на всех дисках одновременно такое безобразие?

Jameson ★★★★★
(17.05.23 17:42:12 MSK)

Ответ на: комментарий от Jameson 17.05.23 17:42:12 MSK

Нет, на конкретно этом хосте 1 из 8 подвис в таком виде.

targitaj ★★★★★
(17.05.23 17:45:10 MSK) автор топика

Ответ на: комментарий от targitaj 17.05.23 17:45:10 MSK

Ну дак у тебя же массив отказоустойчивый? Выводи его, передёрни по питанию, протестируй вне массива, отдельно, и если раздуплится вводи обратно. Не раздуплится - меняй.

Jameson ★★★★★
(17.05.23 17:52:01 MSK)

Ответ на: комментарий от Jameson 17.05.23 17:52:01 MSK

Это вне моей компетенции, не говоря уже про удалённость ДЦ и допуски. Моя задача - понять возможно ли дать ему пинка удалённо. И дать рекомендации, если такой возможности нет.

targitaj ★★★★★
(17.05.23 17:53:54 MSK) автор топика

Ответ на: комментарий от targitaj 17.05.23 17:53:54 MSK

Да, возможно, вывести диск из массива, устроить ему перезапуск и обратно ввести можно удалённо, в консоли самого мегарайд. Вывести из массива и обратно ввести как минимум можно точно. И лампочкой на его корзине управлять тоже можно. И раз можно давать «рекомендации» — порекомендуй его вынуть и обратно вставить, после того как из массива его выведешь и лампочку на нём потушишь.

Jameson ★★★★★
(17.05.23 17:56:26 MSK)
Последнее исправление: Jameson 17.05.23 17:58:22 MSK (всего исправлений: 1)

7 из 8 дисков такие

smartctl --all /dev/bus/0 -d sat+megaraid,11 | grep -e ID -e Power_On_Hours
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       58571

Проблемный такой

smartctl --all /dev/bus/0 -d sat+megaraid,12 | grep -e ID -e Power_On_Hours
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  9 Power_On_Hours          0x0032   091   091   000    Old_age   Always       -       8716 (6 15 0)

Новый кусок гов... Ммммда.

targitaj ★★★★★
(17.05.23 17:59:15 MSK) автор топика

Ответ на: комментарий от Jameson 17.05.23 17:56:26 MSK

устроить ему перезапуск

подскажи как это сделать, пожалуйста

targitaj ★★★★★
(17.05.23 18:02:44 MSK) автор топика

Ответ на: комментарий от targitaj 17.05.23 17:59:15 MSK

Ну меняй его нахер тогда. Можно вообще особо не церемониться так то, просто идентифицировать его корзину и попросить его вынуть, и минут через пять обратно вставить. Райд после его извлечения станет деградировавшим, но работоспособность сохранит. Дальше оттестируй этот диск отдельно и принимай решение, менять или обратно в райд вводить, с ребилдом.

Jameson ★★★★★
(17.05.23 18:03:14 MSK)

Ссылка

Ответ на: комментарий от targitaj 17.05.23 18:02:44 MSK

https://wiki.colobridge.net/полезное/советы/шпаргалка_по_megacli

Там читай про offline и online. Ну и вообще, там самоочевидно...

Jameson ★★★★★
(17.05.23 18:06:23 MSK)

Ссылка

Есть идеи как исправить ситуацию без даунтайма хоста?

Что именно ты хочешь исправить и причём тут даунтайм?

У меня какой-то диск (а может и не один) с аналогичной проблемой годами работал и всё норм. Возможно, баг в прошивке, на остальные аспекты его работы не влияет. Если беспокоит запущеный тест, его можно отменить. Если беспокоит невозможность довести тест до конца (опасаешься что на диске ошибки, про которые ты не знаешь) - ну замени диск, он в массиве же? Вот и не будет дайнтайма.

Исправить в том плане, чтобы этот именно диск смог доделать тест - вряд ли получится, разве что перешить его как-то.

firkax ★★★★★
(17.05.23 18:13:02 MSK)
Последнее исправление: firkax 17.05.23 18:14:49 MSK (всего исправлений: 2)

Ответ на: комментарий от targitaj 17.05.23 18:02:44 MSK

Вообще если у тебя райд «как положено» сделан, и в нём предусмотрен hot spare диск, просто выводи этот диск из райда и меняй. Райд автоматически использует spare диск вместо этого и перестроится. А когда новый воткнёшь — сделай его spare, пусть он теперь в резерве стоит.

А вообще товарищ выше прав. Беспокоит что тест завис? Ну отмени его. Сильно беспокоит? Диск замени. А можно просто забить и заменить его когда он реально физически сдохнет совсем.

Если реально заняться нечем и сильно надирает — выведи его из массива, сделай оffline, потом online, отмени тест и запусти заново, причём можно сразу «большой тест», он всё равно у тебя вне массива. И потом принимай решение, вводить его в массив обратно или менять.

Jameson ★★★★★
(17.05.23 18:16:36 MSK)
Последнее исправление: Jameson 17.05.23 18:25:36 MSK (всего исправлений: 3)

Ответ на: комментарий от firkax 17.05.23 18:13:02 MSK

Если беспокоит запущеный тест, его можно отменить.

а так можно?? А как это сделать?

targitaj ★★★★★
(17.05.23 19:01:26 MSK) автор топика

Ответ на: комментарий от Jameson 17.05.23 18:16:36 MSK

Не всё это так просто, говорю же, ну.

targitaj ★★★★★
(17.05.23 19:01:43 MSK) автор топика

Ответ на: комментарий от targitaj 17.05.23 19:01:26 MSK

Блин, ну чего ты как маленький? Пять звёзд, я тебя уже кучу лет читаю, ну man smartctl же! И там читай раздел «SMART RUN/ABORT OFFLINE TEST AND self-test OPTIONS:». smartctl -X /dev/bus/0 -d sat+megaraid,12

Jameson ★★★★★
(17.05.23 19:11:35 MSK)

Ответ на: комментарий от targitaj 17.05.23 19:01:43 MSK

Как по мне просто, ты либо можешь всё это проделать удалённо, либо у тебя лапки\нет прав\полномочий, и тогда непонятно зачем ты всё это тут спрашиваешь, раз управлять не можешь. Технически имея доступ к консоли megacli и smartctl ты можешь и конфигурацию райда выяснить, и определить есть ли у него hotspare диск, и проделать все нужные манипуляции.

Jameson ★★★★★
(17.05.23 19:16:40 MSK)

Ответ на: комментарий от Jameson 17.05.23 19:11:35 MSK

Сорян, голова перегружена. Въезжаю в новую для себя тему и голова постоянно опухшая.

targitaj ★★★★★
(17.05.23 19:18:41 MSK) автор топика

Ответ на: комментарий от Jameson 17.05.23 19:16:40 MSK

и тогда непонятно зачем ты всё это тут спрашиваешь, раз управлять не можешь

если я не смогу удалённо, я сформирую задачу для посещения ДЦ.

targitaj ★★★★★
(17.05.23 19:19:31 MSK) автор топика

Ответ на: комментарий от targitaj 17.05.23 19:19:31 MSK

Ну посещение тебе понадобится только в случае если ты решишь физически диск заменить. Но, он у тебя не сломан! Глючит, но не сломан. Я бы предложил тебе просто тест отменить и не париться, когда он физически откажет — тогда и заменишь. Сразу посмотри конфигурацию райда через megacli, если там есть hotspare вообще никаких проблем, диск сдохнет, hotspare диск его заменит, отряд не заметит потери бойца, а ты заменишь сдохший диск путём физического визита в удобное тебе время, без спешки. И сделаешь его spare, пусть он теперь в резерве висит. Опять таки, если есть hotspare, и тебя всё равно эта ситуация беспокоит, как выше писал я, выведи диск из массива, выключи\включи через offline\online, обычно эта процедура питание тоже выключает\включает, оттестируй «большим» offline тестом и прими решение, заменить его или вернуть обратно в строй.

А если hotspare нет — чуточку сложнее, так как пока ты диск тестируешь и решаешь массив чуточку деграднёт и надёжность чуточку понизится.

Jameson ★★★★★
(17.05.23 19:27:20 MSK)

Ссылка

smartctl -l selftest /dev/bus/0 -d sat+megaraid,12
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.3.0-62-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Aborted by host               10%      8717         -

ммммда. Штош, подождём...

targitaj ★★★★★
(17.05.23 19:30:52 MSK) автор топика

Ответ на: комментарий от targitaj 17.05.23 19:30:52 MSK

Всмысле подождём физического отказа? Логично. Если ты собрался ждать пока эта запись исчезнет, она не исчезнет, это лог.

Jameson ★★★★★
(17.05.23 19:32:55 MSK)

Ответ на: комментарий от Jameson 17.05.23 19:32:55 MSK

В голосину, спасибо )))

targitaj ★★★★★
(17.05.23 19:35:59 MSK) автор топика

Ссылка

Ответ на: комментарий от targitaj 17.05.23 19:30:52 MSK

smartctl -l selftest /dev/bus/0 -d sat+megaraid,12
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.3.0-62-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Self-test routine in progress 90%      8717         -
# 2  Short offline       Aborted by host               90%      8717         -
# 3  Short offline       Aborted by host               10%      8717         -

новые диски...

targitaj ★★★★★
(17.05.23 19:39:19 MSK) автор топика

Ответ на: комментарий от targitaj 17.05.23 19:39:19 MSK

Вообще в выхлопе не зря написано что это offline тест. Он хотя и короткий, примерно две минуты, но проводится в момент когда к диску нет других обращений, и прерывается если обращения есть. В райде как ты понимаешь его дёргают непрерывно, так что неудивительно что offline тесты на дисках входящих в массив могут завершиться нескоро\никогда.

Хочешь «честного и объективного» тестирования — делай его на выведенных из массива дисках. А вообще диски и так имеют функцию автоматического периодического online самотестирования, результаты которого в лог не записываются, но отражаются в smart атрибутах, которые читает райд контроллер.

Дополнительно сам контроллер периодически делает scrub для массива, что является вторым уровнем контроля надёжности. Так что запускать тесты smart вручную, тем более на включённых в массив дисках, избыточно. И я бы сказал бессмысленно.

Jameson ★★★★★
(17.05.23 19:48:30 MSK)

Ответ на: комментарий от Jameson 17.05.23 19:48:30 MSK

Слушай, ну это странно звучит. На 7 из 8 дисков нормально селф-тест выполняется в любое время.

targitaj ★★★★★
(17.05.23 19:56:30 MSK) автор топика

Ответ на: комментарий от targitaj 17.05.23 19:56:30 MSK

Ну возможно это какая то особенность прошивки конкретно этого диска, например у него тестирование не возобновляется после того как райд его подёргал, а у других возобновляется. Это ничего не показывает и не доказывает, в любом случае запускать вручную тесты smart на дисках включённых в массив не нужно, это избыточно и результат как видишь может быть «странным».

Для одиночного выведенного из массива диска — всегда пожалуйста, для «системного» смонтированного диска — тоже вариант, там обращения к нему менее частые, и если из трёх тестов например два подвиснут по причине «глючной» прошивки, а третий завершится ошибок не обнаружив — это тоже нормально. Но для нормального аппаратного райда с мозгами всё это избыточно, он сам заботится о «здоровье» дисков и предпримет меры если диску станет плохо.

Jameson ★★★★★
(17.05.23 20:04:24 MSK)

Ответ на: комментарий от Jameson 17.05.23 20:04:24 MSK

результат как видишь может быть «странным».

Массив ни при чём, у меня такое было на обычной однодисковой системе без наворотов. И нет, это не случайно не повезло с одним тестом, а именно сбойный контроллер диска в этом аспекте - он всегда виснет на тесте.

Но для нормального аппаратного райда с мозгами всё это избыточно, он сам заботится о «здоровье» дисков и предпримет меры если диску станет плохо.

«Плохо» в понимании контроллера это когда диск уже сдох, или почти сдох. Если мониторить смарт, то об этом можно иногда заранее узнать, кому-то будет не лишним.

firkax ★★★★★
(17.05.23 23:26:03 MSK)

У меня такая же фигня на SSD, пишет что тест в процессе 50%, и все. Уже два месяца прошло, а все еще 50%, очевидно какая-то особенность/баг прошивки.

Kron4ek ★★★★★
(17.05.23 23:29:55 MSK)

Ответ на: комментарий от Kron4ek 17.05.23 23:29:55 MSK

Если это ноут (mb слип), то норм, вырубить и перезапустить заново дождавшись результата.

anc ★★★★★
(18.05.23 00:40:12 MSK)

Ссылка

Ответ на: комментарий от targitaj 17.05.23 19:18:41 MSK

Скачай storcli, она имеет намного менее обосранный синтаксис, чем CaMelCaSe megacli, от которого хочется перманентно блевать

Dimez ★★★★★
(18.05.23 00:43:10 MSK)
Последнее исправление: Dimez 18.05.23 00:44:41 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от firkax 17.05.23 23:26:03 MSK

Массив ни при чём, у меня такое было на обычной однодисковой системе без наворотов. И нет, это не случайно не повезло с одним тестом, а именно сбойный контроллер диска в этом аспекте - он всегда виснет на тесте.

А на отмонтированном диске точно так же тест зависал? Если тест проводить так как собсно он и задуман, в оффлайн режиме накопителя? Я уже выше об этом писал, дабы не провоцировать отвал во время теста из за тех людей которые запускают тесты смарт на смонтированных или входящих в массивы дисках предусмотрено прерывание тестирования при любом обращении к диску. Затем оно должно продолжиться, по идее, но не всегда так происходит. На отмонтированном диске проведению теста точно ничего не помешает.

«Плохо» в понимании контроллера это когда диск уже сдох, или почти сдох. Если мониторить смарт, то об этом можно иногда заранее узнать, кому-то будет не лишним.

ЕМНИП многие райды умеют по смарт определять предотказное состояние диска без запуска offline тестирования, аналогично это можно делать и самому, совсем не обязательно для этого форсированно тесты гонять, диск и так сам себя тестирует периодически и атрибуты своего износа в смарт отображает.

Offline тесты нужны не для периодической проверки, они скорее для ревизионного тестирования перед заменой, переустановкой в другой комп, или при получении «на руки» неизвестного диска, с целью проверки его здоровья. То что «короткий» тест можно гонять без размонтирования носителя не означает что так нужно делать.

Jameson ★★★★★
(18.05.23 08:59:44 MSK)
Последнее исправление: Jameson 18.05.23 09:15:07 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Kron4ek 17.05.23 23:29:55 MSK

я тесты делаю очень редко, но, думаю, в моем случае исчезновение файлов с ssd и гибель пары ssd связаны именно с багами в контроллере. Хоть тут «знающие» бьют себя в грудь и говорят ссд живее всех живых ) В германии совсем недавно писали о гибели дорогущих 4Т ssd.

Понятное дело можно по гарантии поменять, хотя уже это морока и потеря времени, но файлы не вернуть.

~~monkdt~~
(18.05.23 09:07:39 MSK)
Последнее исправление: monkdt 18.05.23 09:09:39 MSK (всего исправлений: 1)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← kvm/qemu эмуляция nvme

Admin

Dovecot плевать на имена eml файлов? →

Похожие темы