Коллеги, подскажите что с дисками..?!

1

2

Господа, имеется такое безобразие (на нескольких серверах):

  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       1

При этом: zfs scrub, например, проходит успешно. В итоге, получаем alerts, что диску хана, а по факту scrub - говорит что всё ок. Но диск не полностью полон.

Как правильно поступать в такой ситуации? Менять диск не обращая внимания на zfs? Проводить низкоуровневый формат и надеяться что уберутся ошибки? Или просто выбросить такие диски и забыть?

Ссылка

← Как чинить cPanel после восстановления дроплета из снапшота?

i440fx vs q35 on qemu-kvm →

← 1 2 →

Ответ на: комментарий от DALDON 01.05.19 20:09:04 MSK

Вот тут пишут, что оно не подходит для серверов... - Вы их для чего купили..?

Я их для серверов купил. То что пишут в nix-е меня совсем не тревожит.

~~King_Carlo~~ ★★★★★
(01.05.19 20:12:40 MSK)

Ответ на: комментарий от King_Carlo 01.05.19 20:12:40 MSK

Стоп, стоп, стоп. - Посмотрел на сайте Самсунг - у них четко сказано, что подходят только для рабочих станций. Максимум для NAS. У них 512 мегабайт ОЗУ, и ни слова о ионисторе/конденсаторе на борту... В общем, полагаю, что у них область SLC, крайне мала. - Давича тут пришлось на десктопный SSD перегонять 250 гб (с другого десктопного SSD), через dd. - Докладываю, что диски с малым количеством SLC кеша, при больших объемах записи, просаживаются очень даже. - В итоге, у меня под середину, dd уже просел до 40 мегабайт/сек (последовательной, я так понимаю записи). Хотя начинали с 200. Как-то так...

DALDON ★★★★★
(01.05.19 20:16:36 MSK) автор топика
Последнее исправление: DALDON 01.05.19 20:17:46 MSK (всего исправлений: 1)

Ответ на: комментарий от Deleted 01.05.19 20:10:30 MSK

Поясните как правильно. - Я особо не разбирался. Массив zfs если трындеть начал, что хана диску я меняю, но там обычно несколько ошибок имелось, как чтения так и записи.

DALDON ★★★★★
(01.05.19 20:19:08 MSK) автор топика

Ответ на: комментарий от King_Carlo 01.05.19 20:02:35 MSK

На SATAIII линейка падает без TRIM'а с 550 до, в зависимости от ssd, 50.

Ну и SSD точатся пипец как под нагрузкой. Опять же, в зависимости от типа, могут терять по проценту в сутки.

Deleted
(01.05.19 20:21:28 MSK)

Ответ на: комментарий от DALDON 01.05.19 20:16:36 MSK

Стоп, стоп, стоп.
ни слова о ионисторе/конденсаторе на борту...

Маркетинговый буллшит.

~~King_Carlo~~ ★★★★★
(01.05.19 20:22:40 MSK)

Ответ на: комментарий от DALDON 01.05.19 20:19:08 MSK

Массив zfs если трындеть начал, что хана диску я меняю, но там обычно несколько ошибок имелось, как чтения так и записи.

Я не понимаю, что такое «zfs начал трындеть», сорри :)

Deleted
(01.05.19 20:23:26 MSK)

Была такая непонятка с сигейтами, решилось заливкой новой прошивки на диски.

anonymous
(01.05.19 20:24:06 MSK)

Ссылка

Ответ на: комментарий от DALDON 01.05.19 20:16:36 MSK

Ионистор/конденсатор очень полезен, но если его нет - ничего страшного не произойдёт на двойном питании/бесперебойнике.

dd уже просел до 40 мегабайт/сек

Ну это совсем днище-ssd. Не надо такие покупать.

Deleted
(01.05.19 20:25:07 MSK)

Ответ на: комментарий от Deleted 01.05.19 20:21:28 MSK

могут терять по проценту в сутки.

Это какой то конкретный контроллер, или такая фигня у тебя на всех ssd. Тогда вопрос, о каких конкретно моделях идёт речь?

~~King_Carlo~~ ★★★★★
(01.05.19 20:26:28 MSK)

Ответ на: комментарий от King_Carlo 01.05.19 20:22:40 MSK

булшеет это когда юзают десктопное гавно на серверах

anonymous
(01.05.19 20:32:37 MSK)

Ответ на: комментарий от King_Carlo 01.05.19 20:26:28 MSK

Не у меня. Micron MTFDDAK256MAY-1AH12ABHA пилится с такой скоростью без trim'а. Используется, насколько я понимаю, активно в HP/Dell. Я так понимаю, что это Micron M550.

Deleted
(01.05.19 20:34:05 MSK)

Ссылка

Ответ на: комментарий от King_Carlo 01.05.19 20:22:40 MSK

Маркетинговый буллшит.

Ой, ой, ой... Я бы не бросался такими словами. Допустим, у Вас СУБД пишет что-то на диск. - Ожидает ответа от диска, делает там fsync и прочее гавно. - Ваш десктопный SSD, говорит, я всё записал. Хотя на самом деле, этот клоп только лишь в своё ОЗУ положил это, величиной в 512мб. - База такая, ОК! Молодец, и сообщила всем, что она консистентна. - И тут у вас происходит зависание железа, или пропадает свет. - Успеет или не успеет SSD всё скинуть, вопрос очень открытый. И вместо данных можно же получить буллшит, и уже не маркетинговый... Понятное дело, что никакие RAID тут и близко не помогут. - Ну только, кроме случая, если в одном из плечей, хотя бы не будет стоять норм SSD, которые точно всё скинут, и raid будет с них автоматом досинкивать.

В общем, был у меня случай с mysql, подобный, ну там я очень опасную конфигурацию применял, так-как база была не критичная. - После эпик фейла, я понял что и где есть булшит, а где не булшит)

DALDON ★★★★★
(01.05.19 20:52:04 MSK) автор топика

Ответ на: комментарий от Deleted 01.05.19 20:23:26 MSK

Я не понимаю, что такое «zfs начал трындеть», сорри :)

zpool статус, стал показывать что массив в стадии деградации. - Я полагаю, что он после первой же ошибки чтения одного из дисков, переведёт массив в этот статус. Чуда он не сделает.

DALDON ★★★★★
(01.05.19 20:53:49 MSK) автор топика

Ответ на: комментарий от Deleted 01.05.19 20:25:07 MSK

Ну это совсем днище-ssd. Не надо такие покупать.

А фиг его знает, кингстоны, средней цены. А300, чтоль. В общем, полагаю, что дело не в днище дисках, а именно в их десктопной природе. На десктопах таких объемов обычно не пишут.

DALDON ★★★★★
(01.05.19 20:55:06 MSK) автор топика

Ответ на: комментарий от DALDON 01.05.19 20:53:49 MSK

Я полагаю, что он после первой же ошибки чтения одного из дисков, переведёт массив в этот статус.

Нет.

Deleted
(01.05.19 20:55:49 MSK)

Ответ на: комментарий от DALDON 01.05.19 20:55:06 MSK

А фиг его знает, кингстоны, средней цены. А300, чтоль.

V300, видимо. TLC, Phison PS3111-S11, без внешнего кэша. убердешёвый ssd, который нормальные люди брезгуют покупать. Плюс к тому, производитель может менять контроллер. Да уж, что могло пойти не так? :)

В общем, полагаю, что дело не в днище дисках, а именно в их десктопной природе.

В принципе, да. Но если чуть полезть разбираться - то не совсем. Градаций гораздо больше, нежели «серверный/десктопный»

Deleted
(01.05.19 21:01:09 MSK)

Ответ на: комментарий от Deleted 01.05.19 21:01:09 MSK

В принципе, да. Но если чуть полезть разбираться - то не совсем. Градаций гораздо больше, нежели «серверный/десктопный»

Вот эти говнюки, в своё дорогущее оборудование ставят такие диски «на изи», что называется: https://en.wikipedia.org/wiki/Sacmi

Да уж, что могло пойти не так? :)

Да других факторов прилично на самом деле.

DALDON ★★★★★
(01.05.19 21:05:10 MSK) автор топика

Ссылка

Ответ на: комментарий от Deleted 01.05.19 20:55:49 MSK

Нет.

Уже не первый час, прошу Вас поделиться ссылкой, где бы это толково описывалось. :)

DALDON ★★★★★
(01.05.19 21:05:50 MSK) автор топика

Ответ на: комментарий от DALDON 01.05.19 18:48:30 MSK

с хренов ли диск это взял

Это тебе только исходники прошивки скажут.

если в логах smart никаких ни selftest, никаких просто ошибок нету?

И какие мысли у тебя от этого появляются?

В разных серверах. А поведение, похожее…

И что это меняет?

Я, собственно концептуально спрашиваю, что не так в консерватории.

Тебе обязательно два раза повторить? С дисками всё нормально.

slovazap ★★★★★
(01.05.19 21:19:21 MSK)

Ссылка

Ответ на: комментарий от DALDON 01.05.19 21:05:50 MSK

Не знаю где.

Гоняй короткий/длинный smart-тест по расписанию (из cron/systemd-timer), смотри выхлоп zpool status. Если идут единичные ошибки read/write у одного диска - вангуй скорую замену. Но на моей памяти zfs не вышибает диск при единичных ошибках.

Deleted
(01.05.19 21:19:24 MSK)

Ответ на: комментарий от Deleted 01.05.19 21:19:24 MSK

Но даже и это не спасёт от внезапной смерти диска. Поэтому и raid и бэкап рулят и будут рулить всегда.

Deleted
(01.05.19 21:30:50 MSK)

Ссылка

Ответ на: комментарий от DALDON 01.05.19 21:05:50 MSK

ZFS тащит, бэд блоки ей нипочем

Условно надёжное хранение информации на двух полудохлых НЖМД, как? (комментарий)

зри в прошивку винтов

anonymous
(01.05.19 21:38:35 MSK)

Ответ на: комментарий от anonymous 01.05.19 21:38:35 MSK

Разве у ext4 не так же? Или там подразумевается, что бэды будут заданы вручную? А если посыпется, так какой подход лучше? Да и в смарте бэды не появятся пока сбойные блоки не будут прочитаны/записаны, единственный вариант это тесты по расписанию.

бэд блоки ей нипочем

нуну

~~linuxnewbie~~
(01.05.19 21:42:45 MSK)

Ответ на: комментарий от linuxnewbie 01.05.19 21:42:45 MSK

Сравнил хрен с пальцем, ext* сразу лапки подогнет. zfs пашет на полудохлых с бэдами

anonymous
(01.05.19 21:53:51 MSK)

Если без долгих прелюдий - меняй диск.

IPR ★★★★★
(01.05.19 22:20:22 MSK)

Ссылка

Ответ на: комментарий от anonymous 01.05.19 21:53:51 MSK

Так то разве не фича? Ну вроде как «ахтунг ахтунг всё плохо внимания мне внимания». Я просто знаю на примере: NTFS, когда дохнет, к тому времени как станет заметно её плохое здоровье, она уже вся рассыпется и запустившаяся программа, верифицирующая консистентность данных, всё добьёт.

~~linuxnewbie~~
(01.05.19 22:25:58 MSK)

Ссылка

Ответ на: комментарий от anonymous 01.05.19 21:53:51 MSK

И ведь мжно разметить и ext4 так что она не будет сбойные блоки использовать — там буквально скормить выхлоп badblocks в mkfs. Ну а дальше как повезёт, доверять данные уже нельзя.

~~linuxnewbie~~
(01.05.19 22:27:57 MSK)

Ссылка

Ответ на: комментарий от VKraft 01.05.19 19:39:29 MSK

У меня для 10-х рейдов всегда узкое горло это сеть если в стрейпе более 4-5 дисков

У шарашки нет денег даже на сраный 10г эзернет? Не говоря уже о 32gb fc и 40/100gb eth.

anonymous
(02.05.19 09:51:40 MSK)

Ответ на: комментарий от anonymous 01.05.19 20:32:37 MSK

это нищебродо-буллшит

anonymous
(02.05.19 09:57:02 MSK)

Ссылка

Ответ на: комментарий от DALDON 01.05.19 20:52:04 MSK

Понятное дело, что никакие RAID тут и близко не помогут. - Ну только, кроме случая, если в одном из плечей, хотя бы не будет стоять норм SSD, которые точно всё скинут, и raid будет с них автоматом досинкивать.

Зато поможет кэш с аккумулятором на несколько суток и отдельной областью куда скидывать данные при пропадании питания, ну как в нормальных промышленных массивах.

anonymous
(02.05.19 10:05:40 MSK)

Ссылка

Ответ на: комментарий от anonymous 02.05.19 09:51:40 MSK

скажу только что и 10 гиг и 40гиг эзернет у нас таки есть. фибрченела нет, да. а так предлагаю тебе самоликвидироватсяапстену пока трамваи ходят.

VKraft ★★★
(02.05.19 10:07:05 MSK)

Ответ на: комментарий от VKraft 02.05.19 10:07:05 MSK

у людей пулы с сотнями дисков работают, а ты тут дичь про 4-5 втираешь.

anonymous
(02.05.19 10:11:28 MSK)

Ответ на: комментарий от anonymous 02.05.19 10:11:28 MSK

поздравляю людей с пулами с сотнями дисков ) и тебя тоже

VKraft ★★★
(02.05.19 10:17:07 MSK)

Ответ на: комментарий от DALDON 01.05.19 13:55:48 MSK

не доходят руки до zabbix. Там такое можно сотворить? :)

Да, можно повесить триггер на изменение значения, а не только на ненулевое

Pinkbyte ★★★★★
(02.05.19 10:24:06 MSK)

Ссылка

Ответ на: комментарий от VKraft 02.05.19 10:17:07 MSK

себя не забудь поздравить с нечётным кол-вом дисков в десятке лол

anonymous
(02.05.19 10:39:11 MSK)

Ответ на: комментарий от anonymous 02.05.19 10:39:11 MSK

дэбылы не знают о зеркалировании стрейповых наборов. нелол

VKraft ★★★
(02.05.19 10:49:43 MSK)

Ответ на: комментарий от VKraft 02.05.19 10:49:43 MSK

только это не 1+0, а 0+1 и делают так только дурачки. всё ещё хуже, чем я предполагал.

anonymous
(02.05.19 11:19:19 MSK)

Ответ на: комментарий от anonymous 02.05.19 11:19:19 MSK

википедию научился читать? молодец

VKraft ★★★
(02.05.19 11:29:26 MSK)

Ссылка

БП аерокул? Как там дела с пульсацией, напряжением?

Ramil ★★★★
(02.05.19 11:35:29 MSK)

Ссылка

Ответ на: комментарий от DALDON 01.05.19 21:05:50 MSK

ZFS pool and Offline uncorrectable sectors (комментарий)

Deleted
(02.05.19 11:50:28 MSK)

Ответ на: комментарий от DALDON 01.05.19 18:53:32 MSK

P.S. - а уже есть линукс с состоянием доведенным до ума, уровня freenas? Я когда-то смотрел, больше были на поделки похожи, чем на что-то годное.

OMV неплохо работает. Однако требует реал рэйд.

nerve ★★
(02.05.19 12:06:51 MSK)

Ссылка

Ответ на: комментарий от Deleted 02.05.19 11:50:28 MSK

Спасибо! Почитаю!

DALDON ★★★★★
(02.05.19 20:05:58 MSK) автор топика

Ссылка

Ответ на: комментарий от intelfx 01.05.19 13:25:07 MSK

Мать божья... Помогло, похоже:

[root@storage] ~# smartctl -a /dev/ada5 | grep -e 197 -e 198 -e Reallocated_Sector_Ct
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0

DALDON ★★★★★
(06.05.19 09:14:51 MSK) автор топика

Ответ на: комментарий от DALDON 06.05.19 09:14:51 MSK

Вообще исчез после тестов, что ли? Так тоже бывает. Наверное, никакого сбойного сектора и не было, просто не прочитался один раз почему-то.

intelfx ★★★★★
(06.05.19 14:02:21 MSK)

Ответ на: комментарий от intelfx 06.05.19 14:02:21 MSK

Вообще исчез после тестов, что ли? Так тоже бывает. Наверное, никакого сбойного сектора и не было, просто не прочитался один раз почему-то.

Первый раз такое на моей памяти. Я сперва прогнал zfs scrub, ничего не нашлось, это меня обнадёжило, потом вот запустил long тестирование, и «о, чудо!». Не знаю насколько хватит такого выздоровления, но я запустил это дело и на других подобных «пациентах».

DALDON ★★★★★
(06.05.19 15:18:09 MSK) автор топика

Ответ на: комментарий от DALDON 06.05.19 15:18:09 MSK

Первый раз такое на моей памяти.

Есть один старый хард у меня в работе, там софтбэды прыгают, то меньше, то больше, без моего участия. На нем ничего( от слова совсем) нэма критичного, что бы менять, так и живем :)

anc ★★★★★
(06.05.19 17:03:24 MSK)

Ответ на: комментарий от anc 06.05.19 17:03:24 MSK

Есть один старый хард у меня в работе, там софтбэды прыгают, то меньше, то больше, без моего участия. На нем ничего( от слова совсем) нэма критичного, что бы менять, так и живем :)

Понял... Спасибо! Буду иметь ввиду, если у меня (без видимых причин) будет такое повторяться, тогда харды будут получать по яйцам и меняться. :)

DALDON ★★★★★
(06.05.19 17:19:06 MSK) автор топика

Ссылка

Ответ на: комментарий от intelfx 01.05.19 13:25:07 MSK

Продолжаю с другими дисками:

[root@storage] ~# smartctl -l selftest /dev/ada1

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%     26419         902024672

Странность ситуации в том, что zfs scrub проходит успешно... Ни одной ошибки. Может быть, в этом секторе, просто нету данных zfs (насколько я понимаю, scrub только реально записанные данные проверяет). В общем, теперь, я так понимаю, надо запускать тест дальше, начиная с этого сектора. Потом попробовать скриптом восстановить данные. Но лучше, диск сперва поменять, а уже потом всё это делать, с целью куда-то пристроить диск, если оно оживет. Верно?

DALDON ★★★★★
(07.05.19 10:44:17 MSK) автор топика

Ответ на: комментарий от DALDON 07.05.19 10:44:17 MSK

Может быть, в этом секторе, просто нету данных zfs (насколько я понимаю, scrub только реально записанные данные проверяет).

Да.

В общем, теперь, я так понимаю, надо запускать тест дальше, начиная с этого сектора

Сделать принудительный ремап записью в этот сектор и тестировать дальше.

Но лучше, диск сперва поменять, а уже потом всё это делать, с целью куда-то пристроить диск, если оно оживет.

Ну зависит от степени энтерпрайзности/нищебродства. «У себя дома под кроватью» я бы сделал ремап, подготовил запаску и дальше надеялся бы на рейд, с заменой только когда всё явно посыпется.

intelfx ★★★★★
(07.05.19 12:15:17 MSK)

Ответ на: комментарий от intelfx 07.05.19 12:15:17 MSK

Ну зависит от степени энтерпрайзности/нищебродства. «У себя дома под кроватью» я бы сделал ремап, подготовил запаску и дальше надеялся бы на рейд, с заменой только когда всё явно посыпется.

У меня под кроватью только пыль покоится. :) Понял, спасибо! Подумаю, прикину как жить дальше. :ъ

DALDON ★★★★★
(07.05.19 12:18:36 MSK) автор топика