LINUX.ORG.RU
ФорумAdmin

Коллеги, подскажите что с дисками..?!

 , , ,


1

2

Господа, имеется такое безобразие (на нескольких серверах):

  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       1

При этом: zfs scrub, например, проходит успешно. В итоге, получаем alerts, что диску хана, а по факту scrub - говорит что всё ок. Но диск не полностью полон.

Как правильно поступать в такой ситуации? Менять диск не обращая внимания на zfs? Проводить низкоуровневый формат и надеяться что уберутся ошибки? Или просто выбросить такие диски и забыть?

★★★★★

Ответ на: комментарий от DALDON

Вот тут пишут, что оно не подходит для серверов... - Вы их для чего купили..?

Я их для серверов купил. То что пишут в nix-е меня совсем не тревожит.

King_Carlo ★★★★★
()
Ответ на: комментарий от King_Carlo

Стоп, стоп, стоп. - Посмотрел на сайте Самсунг - у них четко сказано, что подходят только для рабочих станций. Максимум для NAS. У них 512 мегабайт ОЗУ, и ни слова о ионисторе/конденсаторе на борту... В общем, полагаю, что у них область SLC, крайне мала. - Давича тут пришлось на десктопный SSD перегонять 250 гб (с другого десктопного SSD), через dd. - Докладываю, что диски с малым количеством SLC кеша, при больших объемах записи, просаживаются очень даже. - В итоге, у меня под середину, dd уже просел до 40 мегабайт/сек (последовательной, я так понимаю записи). Хотя начинали с 200. Как-то так...

DALDON ★★★★★
() автор топика
Последнее исправление: DALDON (всего исправлений: 1)
Ответ на: комментарий от Deleted

Поясните как правильно. - Я особо не разбирался. Массив zfs если трындеть начал, что хана диску я меняю, но там обычно несколько ошибок имелось, как чтения так и записи.

DALDON ★★★★★
() автор топика
Ответ на: комментарий от King_Carlo

На SATAIII линейка падает без TRIM'а с 550 до, в зависимости от ssd, 50.

Ну и SSD точатся пипец как под нагрузкой. Опять же, в зависимости от типа, могут терять по проценту в сутки.

Deleted
()
Ответ на: комментарий от DALDON

Массив zfs если трындеть начал, что хана диску я меняю, но там обычно несколько ошибок имелось, как чтения так и записи.

Я не понимаю, что такое «zfs начал трындеть», сорри :)

Deleted
()

Была такая непонятка с сигейтами, решилось заливкой новой прошивки на диски.

anonymous
()
Ответ на: комментарий от DALDON

Ионистор/конденсатор очень полезен, но если его нет - ничего страшного не произойдёт на двойном питании/бесперебойнике.

dd уже просел до 40 мегабайт/сек

Ну это совсем днище-ssd. Не надо такие покупать.

Deleted
()
Ответ на: комментарий от Deleted

могут терять по проценту в сутки.

Это какой то конкретный контроллер, или такая фигня у тебя на всех ssd. Тогда вопрос, о каких конкретно моделях идёт речь?

King_Carlo ★★★★★
()
Ответ на: комментарий от King_Carlo

Не у меня. Micron MTFDDAK256MAY-1AH12ABHA пилится с такой скоростью без trim'а. Используется, насколько я понимаю, активно в HP/Dell. Я так понимаю, что это Micron M550.

Deleted
()
Ответ на: комментарий от King_Carlo

Маркетинговый буллшит.

Ой, ой, ой... Я бы не бросался такими словами. Допустим, у Вас СУБД пишет что-то на диск. - Ожидает ответа от диска, делает там fsync и прочее гавно. - Ваш десктопный SSD, говорит, я всё записал. Хотя на самом деле, этот клоп только лишь в своё ОЗУ положил это, величиной в 512мб. - База такая, ОК! Молодец, и сообщила всем, что она консистентна. - И тут у вас происходит зависание железа, или пропадает свет. - Успеет или не успеет SSD всё скинуть, вопрос очень открытый. И вместо данных можно же получить буллшит, и уже не маркетинговый... Понятное дело, что никакие RAID тут и близко не помогут. - Ну только, кроме случая, если в одном из плечей, хотя бы не будет стоять норм SSD, которые точно всё скинут, и raid будет с них автоматом досинкивать.

В общем, был у меня случай с mysql, подобный, ну там я очень опасную конфигурацию применял, так-как база была не критичная. - После эпик фейла, я понял что и где есть булшит, а где не булшит)

DALDON ★★★★★
() автор топика
Ответ на: комментарий от Deleted

Я не понимаю, что такое «zfs начал трындеть», сорри :)

zpool статус, стал показывать что массив в стадии деградации. - Я полагаю, что он после первой же ошибки чтения одного из дисков, переведёт массив в этот статус. Чуда он не сделает.

DALDON ★★★★★
() автор топика
Ответ на: комментарий от Deleted

Ну это совсем днище-ssd. Не надо такие покупать.

А фиг его знает, кингстоны, средней цены. А300, чтоль. В общем, полагаю, что дело не в днище дисках, а именно в их десктопной природе. На десктопах таких объемов обычно не пишут.

DALDON ★★★★★
() автор топика
Ответ на: комментарий от DALDON

Я полагаю, что он после первой же ошибки чтения одного из дисков, переведёт массив в этот статус.

Нет.

Deleted
()
Ответ на: комментарий от DALDON

А фиг его знает, кингстоны, средней цены. А300, чтоль.

V300, видимо. TLC, Phison PS3111-S11, без внешнего кэша. убердешёвый ssd, который нормальные люди брезгуют покупать. Плюс к тому, производитель может менять контроллер. Да уж, что могло пойти не так? :)

В общем, полагаю, что дело не в днище дисках, а именно в их десктопной природе.

В принципе, да. Но если чуть полезть разбираться - то не совсем. Градаций гораздо больше, нежели «серверный/десктопный»

Deleted
()
Ответ на: комментарий от Deleted

В принципе, да. Но если чуть полезть разбираться - то не совсем. Градаций гораздо больше, нежели «серверный/десктопный»

Вот эти говнюки, в своё дорогущее оборудование ставят такие диски «на изи», что называется: https://en.wikipedia.org/wiki/Sacmi

Да уж, что могло пойти не так? :)

Да других факторов прилично на самом деле.

DALDON ★★★★★
() автор топика
Ответ на: комментарий от DALDON

с хренов ли диск это взял

Это тебе только исходники прошивки скажут.

если в логах smart никаких ни selftest, никаких просто ошибок нету?

И какие мысли у тебя от этого появляются?

В разных серверах. А поведение, похожее…

И что это меняет?

Я, собственно концептуально спрашиваю, что не так в консерватории.

Тебе обязательно два раза повторить? С дисками всё нормально.

slovazap ★★★★★
()
Ответ на: комментарий от DALDON

Не знаю где.

Гоняй короткий/длинный smart-тест по расписанию (из cron/systemd-timer), смотри выхлоп zpool status. Если идут единичные ошибки read/write у одного диска - вангуй скорую замену. Но на моей памяти zfs не вышибает диск при единичных ошибках.

Deleted
()
Ответ на: комментарий от Deleted

Но даже и это не спасёт от внезапной смерти диска. Поэтому и raid и бэкап рулят и будут рулить всегда.

Deleted
()
Ответ на: комментарий от anonymous

Разве у ext4 не так же? Или там подразумевается, что бэды будут заданы вручную? А если посыпется, так какой подход лучше? Да и в смарте бэды не появятся пока сбойные блоки не будут прочитаны/записаны, единственный вариант это тесты по расписанию.

бэд блоки ей нипочем

нуну

linuxnewbie
()

Если без долгих прелюдий - меняй диск.

IPR ★★★★★
()
Ответ на: комментарий от anonymous

Так то разве не фича? Ну вроде как «ахтунг ахтунг всё плохо внимания мне внимания». Я просто знаю на примере: NTFS, когда дохнет, к тому времени как станет заметно её плохое здоровье, она уже вся рассыпется и запустившаяся программа, верифицирующая консистентность данных, всё добьёт.

linuxnewbie
()
Ответ на: комментарий от anonymous

И ведь мжно разметить и ext4 так что она не будет сбойные блоки использовать — там буквально скормить выхлоп badblocks в mkfs. Ну а дальше как повезёт, доверять данные уже нельзя.

linuxnewbie
()
Ответ на: комментарий от VKraft

У меня для 10-х рейдов всегда узкое горло это сеть если в стрейпе более 4-5 дисков

У шарашки нет денег даже на сраный 10г эзернет? Не говоря уже о 32gb fc и 40/100gb eth.

anonymous
()
Ответ на: комментарий от DALDON

Понятное дело, что никакие RAID тут и близко не помогут. - Ну только, кроме случая, если в одном из плечей, хотя бы не будет стоять норм SSD, которые точно всё скинут, и raid будет с них автоматом досинкивать.

Зато поможет кэш с аккумулятором на несколько суток и отдельной областью куда скидывать данные при пропадании питания, ну как в нормальных промышленных массивах.

anonymous
()
Ответ на: комментарий от anonymous

скажу только что и 10 гиг и 40гиг эзернет у нас таки есть. фибрченела нет, да. а так предлагаю тебе самоликвидироватсяапстену пока трамваи ходят.

VKraft ★★
()
Ответ на: комментарий от DALDON

не доходят руки до zabbix. Там такое можно сотворить? :)

Да, можно повесить триггер на изменение значения, а не только на ненулевое

Pinkbyte ★★★★★
()

БП аерокул? Как там дела с пульсацией, напряжением?

Ramil ★★★★
()
Ответ на: комментарий от DALDON

P.S. - а уже есть линукс с состоянием доведенным до ума, уровня freenas? Я когда-то смотрел, больше были на поделки похожи, чем на что-то годное.

OMV неплохо работает. Однако требует реал рэйд.

nerve ★★
()
Ответ на: комментарий от intelfx

Мать божья... Помогло, похоже:

[root@storage] ~# smartctl -a /dev/ada5 | grep -e 197 -e 198 -e Reallocated_Sector_Ct
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
DALDON ★★★★★
() автор топика
Ответ на: комментарий от DALDON

Вообще исчез после тестов, что ли? Так тоже бывает. Наверное, никакого сбойного сектора и не было, просто не прочитался один раз почему-то.

intelfx ★★★★★
()
Ответ на: комментарий от intelfx

Вообще исчез после тестов, что ли? Так тоже бывает. Наверное, никакого сбойного сектора и не было, просто не прочитался один раз почему-то.

Первый раз такое на моей памяти. Я сперва прогнал zfs scrub, ничего не нашлось, это меня обнадёжило, потом вот запустил long тестирование, и «о, чудо!». Не знаю насколько хватит такого выздоровления, но я запустил это дело и на других подобных «пациентах».

DALDON ★★★★★
() автор топика
Ответ на: комментарий от DALDON

Первый раз такое на моей памяти.

Есть один старый хард у меня в работе, там софтбэды прыгают, то меньше, то больше, без моего участия. На нем ничего( от слова совсем) нэма критичного, что бы менять, так и живем :)

anc ★★★★★
()
Ответ на: комментарий от anc

Есть один старый хард у меня в работе, там софтбэды прыгают, то меньше, то больше, без моего участия. На нем ничего( от слова совсем) нэма критичного, что бы менять, так и живем :)

Понял... Спасибо! Буду иметь ввиду, если у меня (без видимых причин) будет такое повторяться, тогда харды будут получать по яйцам и меняться. :)

DALDON ★★★★★
() автор топика
Ответ на: комментарий от intelfx

Продолжаю с другими дисками:

[root@storage] ~# smartctl -l selftest /dev/ada1

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%     26419         902024672

Странность ситуации в том, что zfs scrub проходит успешно... Ни одной ошибки. Может быть, в этом секторе, просто нету данных zfs (насколько я понимаю, scrub только реально записанные данные проверяет). В общем, теперь, я так понимаю, надо запускать тест дальше, начиная с этого сектора. Потом попробовать скриптом восстановить данные. Но лучше, диск сперва поменять, а уже потом всё это делать, с целью куда-то пристроить диск, если оно оживет. Верно?

DALDON ★★★★★
() автор топика
Ответ на: комментарий от DALDON

Может быть, в этом секторе, просто нету данных zfs (насколько я понимаю, scrub только реально записанные данные проверяет).

Да.

В общем, теперь, я так понимаю, надо запускать тест дальше, начиная с этого сектора

Сделать принудительный ремап записью в этот сектор и тестировать дальше.

Но лучше, диск сперва поменять, а уже потом всё это делать, с целью куда-то пристроить диск, если оно оживет.

Ну зависит от степени энтерпрайзности/нищебродства. «У себя дома под кроватью» я бы сделал ремап, подготовил запаску и дальше надеялся бы на рейд, с заменой только когда всё явно посыпется.

intelfx ★★★★★
()
Ответ на: комментарий от intelfx

Ну зависит от степени энтерпрайзности/нищебродства. «У себя дома под кроватью» я бы сделал ремап, подготовил запаску и дальше надеялся бы на рейд, с заменой только когда всё явно посыпется.

У меня под кроватью только пыль покоится. :) Понял, спасибо! Подумаю, прикину как жить дальше. :ъ

DALDON ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.