LINUX.ORG.RU
ФорумTalks

Ошибка в прошивке SSD-накопителей HPE, приводящая к потере данных через 32768 часов работы

 ,


0

1

Компания Hewlett Packard Enterprise опубликовала обновление прошивок для SSD-накопителей с интерфейсом SAS, поставляемых под брендом HPE. Обновление устраняет критическую проблему, приводящую к потере всех данных из-за сбоя после 32768 часов работы накопителя (3 года, 270 дней и 8 часов). Проблема проявляется в прошивках до версии HPD8. После обновления прошивки перезагрузка сервера не требуется.

До истечения данного времени проблема не проявляется, но всем пользователям HPE SAS SSD рекомендуется не затягивать с заменой прошивки. Если прошивку не обновить, то после указанного времени работы SSD все данные будут потеряны безвозвратно и накопитель станет непригоден для дальнейшего использования. Особенно неприятная ситуация может возникнуть при использовании SSD-накопителей в RAID-массивах - если накопители добавлены одновременно, то и из строя они все выйдут тоже одновременно.

Проблема затрагивает 20 моделей SAS SSD-накопителей, поставляемых в серверах и хранилищах HPE ProLiant, Synergy, Apollo, JBOD D3xxx, D6xxx, D8xxx, MSA, StoreVirtual 4335 и StoreVirtual 3200. Продукты 3PAR, Nimble, Simplivity, XP и Primera проблеме не подвержены. Инструментарий для обновления прошивки подготовлен для Linux, Windows и VMware ESXi, но обновление пока опубликовано только для части проблемных устройств, а для остальных ожидается 9 декабря. Оценить, сколько уже проработал накопитель, можно посмотрев значение «Power On Hours», в отчёте Smart Storage Administrator, который можно сгенерировать командой «ssa --diag --f report.txt».

Ошибка выявлена сторонним подрядчиком, который занимался производством SSD для компании HPE. Не исключено, что проблема не ограничится HPE и затронет других производителей, работающих с данным подрядчиком (подрядчик не называется, а также не детализируется кто допустил ошибку - подрядчик или инженеры HPE). Cемь лет назад в SSD-накопителях Crucial M4 была выявлена похожая ошибка, которая приводила к недоступности накопителя после 5184 часов работы. В этом году компания Intel также выпускала обновление прошивок для SSD D3-S4510/D3-S4610 1.92TB и 3.84TB, устранявшее проблему с неработоспособностью после 1700 часов работы

Глобальный и надёжный энтерпрайз))

Deleted
()

HP это же эталонные косячники. У них вообще что-то работает?

32768 часов

Сразу видно что QA разогнали. Такие баги даже джуны ловят.

Lordwind ★★★★★
()
Последнее исправление: Lordwind (всего исправлений: 1)
Ответ на: комментарий от Lordwind

Вряд ли QA вообще способен выявить такое до выпуска изделия, потому что воспроизводится через несколько лет. Для этого существует статический анализ и методы математического доказательства корректности кода. Но это всё очень дорого и долго, и никто этими темами не заморачивается.

Deleted
()
Ответ на: комментарий от Deleted

Накрутить счетчик. Это называется генерация тестовых данных. Впрочем ревизией кода тоже можно, только это уже уровень сеньоров.

Lordwind ★★★★★
()

Cемь лет назад в SSD-накопителях Crucial M4 была выявлена похожая ошибка

Ага, натыкался на этот «весёлый» баг. Один ssd даже вернули по гарантии, а потом я случайно попробовал передёргивать питание несколько раз, после 3 или 5 цикла ssd ожил. После этого оживил оставшиеся и тут же перепрошил на новую прошивку.

Следует заметить, что в случае crucial m4 5184 часов работы, что в случае hp 32768 - это не время непрерывной работы, а атрибут power_on_hours в smart-атрибутах.

Вообще производители довольно часто косячат в этом аттрибуте, у меня полно серверных hdd (Seagate ST3600057SS), в которых после 65535 часов работы счётчик power_on_hours начинается заново.

https://juick.com/Dimez/2871752

https://juick.com/Dimez/2935544

Deleted
()
Последнее исправление: Deleted (всего исправлений: 2)
Ответ на: комментарий от Deleted
Model Family:     Western Digital Red
Device Model:     WDC WD30EFRX-68AX9N0
  9 Power_On_Hours          0x0032   029   029   000    Old_age   Always       -       51973

Надо бы про апгрейд думать, но лениво так...

mv ★★★★★
()

32768 часов Похоже на то, как я свой онлайн-сервис кроссворда оптимизировал в 1 байт, так и они, только в 2. :D :D :D

xwicked ★★☆
()
Последнее исправление: xwicked (всего исправлений: 1)
Ответ на: комментарий от mv
Device Model:     WDC WD40EFRX-68WT0N0
9 Power_On_Hours          0x0032   033   033   000    Old_age   Always       -       49416

Глупости, все пашет как часы

Lordwind ★★★★★
()
Ответ на: комментарий от Deleted

У меня Сигейт, правда, десктопный, посмотрим обнулится или нет))

9 Power_On_Hours          0x0032   027   027   000    Old_age   Always       -       64753
Deleted
()
Ответ на: комментарий от Lordwind

HP это же эталонные косячники. У них вообще что-то работает?

Конечно. Баги. :)

turtle_bazon ★★★★★
()

Свежий анекдот оттуда же

… Server Platform using TPM, Remote Disclosure of Information …

DonkeyHot ★★★★★
()

Кто-то походу спалил закладку по запланированному устареванию, пришлось выкручиваться…

pon4ik ★★★★★
()
Ответ на: комментарий от pon4ik

Лорчую, что-то я даже о таком и не подумал.))

liss21 ★★★
()
Ответ на: комментарий от Harald

Да они как бы и не особо палились, просто их подельник подрядчик сдал с потрохами.

liss21 ★★★
()
Ответ на: комментарий от Deleted

Как же все-таки хорошо, что человечество забыло тебя спросить и спокойно себе тестирует. С тобой ни то, что 2038, 2000 не пережили бы.

t184256 ★★★★★
()

Но все же как замечательно эта тема смотрится рядом с той, где говорят, что пропажа данных на ssd - выдумки школьников на ютубе, ресурса хватает на десятилетия, а максимум что может быть - переход в read only.

wxw ★★★★★
()
Ответ на: комментарий от t184256

Как же все-таки хорошо, что человечество забыло тебя спросить и спокойно себе тестирует. С тобой ни то, что 2038, 2000 не пережили бы.

Во-первых, проблемы 2000 и 2038 отнюдь не выявлены путем тестирования.

Во-вторых, интересно было бы знать, каким путем выявлена эта проблема с SSD. Вполне вероятно, что просто у кого-то внезапно обвалился массив, и стали расследовать. Кому-то не хочется в такое верить, калечить свою психику. Но кто в танке горел, тот уже не удивляется даже.

Deleted
()
Ответ на: комментарий от wxw

Но что характерно, подобное отнюдь не специфично именно для SSD. Контроллер HDD может иметь примерно такие же ошибки.

Deleted
()
Ответ на: комментарий от Deleted

Я воеял, в твоём мире QE в зачаточном состоянии, всяких datefudge не существует, думать наперёд ещё не изобрели.

t184256 ★★★★★
()
Ответ на: комментарий от t184256

в твоём мире QE в зачаточном состоянии

Это правда. И другого мира как-то не просматривается пока.

Deleted
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.