LINUX.ORG.RU

Сбросился смарт

 , ,


0

3

Диск отвалился по таймауту, спустя 10 часов я это заметил и выключил-включил электричество системному блоку - диск ожил. Хотел посмотреть в смарте что-нить а там всё по нулям, power on hours = 1, power cycle count = 1. Как так, было у кого-нить похожее? Диск WD5000AZRX firmware 01.01A01.

Подозреваю что диск стоит сменить, но всё равно интересно как такое случилось.

★★★★★

Последнее исправление: firkax (всего исправлений: 1)

Нужно быстро его продать как новый :)
А по делу. Есть у меня диск, который не дружил с хостом и накопил кучу вроде UDMA_CRC_Error_Count.
В другом месте он работает замечательно, и ошибки не растут, но те, что уже есть, не позволяют его поставить в тот бук HP.
Китайцы же как-то ковыряют смарт на бу дисках.

hbars ★★★★★
()
Ответ на: комментарий от router

В старом логе из 2016 года (там уже 12000 часов аптайм у него был) firmware такое же.

На ещё одном диске (RE3 250gb) firmware 02.03B03 такое тоже не бывает?

firkax ★★★★★
() автор топика

power on hours подвержено целочисленному переполнению и действительно может стать 1 после 65535 часов. Но у тебя вроде бы что-то другое.

legolegs ★★★★★
()

Кажется сбросился ещё и idle3 таймер то ли как-то дополнительно забаговался: паркует головки если idle весьма быстро (точно не измерял но походу те самые 8 секунд), но дальше всё идёт не по плану: диск отваливается от sata, система его теряет и чтобы опять его увидеть надо ему передёргивать разъём питания. Я даже поначалу подумал что больше не получится с него ничего прочитать т.к. он живёт всего какие-то секунды после включения, но к счастью оказалось что если включить ему питание и сразу, как его увидит ОС, нагрузить его dd - парковки и отвала не происходит.

firkax ★★★★★
() автор топика
Последнее исправление: firkax (всего исправлений: 2)
Ответ на: комментарий от router

Вобщем я ещё полазил по инету. Кажется такая версия официально существует - нашёл в инете как её обсуждают в разных местах, явно считая за нормальную, правда почему-то обычно в контексте 2.5" дисков.

Но вот тут и тут упоминается такая версия и для 3.5".

А ну и вот. Как раз он. А я опасаться уже начал что мне в магазе перешитый диск со сброшенным смартом давно продали.

firkax ★★★★★
() автор топика
Последнее исправление: firkax (всего исправлений: 4)
Ответ на: комментарий от firkax

Есть утилита hdparm которой можно считать текущие настройки диска:

hdparm -I -v --verbose /dev/sda

Эти настройки желательно всем хранить. Когда диск збойнет опять считать настройки и смотреть (diff), что поменялось.

У меня на WD отваливается параметр hdparm -m его руками возвращал обратно: hdparm -m 16 /dev/sda и диск после этого ещё годы работал.

anonymous
()
Ответ на: комментарий от mky

Логов селфтестов нет (раньше точно были). Логи температуры есть, но я не знаю старые или новые, 478 строчек всего и идут уже не первый круг (293 текущая позиция, на 294 старые данные), по мнению smartctl одна строчка соответствует одной минуте (т.е. это 8 часов на круг), power on при этом 3 часа (что похоже на правду). Не знаю как это понимать. Перед обнаружением ситуации вчера утром диск ещё 10 часов висел отвалившийся, но с включённым питанием.

Внизу ещё счётчики каких-то событий, из них не нулевые такие

1 device-to-host register fises due to comreset
21 vendor specific
не знаю новые они или старые, с одной стороны на других дисках их больше, с другой - за 10 лет 4-5 этих fises и около 900 vendor specific, пропорция не сходится.

Ещё кстати с таймером смотрел: от втыкания сата-питания до лога об обнаружении диска в dmesg - 22 секунды, ещё через 5 секунд уже лог об отвале (одновременно со стуком паркующихся головок), успел посмотреть смарт только потому что заранее ввёл команду. Мне казалось вчера он быстрее опознавался.

Померил ещё раз аккуратнее: 22 секунды до опознавания, ещё 4 секунды до старта миррора, ещё 8 секунд до отвала, так что всё верно это idle3.

firkax ★★★★★
() автор топика
Последнее исправление: firkax (всего исправлений: 6)

проблемы с чтением-записью служебки скорее всего. и не факт что по причине проблем с головами (побились же 2 копии).

я бы снял плату и посмотрел что там с контактами куда прижимаются иголки гермоблока - на wd они на ура гниют от флюса (посребренные, а серебро корродирует от недоотмытых остатков флюса которым их паяют). к слову, на сигейтах гниют ничуть не хуже…

во вторую очередь - смотреть блок питания на предмет опухших кондеров и повышенных пульсаций.

NiTr0 ★★★★★
()
Ответ на: комментарий от NiTr0

А у них эти настройки/данные прошивки разве тоже на блинах хранятся? Я думал на флешке в контроллере.

А таблица реаллок секторов тоже там же? Как оно тогда может работать если сектор с смартом стал бэдом?

С питанием ситуация такая: если на одном проводе уже подключён диск, потом я на горячую втыкаю второй разъём с того же провода в другой диск - то первый с большой вероятностью ребутается, очевидно от просадки питания стартовым током второго, но вроде стартовым током не шпинделя, он ещё не крутится к тому моменту. Диски на других проводах ничего не замечают. Если бы это были конденсаторы в БП, то наверно не важно на каком проводе было бы?

firkax ★★★★★
() автор топика
Последнее исправление: firkax (всего исправлений: 2)
Ответ на: комментарий от firkax

А у них эти настройки/данные прошивки разве тоже на блинах хранятся? Я думал на флешке в контроллере.

конечно. служебка десятки, если не сотни, мегабайт занимает.

А таблица реаллок секторов тоже там же?

конечно.

Как оно тогда может работать если сектор с смартом стал бэдом?

криво записало смарт. считать не смогло, переписало новыми данными.

С питанием ситуация такая: если на одном проводе уже подключён диск, потом я на горячую втыкаю второй разъём с того же провода в другой диск - то первый с большой вероятностью ребутается, очевидно от просадки питания стартовым током второго, но вроде стартовым током не шпинделя, он ещё не крутится к тому моменту. Диски на других проводах ничего не замечают. Если бы это были конденсаторы в БП, то наверно не важно на каком проводе было бы?

понятно что просадка на проводе к которому подключяется винт будет больше. и это ни разу не показатель состояния конденсаторов в БП, их без разбирания можно оценить только по уровню выходных пульсаций, если есть чем измерить (например тестер с RMS измерением или осциллограф)

NiTr0 ★★★★★
()
Ответ на: комментарий от NiTr0

Хм тогда ему надо power on hours каждый час перезаписывать и двигать головками для этого (если они паркуются меньше чем за час)? Или он при неожиданном отключении питания на энергии останавливающегося шпинделя с уже не тем rpm его успевает записать из оперативной памяти? А если ОС ещё и шпиндель ему остановила то как? Или это в power on не учитывается?

Да и формат смарта выглядит так как будто там байты экономят (вот те же int16 для таймстампов селфтестов), даже на древних дисках, для которых этот формат только что придумали, вроде бы потратить лишний 512-байт сектор на эти данные проблемой бы не было, зачем такое?

firkax ★★★★★
() автор топика
Последнее исправление: firkax (всего исправлений: 2)
Ответ на: комментарий от firkax

скорее всего - держит в памяти, записывает на блины в процессе следующего обращения если запаркован, ну и регулярно в процессе работы переписывает (при каждой смене инфы смарта).

формат - родом из 90-х, и никто его менять на новый стильный молодежный не будет чтобы не ломать совместимость.

NiTr0 ★★★★★
()
Ответ на: комментарий от NiTr0

Я знаю что он родом из 90-х, и специально указал, что даже по тем временам сэкономить целый байт на каком-то поле, при хранении этого всего на магнитном диске, уже не выглядело целесообразным.

Единственное где об этом можно было всерьёз думать это дискеты.

А вот если оно хранилось в какой-то другой памяти, более дорогой и малообъёмной, то уже можно было бы понять.

firkax ★★★★★
() автор топика
Последнее исправление: firkax (всего исправлений: 1)
Ответ на: комментарий от firkax

когда диск 40-100 МЕГАбайт, а кеш-память диска (куда смарт должен помещаться, да, вместе с таблицами трансляции и т.п.) 256-512 КИЛОбайт то раздувать служебку даже на несколько секторов уже нецелесообразно…

NiTr0 ★★★★★
()
Ответ на: комментарий от NiTr0

У дисков 40 мегабайт не было ни служебки, ни смарта, ни кеша. Был контроллер на отдельной плате (вставлялась в материнку), в нём видимо всё-таки было немного памяти, т.к. только что прочитанный сектор надо где-то хранить пока проц его не заберёт.

firkax ★★★★★
() автор топика
Ответ на: комментарий от NiTr0

В 1995 году были не 120 Мбайт, а 500 Мбайт.

ATA-3 принят в 1997 году. В описании команды SMART READ ATTRIBUTE VALUES было написано:

If the SMART feature set is implemented, this command is optional

and not recommended.

А ATA-4 переименовывал эту команду в SMART READ DATA, отменял SMART READ ATTRIBUTE THRESHOLDS и менял формат, то есть изначально была чехарда.

У меня есть живой 140, 170 и 500 Мбайт, там нет SMART'а.

120 Мбайт — 420 модель (386, 4 Мбайт ОЗУ, 120 Мбайт НЖМД), 1992-93 год, тогда ещё не было SFF-8035i. Только во второй ревизии SFF-8035i в 1996 году ввели таблицу параметров SMART (30 шт). Никто бы не стал вводить что-то новое на устаревшие НЖМД.

mky ★★★★★
()
Ответ на: комментарий от NiTr0

Да, тех годов, но 1,7 Гб — это уже 1997-1998 годы. И в MPA3017AT, во всяком случае в описании утилиты PC-3000 указана возможность сброса его счётчиков.

Но между 120 Мбайт и 1700 Мбайт несколько лет, но пропасть изменений. Не только SMART добавили, но и стало нормой использование DMA, а потом UDMA. Насколько я помню, 120-140 Мбайт вобще DMA не умели, во всяком случае Multiword DMA, когда разом передаётся сектор. Кеша, даже 64 кБайт, ЕМНИП, у 120 Мбайт не было, во всяком случае не помню, чтобы такой параметр приводили в сравнениях/тестах/обзорах. Понятно, что какой-то буфер был, но видимо, на один-два сектора. Зачем больше в режиме PIO?

И realloc'а секторов у 120 Мбайт не было. У меня дома НЖМД, купленый году 1996, сильно подешевле, так как его уронили, на нём появился bad sector, и он так там и остался, не смотря на многочисленные форматирования под DOS'ом, где шла запись во все сектора.

mky ★★★★★
()
Ответ на: комментарий от NiTr0

У меня писало, я раз криво подоткнул шлейф, на второй перезагрузке второй из трёх НЖМД не распознался, а я лупанул под ДОСом format D:, ну он мне раздел на третьем и отформатировал. Потом думал, что под Линуксом что-то прочитаю, текстовые документы вытащю, но фиг, одни нули. Ну и NDD (Norton Disk Destroyer) пробовал писать в эти Bad сектора, его там тоже не раз запускали.

Для таблиц дефектов

Не знаю, были ли они тогда в ОЗУ контроллера. Я помню, что у 40 Мбайт НЖМД прямо на корпусе с завода был список дефектных секторов, напечатанный на наклейке. И, если там было пусто, то такой бердан был круче. Запросто, что заводские таблицы сбойных секторов и трансляций писались в ПЗУ, один раз на заводе.

Это уже в районе 1-2 Гбайт стал автоматический remap при записи и зоны на блинах там же появились, что LBA в физический CHS стал сложно преобразовываться.

mky ★★★★★
()
Ответ на: комментарий от mumpster

А чем в 1994 году читали SMART параметры?

Может быть квантум и продвигал SMART, так как здесь https://www1.ucsc.edu/news_events/press_releases/archive/99-00/09-99/smart_so... написано:

SANTA CRUZ, CA--Free software enabling users of the Linux operating system to monitor their hard drives and detect predictable drive failures is available from the Concurrent Systems Laboratory at the University of California, Santa Cruz (http://csl.cse.ucsc.edu/software/smart/). Development of the software is sponsored by Quantum Corp. of Milpitas, Calif.,

a leading manufacturer of hard-disk drives.

А именно из этого ucsc smartsuite вышел smartmontools.

И ещё там написано:

The software for monitoring S.M.A.R.T.-capable hard drives has been available for Windows operating systems since 1995.

Но не указано чей софт. Если софт квантума, то тогда понятно, как они до официального выхода стандартов реализовали SMART.

Ещё на сайте T10 гуглится такое:

The copy of SMART (Self Monitoring Analysis and Reporting

Technology) submitted by Quantum was approved for publication as SFF-8035i.

Те берданы, про которые я писал, они не Квантумы, видимо у конкурентов SMART появился на поколение позже, чем у Квантума. Ну, и, в конце 1994 года были уже 500 Мбайт, видимо ваш 170 младщий в линейке 170, 300, 430...

mky ★★★★★
()
Ответ на: комментарий от mky

я хз если яестно, это было ~30 лет назад. дос и w3.1 и лантастик 6ой на аркнете. у нас была какая-то утилита, она чего-то такое и писала. брали её с BBSки через модем.))) помню, что фактически там мало чего было, PoH и про ошибки. диски точно квантум были, продрайв или как-то так, IDE на 170 мб, пришли в составе Decstation, этобыл предсмертный вздох, ещё сервак был ихний. на 486. пенёк PRO нам Москва не дала.

mumpster ★★★★★
()
Ответ на: комментарий от mky

список заводских дефектов на наклейке был разве что на MFM дисках, тупых. на АТА - все внутри. даже на первых, тех что с шаговым мотором на приводе головы…

NiTr0 ★★★★★
()
Последнее исправление: NiTr0 (всего исправлений: 1)
Ответ на: комментарий от NiTr0

Это от производителя зависит. Одни и на MFM deffects list не наклеивали, а WD на IDE-ATA-PATA наклеивал. Вот первая фото, https://www.ebay.com/itm/177042831755 там не совсем ATA, там XT-IDE, он же XTA, 8 бит, а не 16. Но это IDE, а не MFM, там по шлейфу передавались команды и цифровые данные, а не как у MFM - дифф. сигнал напрямую на головку. Эту фотку привожу, так как там пропечатан один дефект.

А вот полноценный IDE (ATA) http://old-stuff.ru/Western-Digital-93044-A/ просто там пустой deffects list. Не смог найти фото с чем-то пропечатаным в этой таблице, но, ЕМНИП, бывали такие 40 Мбайт с заводскими дефектами.

Ну ещё до кучи такая ссылка https://www.os2museum.com/wp/identify-ancient-drive/ тем кто кричит, что всё 100% совместимо и едино. Как пример того, что когда какой-то стандарт внедряется, вылазят всякие косяки. Там про этот WD написано, что он в другом порядке, чем все остальные ATA НЖМД, передавал байты. Поэтому его модель всякими утилитами распознавалась как «DW9 0344A-( 4 0BM)», а не «WD 93044-A ( 40 MB )», как задумывали авторы прошивки.

mky ★★★★★
()
Последнее исправление: mky (всего исправлений: 1)
Ответ на: комментарий от mky

ST-351A/X - раритет 92-го года с шаговым мотором привода головы - уже имел полноценную служебку, с дефект листами и оверлеями https://www.acelab.ru/dep.pc/doc.pc3000dos/050530.001/PCST351A.pdf

при этом имел аж целых 8кб кеш памяти.

NiTr0 ★★★★★
()
Ответ на: комментарий от NiTr0

WD 93044 — типичный для 1990 года 40 Мбайт IDE НЖМД, на рынке с начала 1989 года. Когда IDE (PATA) только начинался. По мнению некоторых, представлял контроллер ST506 на банке НЖМД.

А вы привели не раритет, а непонятный прикол от ST. Он из 1992 года (на рынке с 1991), у него 40 Мбайт на одной пластине, в отличии от предыдущих 40 Мбайт НЖМД, но шаговый привод. Хотя ST тогда уже вовсю выпускал линейный привод головок. Одновременно с ST-351A/X был выпущен ST3120A (целых 32 кбайт ОЗУ) и чуть позже ST3144A (131 Мбайт).

Я это уже писал, что для 1992 года типичная ёмкость 120 Мбайт, и если кто-то выпустил в том году 40 Мбайт, то всё одно, электроника/контроллер будет схожий со 120 Мбайт моделями.

mky ★★★★★
()
Ответ на: комментарий от mky

вообще-то нифига не типичный, WD тех годов были отсталым днищем. тот же conner cp340 уже имел нормальный список заводских дефектов, без которых read-ahead чтение было бы невозможным. это 1987 год, да, АТА-1.

NiTr0 ★★★★★
()
Ответ на: комментарий от NiTr0

Хватит даты путать.

это 1987 год, да, АТА-1

WD тех годов были отсталым днищем.

WD (Bill Frank) и разработал IDE, да, слово ATA тогда не знали. В конце 1984 году WD начал окучивать тогдашних гигантов рынка PC. Весной 1985 года Compaq проявил интерес и они вместе с WD продолжили разрабатывать IDE. Комитет CAM (Common Access Method Commitee) который этот стандарт утряхивал был создан в октябре 1988. И первый их документ, касающийся темы, был выпущен весной 1989 CAM/89-002 (Common Access Method AT Bus Attachment). И только тогда появился термин ATA, причём без всякой цифры.

Conner Peripherals cp340 был сказочным диском. cp341 был его переделкой под IDE по заказу Compaq и шёл в их компы Portable III, так как CDC не сделал IDE НЖМД в 3,5″. А на рынок комплктующих CP341 продавался как CP342. Но цена от этого меньше не стала. WD 93044 шёл по цене, сопоставимой с MFM, а SCSI были долларов на 100 дороже, поэтому и не взлетели. То, что дешевле, то и было типичным.

mky ★★★★★
()

как такое случилось

По той или иной причине перещёлкнул бит в служебной области, где хранились изменяемые данные для прошивки. Контрольная сумма не сошлась, поэтому процедура чтения вернула ошибку. Вызывающий процедуру чтения, предварительно обнулил буфер для данных, но ошибку не проверяет, поэтому чтение возвращает нули. Ну а дальше эти нули пропарсились в данные, которые оказались относительно рабочими.

vbr ★★★★★
()
Последнее исправление: vbr (всего исправлений: 1)