LINUX.ORG.RU
ФорумAdmin

ZFS pool and Offline uncorrectable sectors

 , ,


0

1

На почту стали приходит warnings:

Device: /dev/sdd [SAT], 3 Currently unreadable (pending) sectors
Device: /dev/sdd [SAT], 3 Offline uncorrectable sectors

три сектора не читаются и не помечены к данному времени как реаллокэйтед.

есть ли надежда, что они будут помечены в скором времени или как можно ускорить этот процесс?

как произвести замену диска в данном zfs pool-е (striped mirror aka raid10)?

# zpool status -v
  pool: rpool
 state: ONLINE
  scan: scrub repaired 0B in 1h9m with 0 errors on Sun Apr 14 01:33:51 2019
config:

        NAME        STATE     READ WRITE CKSUM
        rpool       ONLINE       0     0     0
          mirror-0  ONLINE       0     0     0
            sda2    ONLINE       0     0     0
            sdb2    ONLINE       0     0     0
          mirror-1  ONLINE       0     0     0
            sdc     ONLINE       0     0     0
            sdd     ONLINE       0     0     0

# zpool iostat -v
              capacity     operations     bandwidth 
pool        alloc   free   read  write   read  write
----------  -----  -----  -----  -----  -----  -----
rpool       92.5G   329G      1     55  70.3K  1.87M
  mirror    40.9G   148G      0     26  31.5K   883K
    sda2        -      -      0     13  15.7K   442K
    sdb2        -      -      0     13  15.8K   442K
  mirror    51.6G   180G      0     28  38.7K  1.00M
    sdc         -      -      0     14  19.3K   515K
    sdd         -      -      0     14  19.4K   515K
----------  -----  -----  -----  -----  -----  -----

# smartctl -a /dev/sdd
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.15.18-7-pve] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.12
Device Model:     ST3250318AS
Serial Number:    6VY2C4ZM
LU WWN Device Id: 5 000c50 01892aafb
Firmware Version: CC35
User Capacity:    250,058,268,160 bytes [250 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Tue Apr 30 10:11:06 2019 EEST

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   111   099   006    Pre-fail  Always       -       38892278
  3 Spin_Up_Time            0x0003   097   097   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   096   096   020    Old_age   Always       -       4127
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   069   060   030    Pre-fail  Always       -       9038214
  9 Power_On_Hours          0x0032   056   056   000    Old_age   Always       -       38841
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   020    Old_age   Always       -       1974
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   098   000    Old_age   Always       -       8590066156
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   071   056   045    Old_age   Always       -       29 (Min/Max 21/31)
194 Temperature_Celsius     0x0022   029   044   000    Old_age   Always       -       29 (0 13 0 0 0)
195 Hardware_ECC_Recovered  0x001a   033   024   000    Old_age   Always       -       38892278
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       3
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       3
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       726
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       43342 (80 198 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       2102495214
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       3248288867
★★

Нет, у меня даже полный смарт тест ничего не меняет. Смирись. Все равно для zfs это фигня. У меня пару лет уже 12 бэдов и все штабильно. Скраб только исправляет по 300-600 кб битых данных раз в квартал.

Lordwind ★★★★★ ()
Последнее исправление: Lordwind (всего исправлений: 1)

Чтобы бэдблоки ушли (навсегда если это софтбэд или переназначились если это настоящие бэды) в них надо что-то записать. Прикажи zfs синхронизировать тома (только не перепутай с какого на какой).

legolegs ★★★★★ ()

Дарю идею: выведи подозрительный диск из пула, обнули его dd и введи его обратно в пул. В этом случае dd переназначит сбойные сектора на резервную область.

iZEN ★★★★★ ()

Забей. zfs выкинет диск, когда его ошибки превысят определённое значение. Потом и заменишь.

Deleted ()

есть ли надежда, что они будут помечены в скором времени или как можно ускорить этот процесс?

вывести винт из пула. при полном стирании утилитами victoria или mhdd сектора которые ещё не в релокейт таблице гарантированно или станут релоцируемыми или войдут в строй. если есть товарищ с комплексом PC3000 он это может сделать без полного стирания но возможно за деньги. ещё открути плату и почисти контакты (если они в виде контактных площадок) от слоя окиси, если механика винта живая то дальше жить будет.

VKraft ★★ ()

На почту стали приходит warnings:

Стали приходить до последнего scrub'а или после:

scan: scrub repaired 0B in 1h9m with 0 errors on Sun Apr 14 01:33:51 2019

?

есть ли надежда, что они будут помечены в скором времени или как можно ускорить этот процесс?

Если после, запусти scrub - он их прочитает и перезапишет.

anonymous ()

как произвести замену диска в данном zfs pool-е (striped mirror aka raid10)?

zpool replace rpool sdX sdY

Как-то так. Если у тебя нет свободного слота для нового диска, то тогда после физической замены то же самое, но без sdY.

anonymous ()
Ответ на: комментарий от anc

про термопасту смишно. ну а вообще при постоянной повышенной температуре (а банка и плата хорошо прогреты) первое что происходит с контактными площадками так это окисление из-за чего плохой контакт. если контакты ножевые то отказ из-за контактов маловероятен, ессно. если график записи/чтения норм то можно предполагать что шпиндель и головки живы и пускать хдд во вторую жизть. у меня таких «рефабрикованых» с 2-3 десятка разных калибров.

VKraft ★★ ()
Ответ на: комментарий от VKraft

у меня таких «рефабрикованых» с 2-3 десятка разных калибров

Очень надеюсь что я не пользуюсь «услугами вашего банка»

anc ★★★★★ ()
Ответ на: комментарий от anc

ок. из 10 новых 1 Тб «сигейт» по вибрации шпинделя прошли в «прод» только 3. Отбирали для гавнорейда. Остальные умрут максимум через 2 года после истечения гарантии. Винты десктопные правда. Два «рефабрикованых» винта дома пашут уже года 3 +- .

VKraft ★★ ()
Ответ на: комментарий от VKraft

Винты десктопные правда.

2. Очень надеюсь что я не пользуюсь «услугами вашего банка»

Два «рефабрикованых» винта дома пашут уже года 3 +- .

home use only, где не волнует потеря данных, какую только каку не поставить. Знакомый так на бэдовом харде жил, сказал пока игрушку не пройду менять не собираюсь.

anc ★★★★★ ()
Ответ на: комментарий от VKraft

тут никто никого не заставляет )

Нет. Но вот ТС пишет про 10-й raid, вероятность что у него там копия порносайта не очень высокая. А что вы предлагаете? «сменить термопасту», «прогреть видеокарту в духовке», «почистить контакты», «смазать куллер»...

anc ★★★★★ ()
Ответ на: комментарий от anc

))) у меня 12шт вот таких https://www.nix.ru/autocatalog/hdd_ibm_hitachi/HDD-3-Tb-SATA-6Gb-s-HGST-Ultra... работает в 10-м рейде и чо? я ему сказал как убрать пендинги на винте но оставил на усмотрение хозяина данных что делать с винтом. по хорошему винт на отбраковку и вместо него такой-же в работу. а вы что подумали?

VKraft ★★ ()
Ответ на: комментарий от Deleted

Забей. zfs выкинет диск, когда его ошибки превысят определённое значение. Потом и заменишь.

Спасибо, почитал теорию и похоже это оптимальный вариант.
ZFS по идее сама определит когда перевести диск или пул в Degradated и уже тогда надо действовать.

nerve ★★ ()
Ответ на: комментарий от anc

Но вот ТС пишет про 10-й raid, вероятность что у него там копия порносайта не очень высокая.

этот сервер используется как storage, на котором два других сервера крутят виртуалки в HA.

nerve ★★ ()
22 июля 2019 г.
Ответ на: комментарий от Deleted

продолжение.

диск sdd с бэдами продолжает работать, а вот другой выбросило из пула.

zpool status -v
  pool: rpool
 state: DEGRADED
status: One or more devices has been removed by the administrator.
        Sufficient replicas exist for the pool to continue functioning in a
        degraded state.
action: Online the device using 'zpool online' or replace the device with
        'zpool replace'.
  scan: scrub repaired 0B in 1h13m with 0 errors on Sun Jun  9 01:37:45 2019
config:

        NAME        STATE     READ WRITE CKSUM
        rpool       DEGRADED     0     0     0
          mirror-0  ONLINE       0     0     0
            sda2    ONLINE       0     0     0
            sdb2    ONLINE       0     0     0
          mirror-1  DEGRADED     0     0     0
            sdc     REMOVED      0     0     0
            sdd     ONLINE       0     0     0

nerve ★★ ()
Ответ на: комментарий от anc

Винты десктопные правда.

2. Очень надеюсь что я не пользуюсь «услугами вашего банка»

А если он из backblaze?

anonymous ()
Ответ на: комментарий от nerve

может имеется ввиду, что zfs сама его выкинула?

Нет.

Вот как она выкидывает сама:

status: One or more devices are faulted in response to persistent errors.
	Sufficient replicas exist for the pool to continue functioning in a
	degraded state.
action: Replace the faulted device, or use 'zpool clear' to mark the device
	repaired.
...
wwn-0xabcdefghijklmnop  FAULTED    615     0     0  too many errors

Deleted ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.