LINUX.ORG.RU

smartctl для sas дисков

 ,


0

4

Делаю # smartctl -a /dev/sda и даже получаю вывод

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-8-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               SEAGATE
Product:              ST600MM0208
Revision:             N001
Compliance:           SPC-4
User Capacity:        600,127,266,816 bytes [600 GB]
Logical block size:   512 bytes
LU is fully provisioned
Rotation Rate:        10500 rpm
Form Factor:          2.5 inches
Logical Unit id:      0x5000c500b786669b
Serial number:        W0M0QFLN0000E83053T0
Device type:          disk
Transport protocol:   SAS (SPL-3)
Local Time is:        Mon Jul 28 13:47:21 2025 MSK
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Enabled

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     28 C
Drive Trip Temperature:        60 C

Manufactured in week 22 of year 2018
Specified cycle count over device lifetime:  10000
Accumulated start-stop cycles:  73
Specified load-unload count over device lifetime:  300000
Accumulated load-unload cycles:  2383
Elements in grown defect list: 0

Vendor (Seagate) cache information
  Blocks sent to initiator = 2546067672
  Blocks received from initiator = 469109491
  Blocks read from cache and sent to initiator = 335369234
  Number of read and write commands whose size <= segment size = 11148676
  Number of read and write commands whose size > segment size = 320796

Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 56104.83
  number of minutes until next internal SMART test = 47

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:   95205185        0         0  95205185          0       1303.587           0
write:         0        0         0         0          0       4641.282           0

Non-medium error count:        1


[GLTSD (Global Logging Target Save Disable) set. Enable Save with '-S on']
No self-tests have been logged

Как получить выхлоп с привычными SMART Attributes Data...? Или как в данном случае оценить состояние диска?
обычно я смотрю на Reallocated_Sector_Ct и подобные параметры, но тут их в явном виде нету

PS. Да, старый debian, и старый smartmontools соответственно, не вижу в этом явной проблемы

★★★

По-моему никак, обычного смарта в сас нету (но если окажется что я не прав и он там просто спрятан - тоже буду рад т.к. задавался аналогичными вопросами). Ориентируйся на таблицу внизу со статистикой ошибок и на строчку grown defect list (по-моему это количество битых секторов, которые в случае с сата попали бы в счётчик realloc).

firkax ★★★★★
()
Последнее исправление: firkax (всего исправлений: 1)
Ответ на: комментарий от firkax

Увы, похоже на правду.

Обновился до debian12, пробовал для smartctl указывать --device=type, больше инфо вытянуть не удалось.

Также наткнулся на http://true-system.blogspot.com/2011/10/sas.html. Для debian пакет sg3-utils есть в репозитории.

Можно еще немного помучить диск, запустив самодиагностику, например «длинный» фоновый тест:

sg_senddiag –selftest=2 /dev/sdb

Тест прерывается с ошибкой о найденных бэдах, о чем можно узнать, запустив

sg_logs -a /dev/sdb

и посмотрев на соответствующую страницу:

Оно и без теста некоторые записи видит в моём случае, но они для меня не понятны с наскоку

root@h369:~# sg_logs -a /dev/sdd
    SEAGATE   ST600MM0208       N001

Supported log pages  [0x0]:
    0x00        Supported log pages [sp]
    0x02        Write error [we]
    0x03        Read error [re]
    0x05        Verify error [ve]
    0x06        Non medium [nm]
    0x08        Format status [fs]
    0x0d        Temperature [temp]
    0x0e        Start-stop cycle counter [sscc]
    0x0f        Application client [ac]
    0x10        Self test results [str]
    0x15        Background scan results [bsr]
    0x18        Protocol specific port [psp]
    0x1a        Power condition transitions [pct]
    0x2f        Informational exceptions [ie]
    0x37        Cache (seagate) [c_se]
    0x38        
    0x3e        Factory (seagate) [f_se]

Write error counter page  [0x2]
  Errors corrected with possible delays = 0
  Total rewrites or rereads = 0
  Total errors corrected = 0
  Total times correction algorithm processed = 0
  Total bytes processed = 4475014656
  Total uncorrected errors = 0

Read error counter page  [0x3]
  Errors corrected without substantial delay = 2090133545
  Errors corrected with possible delays = 0
  Total rewrites or rereads = 0
  Total errors corrected = 2090133545
  Total times correction algorithm processed = 0
  Total bytes processed = 606039626240
  Total uncorrected errors = 0

Verify error counter page  [0x5]
  Errors corrected without substantial delay = 0
  Errors corrected with possible delays = 0
  Total rewrites or rereads = 0
  Total errors corrected = 0
  Total times correction algorithm processed = 0
  Total bytes processed = 0
  Total uncorrected errors = 0

Non-medium error page  [0x6]
  Non-medium error count = 0

Format status page  [0x8]
  Format data out: <not available>
  Grown defects during certification <not available>
  Total blocks reassigned during format <not available>
  Total new blocks reassigned <not available>
  Power on minutes since format <not available>

Temperature page  [0xd]
  Current temperature = 27 C
  Reference temperature = 60 C

Start-stop cycle counter page  [0xe]
  Date of manufacture, year: 2018, week: 22
  Accounting date, year:     , week:   
  Specified cycle count over device lifetime = 10000
  Accumulated start-stop cycles = 75
  Specified load-unload count over device lifetime = 300000
  Accumulated load-unload cycles = 2385

Application client page  [0xf]
 00     0f 00 40 00 00 00 83 fc  00 00 00 00 00 00 00 00
 10     00 00 00 00 00 00 00 00  00 00 00 00 00 00 00 00
 20     00 00 00 00 00 00 00 00  00 00 00 00 00 00 00 00
 30     00 00 00 00 00 00 00 00  00 00 00 00 00 00 00 00
 .....  [truncated after 64 of 16388 bytes (use '-H' to see the rest)]

Self-test results page  [0x10]

Background scan results page  [0x15]
  Status parameters:
    Accumulated power on minutes: 3366575 [h:m  56109:35]
    Status: no background scans active
    Number of background scans performed: 0
    Background medium scan progress: 0.00 %
    Number of background medium scans performed: 0 [not reported]

Protocol Specific port page for SAS SSP  (sas-2) [0x18]
relative target port id = 1
  generation code = 8
  number of phys = 1
  phy identifier = 0
    attached SAS device type: SAS or SATA device
    attached reason: unknown
    reason: unknown
    negotiated logical link rate: 12 Gbps
    attached initiator port: ssp=1 stp=1 smp=1
    attached target port: ssp=0 stp=0 smp=0
    SAS address = 0x5000c500b7866699
    attached SAS address = 0x50030480235a6304
    attached phy identifier = 4
    Invalid DWORD count = 0
    Running disparity error count = 0
    Loss of DWORD synchronization count = 10
    Phy reset problem count = 10
    Phy event descriptors:
     Invalid word count: 0
     Running disparity error count: 0
     Loss of dword synchronization count: 10
     Phy reset problem count: 10
relative target port id = 2
  generation code = 8
  number of phys = 1
  phy identifier = 1
    attached SAS device type: no device attached
    attached reason: unknown
    reason: unknown
    negotiated logical link rate: phy enabled; unknown rate
    attached initiator port: ssp=0 stp=0 smp=0
    attached target port: ssp=0 stp=0 smp=0
    SAS address = 0x5000c500b786669a
    attached SAS address = 0x0
    attached phy identifier = 0
    Invalid DWORD count = 0
    Running disparity error count = 0
    Loss of DWORD synchronization count = 0
    Phy reset problem count = 0
    Phy event descriptors:
     Invalid word count: 0
     Running disparity error count: 0
     Loss of dword synchronization count: 0
     Phy reset problem count: 0

Power condition transitions page  [0x1a]
  Accumulated transitions to active = 0
  Accumulated transitions to idle_a = 932
  Accumulated transitions to idle_b = 0
  Accumulated transitions to idle_c = 0
  Accumulated transitions to standby_z = 0
  Accumulated transitions to standby_y = 0

Informational Exceptions page  [0x2f]
  IE asc = 0x0, ascq = 0x0
    Current temperature = 27 C
    Threshold temperature = 68 C  [common extension]
    Maximum temperature = 44 C  [(since new), extension]
  parameter code = 0x40, contents in hex:
 00     00 40 03 08 00 00 00 00  00 00 00 00
  parameter code = 0x41, contents in hex:
 00     00 41 03 08 00 00 00 00  00 00 00 00
  parameter code = 0x42, contents in hex:
 00     00 42 03 08 00 00 00 00  00 00 00 00

Seagate cache page [0x37]
  Blocks sent to initiator = 1183671145
  Blocks received from initiator = 8681272
  Blocks read from cache and sent to initiator = 56575321
  Number of read and write commands whose size <= segment size = 63747
  Number of read and write commands whose size > segment size = 102

Unable to decode page = 0x38, here is hex:
 00     38 00 01 b4 00 00 03 d6  00 00 00 51 13 ab 00 33
 10     5e af 13 55 00 00 00 01  13 ba 00 00 00 0d 13 a3
 20     00 33 5e af 13 ab 00 33  5e a9 13 b0 00 33 5e a9
 30     13 a4 00 33 5e a2 13 a8  00 33 5e a2 13 a2 00 33
 .....  [truncated after 64 of 440 bytes (use '-H' to see the rest)]

Seagate/Hitachi factory page [0x3e]
  number of hours powered up = 56109.58
  number of minutes until next internal SMART test = 15
  Unknown Seagate/Hitachi parameter code = 0x9
  Unknown Seagate/Hitachi parameter code = 0xe

Думаю мне этого хватит.

Flotsky ★★★
() автор топика
Ответ на: комментарий от Flotsky

Иногда можно и через smartctl, только обращаться нужно через контроллер (соответственно, параметры cli зависят от модели контроллера, который может и не поддерживаться). Например, на megaraid и smartpqi девайсах точно можно.

pekmop1024 ★★★★★
()
Ответ на: комментарий от pekmop1024

Наверное это для случаев когда на стороне контроллера диски собраны в какое-то вирт устройство, а не просто hba как у меня.

Тем не менее в моём случае как раз megaraid контроллер

04:00.0 RAID bus controller [0104]: Broadcom / LSI MegaRAID SAS-3 3108 [Invader] [1000:005d] (rev 02)
        Subsystem: Super Micro Computer Inc MegaRAID SAS-3 3108 [Invader] [15d9:0809]
        Kernel driver in use: megaraid_sas
        Kernel modules: megaraid_sas

И # smartctl -d megaraid,0 -a /dev/sdd возвращает информацию в из начала темы, также и с параметрами -d sat,auto, -d scsi и без этого ключа.
-d megaraid,1 просто показывает инфо о следующем диске.

Flotsky ★★★
() автор топика
Ответ на: комментарий от Flotsky

sg_logs

Да это то вам зачем? smartctl же написал, что 0 ошибок «rereads/rewrites» и 0 в ″Elements in grown defect list″.

И о каждом realloc, вроде, на странице логов будет сообщение:

Logical block successfully reassigned by device server

и, при этом, страницы разные, одна для self-test, который вызывается sg_senddiag, а другая для background scan, который, если активирован, периодически запускается сам.

mky ★★★★★
()
Ответ на: комментарий от Flotsky

ты мог и не мучиться с sg3, а просто сказать -t long как для обычного диска. потом бы у тебя появилась бы запись в выводе смарта про итог проверки.

инфа - 146%, я недавно такое запускал на солярке как раз для SAS.

с firkax согласен, attr ты не получишь

mumpster ★★★★★
()

Кровавый энтерпрайз как обычно

anonymous
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.