LINUX.ORG.RU

Ошибка IO с SAS дисками

 , , , ,


0

2

Доброго дня! Случилась неожиданная проблема, куда копать непонятно. Суть: есть сервер Supermicro на 24 диска, в нем контроллер LSI 9201-16i прошитый на последнюю версию 20.00.07.00 IT. До этого на нем крутились SATA диски и все было отлично. Но тут приобрел десяток SAS дисков Seagate IBM 3Tb (ST33000650SS). Контроллер их видит, система тоже видит, но только в выводе lsblk:

[zasyadko@zasyadko-server-1 ~]$ sudo lsblk 
[sudo] password for zasyadko: 
NAME   MAJ:MIN RM   SIZE RO TYPE MOUNTPOINTS
sda      8:0    0 111,8G  0 disk 
└─sda1   8:1    0 111,8G  0 part /
sdb      8:16   0   2,7T  0 disk 
sdc      8:32   0   5,5T  0 disk 

sdb - наш клиент, через fdisk -l не видит его, sdc - такая же история, только это HGST SAS на 6tb:

Disk /dev/sda: 111,79 GiB, 120034123776 bytes, 234441648 sectors
Disk model: P4-120          
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disklabel type: dos
Disk identifier: 0x7bebad81

Device     Boot Start       End   Sectors   Size Id Type
/dev/sda1  *     2048 234436544 234434497 111,8G 83 Linux

при попытке протестировать их через hdparm ловим следующее:

[zasyadko@zasyadko-server-1 ~]$ sudo hdparm -I /dev/sdb

/dev/sdb:
SG_IO: bad/missing sense data, sb[]:  72 05 20 00 00 00 00 1c 02 06 00 00 cf 00 00 00 03 02 00 01 80 0e 00 00 05 20 00 01 ff ff ff ff
[zasyadko@zasyadko-server-1 ~]$ sudo hdparm -Tt /dev/sdb

/dev/sdb:
read() failed: Input/output error
SG_IO: bad/missing sense data, sb[]:  72 05 20 00 00 00 00 1c 02 06 00 00 cf 00 00 00 03 02 00 01 80 0e 00 00 05 20 00 01 ff ff ff ff
 Timing buffered disk reads: read() failed: Input/output error
[zasyadko@zasyadko-server-1 ~]$ sudo hdparm -I /dev/sdc

/dev/sdc:
SG_IO: bad/missing sense data, sb[]:  72 03 31 00 00 00 00 34 00 0a 00 00 00 00 00 00 00 00 00 00 01 0a 00 00 00 00 00 00 00 00 00 00
[zasyadko@zasyadko-server-1 ~]$ sudo hdparm -Tt /dev/sdc

/dev/sdc:
read() failed: Input/output error
SG_IO: bad/missing sense data, sb[]:  72 03 31 00 00 00 00 34 00 0a 00 00 00 00 00 00 00 00 00 00 01 0a 00 00 00 00 00 00 00 00 00 00
 Timing buffered disk reads: read() failed: Input/output error

При этом, взял другой SATA диск, накатил на него 10ю винду, и там все прекрасно видится, форматируется, пишется, читается, Sentinel видит смарты, CrystalMark тестирует диски, и все отлично.

Кто сталкивался или знает куда копать? Что может быть не так? Двое суток уже не сплю:)

hdparm -I /dev/sda пробовал? Там тоже может быть ошибка, может контроллер не пропускает эти запросы например.

А что тебе не понравилось в lsblk и в fdisk - не понятно. Ты вставил новые диски, разделов на них разумеется нет - вот lsblk/fdisk их и не показывают.

fdisk /dev/sdb (без -l) что пишет?

firkax ★★★★★
()
Ответ на: комментарий от firkax

Конечно пробовал

[zasyadko@zasyadko-server-1 ~]$ sudo hdparm -I /dev/sda

/dev/sda:

ATA device, with non-removable media
	Model Number:       P4-120                                  
	Serial Number:      9110331100710       
	Firmware Revision:  H190117D
	Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
Standards:
	Supported: 9 8 7 6 5 
	Likely used: 9
Configuration:
	Logical		max	current
	cylinders	16383	16383
	heads		16	16
	sectors/track	63	63
	--
	CHS current addressable sectors:    16514064
	LBA    user addressable sectors:   234441648
	LBA48  user addressable sectors:   234441648
	Logical  Sector size:                   512 bytes
	Physical Sector size:                   512 bytes
	Logical Sector-0 offset:                  0 bytes
	device size with M = 1024*1024:      114473 MBytes
	device size with M = 1000*1000:      120034 MBytes (120 GB)
	cache/buffer size  = unknown
	Form Factor: 2.5 inch
	Nominal Media Rotation Rate: Solid State Device
Capabilities:
	LBA, IORDY(can be disabled)
	Queue depth: 32
	Standby timer values: spec'd by Standard, no device specific minimum
	R/W multiple sector transfer: Max = 16	Current = 16
	DMA: mdma0 mdma1 mdma2 udma0 udma1 udma2 udma3 udma4 udma5 *udma6 
	     Cycle time: min=120ns recommended=120ns
	PIO: pio0 pio1 pio2 pio3 pio4 
	     Cycle time: no flow control=120ns  IORDY flow control=120ns
Commands/features:
	Enabled	Supported:
	   *	SMART feature set
	    	Security Mode feature set
	   *	Power Management feature set
	   *	Write cache
	   *	Look-ahead
	   *	WRITE_BUFFER command
	   *	READ_BUFFER command
	   *	NOP cmd
	   *	DOWNLOAD_MICROCODE
	   *	48-bit Address feature set
	   *	Mandatory FLUSH_CACHE
	   *	FLUSH_CACHE_EXT
	   *	SMART error logging
	   *	General Purpose Logging feature set
	   *	WRITE_{DMA|MULTIPLE}_FUA_EXT
	   *	64-bit World wide name
	   *	WRITE_UNCORRECTABLE_EXT command
	   *	{READ,WRITE}_DMA_EXT_GPL commands
	   *	Segmented DOWNLOAD_MICROCODE
	   *	Gen1 signaling speed (1.5Gb/s)
	   *	Gen2 signaling speed (3.0Gb/s)
	   *	Gen3 signaling speed (6.0Gb/s)
	   *	Native Command Queueing (NCQ)
	   *	Phy event counters
	   *	READ_LOG_DMA_EXT equivalent to READ_LOG_EXT
	   *	DMA Setup Auto-Activate optimization
	   *	Software settings preservation
	   *	SMART Command Transport (SCT) feature set
	   *	SCT Features Control (AC4)
	   *	SCT Data Tables (AC5)
	   *	Data Set Management TRIM supported (limit 8 blocks)
	   *	Deterministic read ZEROs after TRIM
Security: 
	Master password revision code = 65534
		supported
	not	enabled
	not	locked
	not	frozen
	not	expired: security count
		supported: enhanced erase
	2min for SECURITY ERASE UNIT. 2min for ENHANCED SECURITY ERASE UNIT.
Logical Unit WWN Device Identifier: 5000000000000003
	NAA		: 5
	IEEE OUI	: 000000
	Unique ID	: 000000003
Checksum: correct

А вот и ошибка fdisk:

[zasyadko@zasyadko-server-1 ~]$ sudo fdisk /dev/sdb

Welcome to fdisk (util-linux 2.38.1).
Changes will remain in memory only, until you decide to write them.
Be careful before using the write command.

fdisk: cannot open /dev/sdb: Input/output error
zasyadko
() автор топика
Ответ на: комментарий от firkax

При этом смарт прочитать может:

[zasyadko@zasyadko-server-1 ~]$ sudo smartctl -a /dev/sdb
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.2.7-arch1-1] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               IBM-ESXS
Product:              ST33000650SS
Revision:             BC37
Compliance:           SPC-4
User Capacity:        3 000 592 982 016 bytes [3,00 TB]
Logical block size:   512 bytes
Formatted with type 2 protection
8 bytes of protection information per logical block
Rotation Rate:        7200 rpm
Form Factor:          3.5 inches
Logical Unit id:      0x5000c50040fdc6d3
Serial number:        Z291SSQ500009218146W
Device type:          disk
Transport protocol:   SAS (SPL-4)
Local Time is:        Tue Mar 21 21:21:20 2023 MSK
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Enabled

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     36 C
Drive Trip Temperature:        65 C

Accumulated power on time, hours:minutes 49955:08
Elements in grown defect list: 0

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:   2321459369        0         0  2321459369          0    3034025,170           0
write:         0        0         0         0          0       3063,212           0
verify: 4253262901        0         0  4253262901          0      67116,423           0

Non-medium error count:      764

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background short  Completed                   -   49935                 - [-   -    -]

Long (extended) Self-test duration: 27600 seconds [7,7 hours]

zasyadko
() автор топика

Проблема решена, в выводе smartctl видим некоторое дерьмо

Formatted with type 2 protection

Смотрим дальше и видим Protection: prot_en=1, p_type=1, p_i_exponent=0 [type 2 protection]

[zasyadko@zasyadko-server-1 ~]$ sudo sg_readcap -l /dev/sdb
Read Capacity results:
   Protection: prot_en=1, p_type=1, p_i_exponent=0 [type 2 protection]
   Logical block provisioning: lbpme=0, lbprz=0
   Last LBA=5860533167 (0x15d50a3af), Number of logical blocks=5860533168
   Logical block length=512 bytes
   Logical blocks per physical block exponent=0
   Lowest aligned LBA=0
Hence:
   Device size: 3000592982016 bytes, 2861588.5 MiB, 3000.59 GB, 3.00 TB

Переформатируем (ждём 4-5 часов для 3Тб)

sg_format --format --fmtpinfo=0 /dev/sdb

Проверяем, что все ок Protection: prot_en=0, p_type=0, p_i_exponent=0

[zasyadko@zasyadko-server-1 ~]$ sudo sg_readcap -l /dev/sdb
Read Capacity results:
   Protection: prot_en=0, p_type=0, p_i_exponent=0
   Logical block provisioning: lbpme=0, lbprz=0
   Last LBA=5860533167 (0x15d50a3af), Number of logical blocks=5860533168
   Logical block length=512 bytes
   Logical blocks per physical block exponent=0
   Lowest aligned LBA=0
Hence:
   Device size: 3000592982016 bytes, 2861588.5 MiB, 3000.59 GB, 3.00 TB

А теперь и fdisk стал опознавать диск, создаем разделы, наслаждаемся.

[zasyadko@zasyadko-server-1 ~]$ sudo fdisk -l /dev/sdb
Disk /dev/sdb: 2,73 TiB, 3000592982016 bytes, 5860533168 sectors
Disk model: ST33000650SS    
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disklabel type: gpt
Disk identifier: A2036623-E052-FE48-B070-F485EC805FED

Device     Start        End    Sectors  Size Type
/dev/sdb1   2048 5860532223 5860530176  2,7T Linux filesystem
zasyadko
() автор топика
Последнее исправление: zasyadko (всего исправлений: 1)
Ответ на: комментарий от Vsevolod-linuxoid

Не, не могут. Либо фирмвари обновлять надо с пререлизных.

На LSI Megaraid старых был баг, что добавление sata к sas аффектило производительность и стабильность, но это был баг, а не фича.

Dimez ★★★★★
()
Ответ на: комментарий от d00fy

В душе не е**у:))) то ли от производителя потому что с наклейкой FOR IBM, то ли те люди что их юзали для своей конторы, но это тайна покрытая мраком, через третьи руки БУ, но наработка просто минимальная, диски почти новыми достались

zasyadko
() автор топика
Ответ на: комментарий от zasyadko

наработка просто минимальная, диски почти новыми достались

Accumulated power on time, hours:minutes 49955:08

....


SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background short  Completed                   -   49935                 - [-   -    -]

всего-то 50 тыс. часов, или >5.5 лет…

NiTr0 ★★★★★
()