LINUX.ORG.RU
ФорумAdmin

targetcli - при записи на диск больших файлов получаем битые файлы.

 


0

4

Здравствуйте.

Использовал targetcli, Ubuntu18, клиент WIn10

Комп:

Lan 1Gb, 3SSD 1Tb, собранные в софтовый RAID0, ext4 Смонтировал этот райд на /storage1

Создал файл:

dd if=/dev/zero of=/storage1/lun0.img bs=1M count=1782579

Настройки таргета:

targetcli /backstores/fileio/ create storage1 /storage1/lun0.img
targetcli /iscsi/ create iqn.2019-02.pro.home:gserver
targetcli  /iscsi/iqn.2019-02.pro.home:gserver/tpg1/luns create /backstores/fileio/storage1
targetcli /iscsi/iqn.2019-02.pro.home:gserver/tpg1/acls/ create iqn.1991-05.com.microsoft:gserver

В винде подключился к таргету, появился диск, отформатировал в NTFS, назвал Z

Всё работает, залил файлы.

И тут началось:

При копировании больших файлов (15Gb) на диск Z, получаем битые файлы, не верная контрольная сумма.

Где смотреть? Винда? Убунта? Железо?


Ответ на: комментарий от red_rain

А чё ты том не отдаёшь в iscsi?

В мануалах вычитал, что мне подходит fileio

Или что-то не так?

Или не делаешь образ на JFS?

Да как-то так сложилось, что всё делаю на ext4. Стоит переделать? Аргументы?

INDIGO ()
Ответ на: комментарий от anonymous

Из ошибок на сервере постоянно это сыпется:

root@fserver:~# dmesg --level=err
[    0.044745] ACPI Exception: AE_BAD_PARAMETER, Could not install PciConfig handler for Root Bridge PCI0 (20170831/evrgnini-241)
[    4.303456] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20170831/psargs-364)
[    4.303463] ACPI Error: Method parse/execution failed \_SB.PCI0.SAT0.PRT0._GTF, AE_NOT_FOUND (20170831/psparse-550)
[    4.303575] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20170831/psargs-364)
[    4.303580] ACPI Error: Method parse/execution failed \_SB.PCI0.SAT0.PRT0._GTF, AE_NOT_FOUND (20170831/psparse-550)
[    4.305800] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20170831/psargs-364)
[    4.305806] ACPI Error: Method parse/execution failed \_SB.PCI0.SAT0.PRT1._GTF, AE_NOT_FOUND (20170831/psparse-550)
[    4.305846] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20170831/psargs-364)
[    4.305852] ACPI Error: Method parse/execution failed \_SB.PCI0.SAT0.PRT2._GTF, AE_NOT_FOUND (20170831/psparse-550)
[    4.305892] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20170831/psargs-364)
[    4.305898] ACPI Error: Method parse/execution failed \_SB.PCI0.SAT0.PRT3._GTF, AE_NOT_FOUND (20170831/psparse-550)
[    4.321824] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20170831/psargs-364)
[    4.321831] ACPI Error: Method parse/execution failed \_SB.PCI0.SAT0.PRT1._GTF, AE_NOT_FOUND (20170831/psparse-550)
[    4.321870] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20170831/psargs-364)
[    4.321877] ACPI Error: Method parse/execution failed \_SB.PCI0.SAT0.PRT2._GTF, AE_NOT_FOUND (20170831/psparse-550)
[    4.321916] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20170831/psargs-364)
[    4.321923] ACPI Error: Method parse/execution failed \_SB.PCI0.SAT0.PRT3._GTF, AE_NOT_FOUND (20170831/psparse-550)

Как вычитал, вроде бы не критично.

INDIGO ()

Битые файлы - это либо ram битый или с сетевыми картами проблемы. Я бы начал с длительной проверки памяти сервера (если оно без ЕСС), а потом отключал всякий offload на сетевой карте. Где-то давно читал про проблемы iscsi и offload на некоторых картах.

fileio нафиг! Он применим только если экспортируешь файл через iscsi. Для блочных устройств нужно использовать blockio (точное название не помню)

vel ★★★★★ ()
Ответ на: комментарий от vel

Память протестировал мемтестом. Всё ок.

Насчёт offloada можно подробнее? Где отключать в винде или на убунте?

Вот на убунте, две сетевухи работают как одна:


sysadmin@fserver:~$ ethtool --show-offload enp6s0
Features for enp6s0:
rx-checksumming: on
tx-checksumming: off
        tx-checksum-ipv4: off
        tx-checksum-ip-generic: off [fixed]
        tx-checksum-ipv6: off
        tx-checksum-fcoe-crc: off [fixed]
        tx-checksum-sctp: off [fixed]
scatter-gather: off
        tx-scatter-gather: off
        tx-scatter-gather-fraglist: off [fixed]
tcp-segmentation-offload: off
        tx-tcp-segmentation: off
        tx-tcp-ecn-segmentation: off [fixed]
        tx-tcp-mangleid-segmentation: off
        tx-tcp6-segmentation: off
udp-fragmentation-offload: off
generic-segmentation-offload: off [requested on]
generic-receive-offload: on
large-receive-offload: off [fixed]
rx-vlan-offload: on
tx-vlan-offload: on
ntuple-filters: off [fixed]
receive-hashing: off [fixed]
highdma: on [fixed]
rx-vlan-filter: off [fixed]
vlan-challenged: off [fixed]
tx-lockless: off [fixed]
netns-local: off [fixed]
tx-gso-robust: off [fixed]
tx-fcoe-segmentation: off [fixed]
tx-gre-segmentation: off [fixed]
tx-gre-csum-segmentation: off [fixed]
tx-ipxip4-segmentation: off [fixed]
tx-ipxip6-segmentation: off [fixed]
tx-udp_tnl-segmentation: off [fixed]
tx-udp_tnl-csum-segmentation: off [fixed]
tx-gso-partial: off [fixed]
tx-sctp-segmentation: off [fixed]
tx-esp-segmentation: off [fixed]
fcoe-mtu: off [fixed]
tx-nocache-copy: off
loopback: off [fixed]
rx-fcs: off
rx-all: off
tx-vlan-stag-hw-insert: off [fixed]
rx-vlan-stag-hw-parse: off [fixed]
rx-vlan-stag-filter: off [fixed]
l2-fwd-offload: off [fixed]
hw-tc-offload: off [fixed]
esp-hw-offload: off [fixed]
esp-tx-csum-hw-offload: off [fixed]
rx-udp_tunnel-port-offload: off [fixed]
sysadmin@fserver:~$ ethtool --show-offload enp8s0
Features for enp8s0:
rx-checksumming: on
tx-checksumming: on
        tx-checksum-ipv4: off [fixed]
        tx-checksum-ip-generic: on
        tx-checksum-ipv6: off [fixed]
        tx-checksum-fcoe-crc: off [fixed]
        tx-checksum-sctp: off [fixed]
scatter-gather: on
        tx-scatter-gather: on
        tx-scatter-gather-fraglist: off [fixed]
tcp-segmentation-offload: on
        tx-tcp-segmentation: on
        tx-tcp-ecn-segmentation: off [fixed]
        tx-tcp-mangleid-segmentation: off
        tx-tcp6-segmentation: on
udp-fragmentation-offload: off
generic-segmentation-offload: on
generic-receive-offload: on
large-receive-offload: off [fixed]
rx-vlan-offload: on
tx-vlan-offload: on
ntuple-filters: off [fixed]
receive-hashing: on
highdma: on [fixed]
rx-vlan-filter: on [fixed]
vlan-challenged: off [fixed]
tx-lockless: off [fixed]
netns-local: off [fixed]
tx-gso-robust: off [fixed]
tx-fcoe-segmentation: off [fixed]
tx-gre-segmentation: off [fixed]
tx-gre-csum-segmentation: off [fixed]
tx-ipxip4-segmentation: off [fixed]
tx-ipxip6-segmentation: off [fixed]
tx-udp_tnl-segmentation: off [fixed]
tx-udp_tnl-csum-segmentation: off [fixed]
tx-gso-partial: off [fixed]
tx-sctp-segmentation: off [fixed]
tx-esp-segmentation: off [fixed]
fcoe-mtu: off [fixed]
tx-nocache-copy: off
loopback: off [fixed]
rx-fcs: off
rx-all: off
tx-vlan-stag-hw-insert: off [fixed]
rx-vlan-stag-hw-parse: off [fixed]
rx-vlan-stag-filter: off [fixed]
l2-fwd-offload: off [fixed]
hw-tc-offload: off [fixed]
esp-hw-offload: off [fixed]
esp-tx-csum-hw-offload: off [fixed]
rx-udp_tunnel-port-offload: off [fixed]

INDIGO ()
Последнее исправление: INDIGO (всего исправлений: 1)
Ответ на: комментарий от INDIGO
root@fserver:~# ethtool -k bond0
Features for bond0:
rx-checksumming: off [fixed]
tx-checksumming: on
        tx-checksum-ipv4: off [fixed]
        tx-checksum-ip-generic: on
        tx-checksum-ipv6: off [fixed]
        tx-checksum-fcoe-crc: off [fixed]
        tx-checksum-sctp: off [fixed]
scatter-gather: on
        tx-scatter-gather: on
        tx-scatter-gather-fraglist: off [requested on]
tcp-segmentation-offload: on
        tx-tcp-segmentation: on
        tx-tcp-ecn-segmentation: on
        tx-tcp-mangleid-segmentation: on
        tx-tcp6-segmentation: on
udp-fragmentation-offload: off
generic-segmentation-offload: on
generic-receive-offload: on
large-receive-offload: on
rx-vlan-offload: on
tx-vlan-offload: on [fixed]
ntuple-filters: off [fixed]
receive-hashing: off [fixed]
highdma: on
rx-vlan-filter: on
vlan-challenged: off [fixed]
tx-lockless: on [fixed]
netns-local: on [fixed]
tx-gso-robust: off [fixed]
tx-fcoe-segmentation: off [fixed]
tx-gre-segmentation: on
tx-gre-csum-segmentation: on
tx-ipxip4-segmentation: on
tx-ipxip6-segmentation: on
tx-udp_tnl-segmentation: on
tx-udp_tnl-csum-segmentation: on
tx-gso-partial: off [fixed]
tx-sctp-segmentation: off [fixed]
tx-esp-segmentation: off [fixed]
fcoe-mtu: off [fixed]
tx-nocache-copy: off
loopback: off [fixed]
rx-fcs: off [fixed]
rx-all: off [fixed]
tx-vlan-stag-hw-insert: off [fixed]
rx-vlan-stag-hw-parse: off [fixed]
rx-vlan-stag-filter: off [fixed]
l2-fwd-offload: off [fixed]
hw-tc-offload: off [fixed]
esp-hw-offload: off [fixed]
esp-tx-csum-hw-offload: off [fixed]
rx-udp_tunnel-port-offload: off [fixed]
INDIGO ()
Ответ на: комментарий от vel

Провёл эксперимент:

На серваке, на диске, не RAID0, создал каталог и расшарил его через самбу. Копирую с винды на эту шару файл 15Gb. После копирования всё ОК.

На серваке, на диске (/dev/md0 , RAID0) создал каталог и расшарил его через самбу.

Копирую с винды на эту шару файл 15Gb. После копирования получаю ошибки контрольной суммы.

Подозрения на RAID0? Но что там? В логах всё ок.

INDIGO ()
Ответ на: комментарий от INDIGO

На enp8s0 у тебя оффлоад включен.

Я бы отключил gro,sg,tso.

На оффтопике тоже есть смысл отключить разгрузку.

Попробовать воспроизвести ошибки с другого клиентского компа

vel ★★★★★ ()
Последнее исправление: vel (всего исправлений: 1)
Ответ на: комментарий от INDIGO

Нужно как-то локализовать проблему. Менять нужно что-то одно за раз.

Хорошо бы клиента сначала сменить.

Просто копирование внутри сервера скорее всего ничего не выявит.

У меня где-то была утиль, которая считала и сохраняла КС для блоков заданного размера. Таким образом я искал что именно было битое в большом файле.

Если ты на оффтопике расшаришь диск с оригиналом файла, который бьется, то можно сравнить файлы напрямую.

Если через cifs проблемы нет, значит точно проблема в iscsi

vel ★★★★★ ()
Ответ на: комментарий от vel

У меня всё больше уверенности, что проблема в /dev/md0 RAID0, примонтирован на /storage1 отформатирован в XFS

Что сделал:

  1. С офтопика скопировал на сервак файл 15GB, в каталог, расположенные не на рейде, /home/adm/temp.
  2. На серваке, через консоль проверяю MD5 файла. Всё сходится.
  3. На серваке из каталога /home/adm/temp копирую файл 15GB в каталог /storage1 (это RAID0) И получаю битый файл!!!!!!!!!!

Как так?

В /storage1 свободного места 3% Может с этим связано? SSD TRIM?

INDIGO ()
Последнее исправление: INDIGO (всего исправлений: 1)
Ответ на: комментарий от INDIGO

Ну вот, проблема локализована. Это хорошо. Остается вопрос - это косяк xfs или железа? В релизации raid0 таких проблем уже не должно быть.

Перегревов нет? Кабели саташные - исправные, разъёмы все нормально вствлены?

А что за диски в рейде? Тут что-то говорили про поблемы дисков с smr и xfs

vel ★★★★★ ()
Ответ на: комментарий от INDIGO

А там тоже xfs? Т.к. с mdadm никогда похожей проблемы не было

На серваке, на диске, не RAID0, создал каталог и расшарил его через самбу. Копирую с винды на эту шару файл 15Gb. После копирования всё ОК.

router ★★★★★ ()
Ответ на: комментарий от vel

Тут что-то говорили про поблемы дисков с smr и xfs

Вроде с zfs и mdadm. Из-за smr рандомные задежрки при записи. В результате диск признаётся сбойным и вылетает из рейда. Но это точно отразилось бы в логах. Как и отваливающийся кабель

router ★★★★★ ()
Ответ на: комментарий от vel

Да, проблема более-менее определяется:

при копорировании большого файла внутри рейда получаем ошибку md5

sysadmin@fserver:/storage1/storage1/local/Asrock B85 PRO4$ md5sum -c b85pr4_0.md5
b85pr4_0.GHO: OK
sysadmin@fserver:/storage1/storage1/local/Asrock B85 PRO4$ mc

sysadmin@fserver:/storage1/storage1/local/Asrock B85 PRO4$ cd ../
sysadmin@fserver:/storage1/storage1/local$ ls
 2  'Asrock B85 PRO4'
sysadmin@fserver:/storage1/storage1/local$ cd 2
sysadmin@fserver:/storage1/storage1/local/2$ ls
b85pr4_0.GHO  b85pr4_0.md5
sysadmin@fserver:/storage1/storage1/local/2$ md5sum -c b85pr4_0.md5
b85pr4_0.GHO: FAILED
md5sum: WARNING: 1 computed checksum did NOT match
sysadmin@fserver:/storage1/storage1/local/2$ md5sum b85pr4_0.GHO
3d86b0bf09b41d02a8de571e806f5a60  b85pr4_0.GHO
sysadmin@fserver:/storage1/storage1/local/2$

Диски Patriot P200 1TB 3 штуки

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.15.0-126-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     Patriot P200 1TB
Serial Number:    AA000000000000000058
Firmware Version: S0424A0
User Capacity:    1,024,209,543,168 bytes [1.02 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-2 T13/2015-D revision 3
SATA Version is:  SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sat Dec 12 11:36:52 2020 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

SATA кабели хорошие, с защёлками. Сейчас не проверить.

Перегрева нет. По смарту всегда температура 40 градусов, что странно....

INDIGO ()
Ответ на: комментарий от router

А там тоже xfs? Т.к. с mdadm никогда похожей проблемы не было

Не, ext4.

На серваке есть ещё один ssd в xfs, он не в рейде, но тоже расшарен для офтопика.

На него копируется без проблем.

INDIGO ()
Последнее исправление: INDIGO (всего исправлений: 1)
Ответ на: комментарий от INDIGO

Из ошибок на сервере постоянно это сыпется:

Обычно такие сообщения появляются только во время загрузки (в квадратных скобках - время в секундах с запуска ядра)

Всё же интересно, что летит в dmesg во время проблемного копирования

dmesg -T -w

или, если на ACPI ругается постоянно,

dmesg -T -w | grep -v ACPI
router ★★★★★ ()
Последнее исправление: router (всего исправлений: 1)
Ответ на: комментарий от INDIGO

Про перегрев я имел ввиду чипсет.

А что за мать? Разгона случаем нет?

В смартах дисков нет ничего подозрительного?

Я бы попробовал оставить в рейде 2 диска и повторить эксперимент. Возможно выяснится, что один из дисков глючный.

Жаль, что вычисление диска на который приходится ошибка очень трудоёмкая операция.

Если выяснится, что ошибка плавающая, то скорее всего это аппаратная проблема «южного» моста, куда подключен сата.

Если есть отдельный саташный контроллер, то можно на него переключить рейд и посмотреть.

vel ★★★★★ ()
Ответ на: комментарий от router

Я перенес /var через pvmove, a потом на его месте создал новый lv с ext4 и залил туда какие-то данные. (При создании ext4 оно сделало трим).

Отмонтировал. Через некоторое время попытался смонтировать . Получил мертвый ext4.

Ссд был самсунг сата типа 850evo на 250га

Всё бы ничего, но примерно через год, очередной раз апгрейдив диски, я снова столкнулся с такой же ситуацией!

Спасало только наличие бекапов.

vel ★★★★★ ()
Ответ на: комментарий от vel

MB Z370M DS3H-CF Разгона нет. Температура мониторится, перегрева нет.

Смарт дисков нормальный, почти одинаковый у всех 3 дисков.

root@fserver:~# smartctl -a /dev/sdd
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.15.0-126-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     Patriot P200 1TB
Serial Number:    AA000000000000000058
Firmware Version: S0424A0
User Capacity:    1,024,209,543,168 bytes [1.02 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-2 T13/2015-D revision 3
SATA Version is:  SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sat Dec 12 23:43:42 2020 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x02) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (  120) seconds.
Offline data collection
capabilities:                    (0x11) SMART execute Offline immediate.
                                        No Auto Offline data collection support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        No Selective Self-test supported.
SMART capabilities:            (0x0002) Does not save SMART data before
                                        entering power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  10) minutes.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x0032   100   100   050    Old_age   Always       -       0
  5 Reallocated_Sector_Ct   0x0032   100   100   050    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   050    Old_age   Always       -       7523
 12 Power_Cycle_Count       0x0032   100   100   050    Old_age   Always       -       67
160 Unknown_Attribute       0x0032   100   100   050    Old_age   Always       -       0
161 Unknown_Attribute       0x0033   100   100   050    Pre-fail  Always       -       100
163 Unknown_Attribute       0x0032   100   100   050    Old_age   Always       -       19
164 Unknown_Attribute       0x0032   100   100   050    Old_age   Always       -       21058
165 Unknown_Attribute       0x0032   100   100   050    Old_age   Always       -       71
166 Unknown_Attribute       0x0032   100   100   050    Old_age   Always       -       4
167 Unknown_Attribute       0x0032   100   100   050    Old_age   Always       -       43
168 Unknown_Attribute       0x0032   100   100   050    Old_age   Always       -       7000
169 Unknown_Attribute       0x0032   100   100   050    Old_age   Always       -       100
175 Program_Fail_Count_Chip 0x0032   100   100   050    Old_age   Always       -       0
176 Erase_Fail_Count_Chip   0x0032   100   100   050    Old_age   Always       -       0
177 Wear_Leveling_Count     0x0032   100   100   050    Old_age   Always       -       0
178 Used_Rsvd_Blk_Cnt_Chip  0x0032   100   100   050    Old_age   Always       -       0
181 Program_Fail_Cnt_Total  0x0032   100   100   050    Old_age   Always       -       0
182 Erase_Fail_Count_Total  0x0032   100   100   050    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   050    Old_age   Always       -       41
194 Temperature_Celsius     0x0022   100   100   050    Old_age   Always       -       40
195 Hardware_ECC_Recovered  0x0032   100   100   050    Old_age   Always       -       4173078
196 Reallocated_Event_Count 0x0032   100   100   050    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   050    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0032   100   100   050    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0032   100   100   050    Old_age   Always       -       0
232 Available_Reservd_Space 0x0032   100   100   050    Old_age   Always       -       100
241 Total_LBAs_Written      0x0030   100   100   050    Old_age   Offline      -       238079
242 Total_LBAs_Read         0x0030   100   100   050    Old_age   Offline      -       2912598
245 Unknown_Attribute       0x0032   100   100   050    Old_age   Always       -       719064

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      7494         -
# 2  Extended offline    Completed without error       00%      7465         -
# 3  Short offline       Completed without error       00%      7464         -

Selective Self-tests/Logging not supported

В понедельник шлейфы сата проверю.... А что их проверять? Комп стоит в подсобке, его ни кто не трогает...

Как вариант форматнуть в ext4, проверенная ФС...

INDIGO ()
Последнее исправление: INDIGO (всего исправлений: 1)
Ответ на: комментарий от INDIGO
  1. 160 Unknown_Attribute

для ssd расширенные данные можно посмотреть так:

smartctl -l devstat $DISK
  1. что забыл спросить с самого начала - рейд полностью программный mdadm, или же через mdadm идет работа с фейк-рейдом вроде imsm?
mdadm --detail $MD
  1. Ядро, надеюсь, из дистрибутива, а не самосбор? Можно точную версию? uname -r

  2. А про перегрев и чипсет очень хорошая версия. ssd в рейде от других вариантов тестирования будет отличаться намного большим потоком данных. Есть ли возможность повторить тесты на другом железе?

Да, я видел фразу «температура мониторится», но там нет инфы, что мониторится температура обоих мостов и (если есть) sas/sata контроллера(если он отдельный). Например, как-то так:

# ipmitool sdr type Temperature
CPU0 Temp        | 01h | ok  |  3.0 | 33 degrees C
CPU1 Temp        | 02h | ns  |  3.1 | Disabled
CPU 0 MOS Area   | 07h | ok  |  7.0 | 35 degrees C
Ambient          | 08h | ns  |  7.0 | No Reading
SR5690 Case      | 03h | ok  |  7.0 | 58 degrees C
SR5650 Case      | 04h | ns  |  7.0 | Disabled
SAS Case         | 05h | ok  |  7.0 | 60 degrees C
System Inlet     | 06h | ns  |  7.0 | No Reading
  1. Т.к. других идей нет, брутфорс: что различается в правильном и битом файлах? т.е. не видно ли какой-то системы?
diff <(hexdump -C file.normal) <(hexdump -C file.garbage) > file.diff

честно скажу, я не пробовал запускать diff на гигабайтных файлах

router ★★★★★ ()
Последнее исправление: router (всего исправлений: 2)
Ответ на: комментарий от router

Шлейфы проверил, они на месте.

для ssd расширенные данные можно посмотреть так:


root@fserver:~# smartctl -l devstat /dev/sdb
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.15.0-128-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

Device Statistics (GP Log 0x04)
Page  Offset Size        Value Flags Description
0x01  =====  =               =  ===  == General Statistics (rev 1) ==
0x01  0x008  4              69  ---  Lifetime Power-On Resets
0x01  0x010  4            7585  ---  Power-on Hours
0x01  0x018  6      2712343923  ---  Logical Sectors Written
0x01  0x020  6               9  ---  Number of Write Commands
0x01  0x028  6      2751425224  ---  Logical Sectors Read
0x01  0x030  6             402  ---  Number of Read Commands
0x07  =====  =               =  ===  == Solid State Device Statistics (rev 1) ==
0x07  0x008  1               0  ---  Percentage Used Endurance Indicator
                                |||_ C monitored condition met
                                ||__ D supports DSN
                                |___ N normalized value

root@fserver:~# smartctl -l devstat /dev/sdc
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.15.0-128-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

Device Statistics (GP Log 0x04)
Page  Offset Size        Value Flags Description
0x01  =====  =               =  ===  == General Statistics (rev 1) ==
0x01  0x008  4              69  ---  Lifetime Power-On Resets
0x01  0x010  4            7560  ---  Power-on Hours
0x01  0x018  6      2710382063  ---  Logical Sectors Written
0x01  0x020  6               6  ---  Number of Write Commands
0x01  0x028  6      2766141640  ---  Logical Sectors Read
0x01  0x030  6             404  ---  Number of Read Commands
0x07  =====  =               =  ===  == Solid State Device Statistics (rev 1) ==
0x07  0x008  1               0  ---  Percentage Used Endurance Indicator
                                |||_ C monitored condition met
                                ||__ D supports DSN
                                |___ N normalized value

root@fserver:~# smartctl -l devstat /dev/sdd
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.15.0-128-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

Device Statistics (GP Log 0x04)
Page  Offset Size        Value Flags Description
0x01  =====  =               =  ===  == General Statistics (rev 1) ==
0x01  0x008  4              68  ---  Lifetime Power-On Resets
0x01  0x010  4            7557  ---  Power-on Hours
0x01  0x018  6      2717893501  ---  Logical Sectors Written
0x01  0x020  6              12  ---  Number of Write Commands
0x01  0x028  6      2727146538  ---  Logical Sectors Read
0x01  0x030  6             658  ---  Number of Read Commands
0x07  =====  =               =  ===  == Solid State Device Statistics (rev 1) ==
0x07  0x008  1               0  ---  Percentage Used Endurance Indicator
                                |||_ C monitored condition met
                                ||__ D supports DSN
                                |___ N normalized value

root@fserver:~#

что забыл спросить с самого начала - рейд полностью программный mdadm, или же через mdadm идет работа с фейк-рейдом вроде imsm?

Рейд программный, создан при установки системы

root@fserver:/storage1/storage1# mdadm --detail /dev/md0
/dev/md0:
           Version : 1.2
     Creation Time : Tue Nov 19 16:26:29 2019
        Raid Level : raid0
        Array Size : 3000213504 (2861.23 GiB 3072.22 GB)
      Raid Devices : 3
     Total Devices : 3
       Persistence : Superblock is persistent

       Update Time : Tue Nov 19 16:26:29 2019
             State : clean
    Active Devices : 3
   Working Devices : 3
    Failed Devices : 0
     Spare Devices : 0

        Chunk Size : 512K

Consistency Policy : none

              Name : fserver:0  (local to host fserver)
              UUID : a0efb3f0:f709ff4e:db80c3ac:3a35cc8c
            Events : 0

    Number   Major   Minor   RaidDevice State
       0       8       17        0      active sync   /dev/sdb1
       1       8       33        1      active sync   /dev/sdc1
       2       8       49        2      active sync   /dev/sdd1

root@fserver:/storage1/storage1# uname -r
4.15.0-128-generic

Температура

root@fserver:/storage1/storage1# sensors
acpitz-virtual-0
Adapter: Virtual device
temp1:        +16.8°C  (crit = +20.8°C)
temp2:        +27.8°C  (crit = +119.0°C)
temp3:        +29.8°C  (crit = +119.0°C)

coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +28.0°C  (high = +82.0°C, crit = +100.0°C)
Core 0:        +26.0°C  (high = +82.0°C, crit = +100.0°C)
Core 1:        +27.0°C  (high = +82.0°C, crit = +100.0°C)
Core 2:        +24.0°C  (high = +82.0°C, crit = +100.0°C)
Core 3:        +24.0°C  (high = +82.0°C, crit = +100.0°C)
Core 4:        +25.0°C  (high = +82.0°C, crit = +100.0°C)
Core 5:        +28.0°C  (high = +82.0°C, crit = +100.0°C)

INDIGO ()
Последнее исправление: INDIGO (всего исправлений: 1)
Ответ на: комментарий от router

Словил ошибки при копировании 15Gb внутри рейда.

40/00:01:01:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[Mon Dec 14 17:12:04 2020] ata4.00: status: { DRDY }
[Mon Dec 14 17:12:04 2020] ata4.00: failed command: WRITE FPDMA QUEUED
[Mon Dec 14 17:12:04 2020] ata4.00: cmd 61/00:c8:00:25:91/03:00:76:00:00/40 tag 25 ncq dma 393216 out
                                    res 40/00:01:06:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[Mon Dec 14 17:12:04 2020] ata4.00: status: { DRDY }
[Mon Dec 14 17:12:04 2020] ata4: hard resetting link
[Mon Dec 14 17:12:04 2020] ata4: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[Mon Dec 14 17:12:04 2020] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20170831/psargs-364)
[Mon Dec 14 17:12:04 2020] No Local Variables are initialized for Method [_GTF]
[Mon Dec 14 17:12:04 2020] No Arguments are initialized for method [_GTF]
[Mon Dec 14 17:12:04 2020] ACPI Error: Method parse/execution failed \_SB.PCI0.SAT0.PRT3._GTF, AE_NOT_FOUND (20170831/psparse-550)
[Mon Dec 14 17:12:04 2020] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20170831/psargs-364)
[Mon Dec 14 17:12:04 2020] No Local Variables are initialized for Method [_GTF]
[Mon Dec 14 17:12:04 2020] No Arguments are initialized for method [_GTF]
[Mon Dec 14 17:12:04 2020] ACPI Error: Method parse/execution failed \_SB.PCI0.SAT0.PRT3._GTF, AE_NOT_FOUND (20170831/psparse-550)
[Mon Dec 14 17:12:04 2020] ata4.00: configured for UDMA/133
[Mon Dec 14 17:12:04 2020] ata4: EH complete

Весь лог тут https://bit.ly/349aG7k

Что это?

MB? SSD?

INDIGO ()
Ответ на: комментарий от router

Нашел в чём проблема…

Разобрал raid0 и проверил копирование файла на каждый диск….

На /dev/sdb1 ошибки при копировании и проявились….

Похоже это оно….

Всем спасибо за участие.

INDIGO ()