LINUX.ORG.RU

1
Всего сообщений: 26

Скорость i/o падает в ноль во время проверки RAID6

От безысходности пишу сюда. Не знаю в чем проблема.

Стоит домашний сервер, 4 hdd диска в raid6 через mdadm. Все настройки кешей, флаги дефолтные.

Раз в месяц запускается scrubbing и где-то на половине прогресса i/o падает в ноль. Но сервер продолжает работать если программа осталась в озу. Т.е можно зайти по ssh, что-то делать пока это не связано с обращением к массиву.

Помогает только hard reset. Логи чистые как слеза младенца. Ошибок нет вообще. Стоит также smartctl, все чисто. Диски каждый день проходят быструю проверку.

Диски охлаждаются хорошо, стоят в корзине для дисков с обдувом, под нагрузкой темпа не выше 48 градусов (без ~40).

Находил похожие проблемы в гугле, но написано что это был баг и якобы он давно исправлен.

Перемещено hobbit из general

 ,

ginky ()

Зависает/перезагружается сервер с RAID6

Приветствую!

Что имею:

  1. Debian 10
  2. Software RAID6 8x8TB mdadm + LVM

Описание проблемы:

Буквально сразу после установки системы на lvm, после первой первой перезагрузки, сервер уходит в ребут с ошибкой md: super_written gets error=10. После перезагрузки смотрю cat /proc/mdstat - все нормально

Personalities : [raid1] [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid10]
md1 : active raid6 sdd2[3] sda2[0] sdc2[2] sdb2[1] sde2[4] sdh2[7] sdg2[6] sdf2[5]
      46880212992 blocks super 1.2 level 6, 512k chunk, algorithm 2 [8/8] [UUUUUUUU]
      [=>...................]  resync =  7.5% (592285532/7813368832) finish=864.8min speed=139154K/sec
      bitmap: 57/59 pages [228KB], 65536KB chunk

синхронизация идет. Окей. Проходит время (рандомное) - сервер снова в ребут с той же ошибкой. Проверяю cat /proc/mdstat - все нормально, синхронизация продолжается. В итоге синхронизация дойдет до конца, с постоянными перезагрузками, но это только начало.

Настраиваю сервер на работу с xen hypervisor, создаю lvm разделы для виртуальных машин, разворачивают уже существующие образы в lvm - все хорошо, все работает. Но недолго. Буквально через неделю произошел первый полный завис сервера с той же ошибкой (полный текст не выложу, т.к. переписываю со скрина, да там и не нужно):

md: super_written gets error=10
md/raid:md1: Disk failure on sd[a-h] (то есть он пишет так про каждый диск)
EXT4-fs error (device dm-0): __ext4_find_entry:1449: inode #2098447: comm systemd-udevd: reading directory iblock 0
Buffer I/O error on dev dm-3, logical block $BLOCK_NUMBER, lost async page write
EXT4-fs (dm-0): I/O error while writing superblock
EXT4-fs (dm-0): previous I/O error to superblock detected
EXT4-fs (dm-0): Remounting filesystem to read-only
JBD2: Error -5 detected when updating journal superblock for dm-0-8

И т.д.

Ну и система встает, не реагирует ни на что, Sysrq недоступен, сеть лежит - только ручная перезагрузка.

Проверил каждый диск: бэдблоков нет, smartctl показывает идеальное состояние, SMART overall-health self-assessment rest result: PASSED для каждого диска, fsck ничего не видит. Диски как в рабочем состоянии.

Я не пойму где и что я упускаю, ведь проблема довольно серьезная: из-за постоянных зависаний системы сервер не может войти в строй уже почти месяц. Комрады, поделитесь, пожалуйста, опытом тестирования дисков и помогите мне с моей бедой. Сервер есть - сервисов нет.

 , ,

echos063 ()

Установка Debian на SOFT RAID 6

Проблема, собственно, состоит в том, что не могу установить Debian на R6 с Boot R1.

Есть 8 дисков по 8ТБ. Диски размечены в GPT. Нужно из них сделать общий LVM R6 и Boot хотя бы R1. Не могу понять, как правильно сделать разметку дисков и какие разделы загонять в рейд, а какие нет, чтобы загрузчик встал без проблем.

Если убрать из уравнения GPT, то на тестовом стенде загрузчик без проблем встает в R1. С добавлением GPT появляется EFI раздел, который я не могу понять, как монтировать.

Испробованные варианты:

  1. sdX1 = 100MB(Ext2, /boot), sdX2 = 100MB(FAT32, /boot/efi). Далее делаю из этих разделов R1 с двумя дисками и шестью в запасе. По окончанию grub не ставится.
  2. sdX1 = 100MB(Ext2, /boot), sdX2 = 100MB(EFI partition). Далее делаю из этих разделов R1 с двумя дисками и шестью в запасе. По окончанию grub не ставится.
  3. Первое и второе действие в LVM, после разметка диска согласно правилам - не ставится.

Не могу понять, как мне добиться результата.

 , , ,

echos063 ()

замена диска MegaCli

на сервере установлен контроллер

RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS-3 3108 [Invader] (rev 02)

и собран raid6

RAID Level          : Primary-6, Secondary-0, RAID Level Qualifier-3

сегодня один диск вышел из строя и был в состоянии Failed, попросил хостера заменить диск, но после того как высунули поврежденный диск, в замене было 3 запасных диска, заменили поочередно каждые 3 диска, но через megacli вообще не видит диск в слоте и даже потом вернули этот же поврежденный диск, но все равно ничего

megacli -PDList -aAll | egrep "Enclosure Device ID:|Slot Number:|Inquiry Data:|Error Count:|state"
Enclosure Device ID: 252
Slot Number: 0
Media Error Count: 0
Other Error Count: 0
Firmware state: Online, Spun Up
Inquiry Data: SEAGATE ST600MP0006     N003WAF1L2QP
Enclosure Device ID: 252
Slot Number: 1
Media Error Count: 0
Other Error Count: 0
Firmware state: Online, Spun Up
Inquiry Data: SEAGATE ST600MP0006     N003WAF1L0WF
Enclosure Device ID: 252
Slot Number: 3
Media Error Count: 0
Other Error Count: 1
Firmware state: Online, Spun Up
...

новый диск должен был определиться в слоте 2, но он пропущен

подскажите, как сделать, что бы новый диск определился?

 , , ,

Garcia ()

Linux raid level 6 скорость записи около 30 Мб/с

Массив

root@host103:~# mdadm --detail /dev/md127 
/dev/md127:
           Version : 1.2
     Creation Time : Fri Nov  6 20:36:47 2020
        Raid Level : raid6
        Array Size : 92273631232 (87998.99 GiB 94488.20 GB)
     Used Dev Size : 11534203904 (10999.87 GiB 11811.02 GB)
      Raid Devices : 10
     Total Devices : 10
       Persistence : Superblock is persistent

     Intent Bitmap : Internal

       Update Time : Mon Nov  9 04:17:49 2020
             State : active, checking 
    Active Devices : 10
   Working Devices : 10
    Failed Devices : 0
     Spare Devices : 0

            Layout : left-symmetric
        Chunk Size : 512K

Consistency Policy : bitmap

      Check Status : 0% complete

              Name : host103:2  (local to host host103)
              UUID : 4e5483ae:2e82d657:2ec42c81:1593e833
            Events : 13709

    Number   Major   Minor   RaidDevice State
       0       8       33        0      active sync   /dev/sdc1
       1       8       49        1      active sync   /dev/sdd1
       2       8       65        2      active sync   /dev/sde1
       3       8       81        3      active sync   /dev/sdf1
       4       8       97        4      active sync   /dev/sdg1
       5       8      113        5      active sync   /dev/sdh1
       6       8      129        6      active sync   /dev/sdi1
       7       8      145        7      active sync   /dev/sdj1
       8       8      161        8      active sync   /dev/sdk1
       9       8      177        9      active sync   /dev/sdl1
root@host103:~# 

из дисков

root@host103:~# fdisk -l /dev/sdc
Disk /dev/sdc: 10.94 TiB, 12000138625024 bytes, 23437770752 sectors
Disk model: TOSHIBA MG07ACA1
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disklabel type: gpt
Disk identifier: CC7399F1-714A-4ECF-B7A8-79BB1767F1B7

Device     Start         End     Sectors  Size Type
/dev/sdc1   2048 23068674047 23068672000 10.8T Linux filesystem
root@host103:~# 
root@host103:~# smartctl -i -A /dev/sdc
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.0-52-generic] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Toshiba MG07ACA... Enterprise Capacity HDD
Device Model:     TOSHIBA MG07ACA12TE
Serial Number:    20B0A2AQFDUG
LU WWN Device Id: 5 000039 9f8cb26c8
Firmware Version: 4003
User Capacity:    12,000,138,625,024 bytes [12.0 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.3, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Mon Nov  9 04:18:41 2020 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   050    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   100   100   050    Pre-fail  Offline      -       0
  3 Spin_Up_Time            0x0027   100   100   001    Pre-fail  Always       -       7148
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       10
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   050    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   100   100   050    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       85
 10 Spin_Retry_Count        0x0033   100   100   030    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       10
 23 Helium_Condition_Lower  0x0023   100   100   075    Pre-fail  Always       -       0
 24 Helium_Condition_Upper  0x0023   100   100   075    Pre-fail  Always       -       0
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       9
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       15
194 Temperature_Celsius     0x0022   100   100   000    Old_age   Always       -       27 (Min/Max 19/27)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
220 Disk_Shift              0x0002   100   100   000    Old_age   Always       -       2228224
222 Loaded_Hours            0x0032   100   100   000    Old_age   Always       -       61
223 Load_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
224 Load_Friction           0x0022   100   100   000    Old_age   Always       -       0
226 Load-in_Time            0x0026   100   100   000    Old_age   Always       -       594
240 Head_Flying_Hours       0x0001   100   100   001    Pre-fail  Offline      -       0

root@host103:~# 

Диски подключены к контроллеру PERC H730 Mini (Embedded) в режиме HBA (шасси PowerEdge R730xd)

Поверх лежит LVM.

root@host103:~# vgs
  VG   #PV #LV #SN Attr   VSize   VFree   
  vg01   1   4   0 wz--n- 439.87g  399.87g
  vg02   1   3   0 wz--n- <85.94t <158.99g
root@host103:~# 
root@host103:~# lvs | grep -e LV -e test
  LV              VG   Attr       LSize   Pool Origin Data%  Meta%  Move Log Cpy%Sync Convert
  test-begin      vg02 -wi-ao---- 400.00g                                                    
  test-end        vg02 -wi-a----- 400.00g                                                    
  test-middle     vg02 -wi-a-----  85.00t                                                    
root@host103:~# 

Показывает на операции

root@host103:~# shred -n0 -z -vv /dev/mapper/vg02-test--begin                                                                                                                                                      
shred: /dev/mapper/vg02-test--begin: pass 1/1 (000000)...                                                                                                                                                          
shred: /dev/mapper/vg02-test--begin: pass 1/1 (000000)...145MiB/400GiB 0%

скорость на запись около 30 мебибайт в секунду. Это нормально?

Прямо сейчас идёт ресинк, я руками запустил. На момент прогона shred ресинка не было.

 , ,

targitaj ()

raid6 6 дисков, затираются 2 диска при загрузке

Всем привет, нужна ваша помощь.

Сделал raid6 на 6 дисков, всё работало стабильно (разделы на них не делал, запилил в raid прямо все диски, так как они одинакового размера). Купил новый комп, воткнул туда этот массив, загрузил систему, обнаружилось, что 4 диска в норме, а на двух других появился gpt разделы.

Восстановил эти два диска с помощью штатных средств работы с raid, перегрузил комп, ситуация та-же /etc/mdadm/mdadm.conf настроен верно.

Какая-то зараза сносит мне информацию на диске, но никак не могу понять кто это делает, может быть у вас какие-либо мысли?

ОС Ubuntu 20.04, мать asrock x570 pro4 raid (подумал может в uefi raid включён, но нет его там)

В syslog, dmesg никаких злодейств тоже нет, после появления устройства находится и раздел на нём.

 , ,

ASM ()

Тормозит raid6, не могу найти причину

Собрал я намедни файлопомоечку, поставил систему, сделал raidz2, начал заполнять и удивился тормозам. Копирование на массив по сети со скоростью в районе 400МБ/с вызывало load average 26. Аналогичная картина случилась и в связке mdadm+luks, повторилась на других ядрах и дистрибутивах. Когда похожая ситуация случилась после переноса части массива (диски + HBA) на другое железо, было принято решение менять HBA.

Китайский 9205-8i был заменён на родной (по заверениям продавца) H310, load average спустился на землю, но проблема со скоростью осталась - что zfs raidz2, что mdadm raid6 отказываются работать быстрее 600МБ/с на одном массиве. При этом все винты по отдельности одновременно под аналогичной нагрузкой показывают нормальную скорость. Тесты упростились до dd if=/dev/zero…, если запустить 18 на все диски одновременно - каждый винт выдаст максимально возможную скорость, если собрать raid6 - аналогичное dd выдаст в лучшем случае 600МБ/с, при этом нагрузка равномерно разделится по дискам и ни на одном из них не будет 100% использования. Если собрать 3 массива из 6 дисков в каждом - будет 600х3.

Тестировалось: proxmox 6 с ядрами 5.3.18-3-pve и 5.4.34-1-pve, дебиан 10 с 4.19 и собранным из исходников 5.3.18, какая-то 16 убунта с её родным ядром. Везде ситуация одинаковая. Да, биос последний, mitigations=off, разницы не заметил.

Железо: 2x E5-2620, 96GB DDR3, X9DRI-F, CSE846 с BPN-SAS2-846EL1, H310 (9211-8i), 18 штук WD80EMAZ.

Единственное, что приходит в голову - тормознутые процессоры, но не может же не самый тормозной xeon времён sandy bridge работать медленнее amd a4-3400?

 , , ,

koi-sama ()

MegaRAID, вернуть диск в массив

контроллер AVAGO MegaRAID SAS 9361-8i

RAID6 из шести дисков, не доступно сейчас 3 диска диски в слотах 3 и 4 были ubad, сделал их good

вопрос теперь, как добавить ранее сконфигуренный диск в массив?

использую консольную утилиту storcli

подозреваю, что надо сделать storcli64 /cx/sx insert array=a row=b, но как то не уверен, что не сломается всё.

до этого на этом же массиве с подобной проблемой делал диск с ubad на good и после ребута сервера контроллер пометил его, как online, сейчас так не прокатывает

TOPOLOGY :
========

----------------------------------------------------------------------------
DG Arr Row EID:Slot DID Type  State BT      Size PDC  PI SED DS3  FSpace TR 
----------------------------------------------------------------------------
 0 -   -   -        -   RAID6 OfLn  N  10.914 TB dflt N  N   dflt N      N  
 0 0   -   -        -   RAID6 Dgrd  N  10.914 TB dflt N  N   dflt N      N  
 0 0   0   252:2    8   DRIVE Onln  N   2.728 TB dflt N  N   dflt -      N  
 0 0   1   -        -   DRIVE Msng  -   2.728 TB -    -  -   -    -      N  
 0 0   2   -        -   DRIVE Msng  -   2.728 TB -    -  -   -    -      N  
 0 0   3   -        -   DRIVE Msng  -   2.728 TB -    -  -   -    -      N  
 0 0   4   252:6    12  DRIVE Onln  N   2.728 TB dflt N  N   dflt -      N  
 0 0   5   252:7    13  DRIVE Onln  N   2.728 TB dflt N  N   dflt -      N  
-----------------------------------------------------------------------------------
EID:Slt DID State DG      Size Intf Med SED PI SeSz Model                  Sp Type 
-----------------------------------------------------------------------------------

252:2     8 Onln   0  2.728 TB SATA HDD N   N  512B WDC WD30EFRX-68EUZN0   U  -    
252:3     9 UGood  F  2.728 TB SATA HDD N   N  512B WDC WD30EFRX-68EUZN0   U  -    
252:4    10 UGood  F  2.728 TB SATA HDD N   N  512B WDC WD30EFRX-68EUZN0   U  -    
252:5    11 UBad   F  2.728 TB SATA HDD N   N  512B -                      U  -    
252:6    12 Onln   0  2.728 TB SATA HDD N   N  512B WDC WD30EFRX-68EUZN0   U  -    
252:7    13 Onln   0  2.728 TB SATA HDD N   N  512B WDC WD30EFRX-68EUZN0   U  -    
-----------------------------------------------------------------------------------

 

ha-ha ()

RAID6 более 2 Parity дисков и\или 2 дисков данных, возмжно?

прочитал вот эту статью про raid6 https://www.colocationamerica.com/blog/what-is-raid-fault-tolerance

raid 6 имеет тут два диска с данными и два с четностью.

пользуюсь вот этим калькулятором http://www.raid-calculator.com/default.aspx

1. Про диски с данными. Калькулятор позволят добавить в raid6 12 дисков, при 12 дисках рабочий размер получается -2 диска.

Как вообще такое возможно, чтобы 10 дисков с данными и всего 2 диска с четностью и при этом гарантия вылета двух дисков одновременно? данных то дофига? Может ли кто то объяснить?

2. Про диски с четностью. Можно ли при доступных 12 дисках сделать raid6 так чтобы было больше дисков с четностью чем 2, чтобы пережить вылет к большего количество дисков чем 2? Вообще можно ли добавить дополнительные диски с четностью?

3. Есть ли у кого то калькулятор хороший калькулятор который объясняет подробно, или быть может даже иллюстрирует.

Спасибо.

 ,

VoDD87 ()

RAID6 ==> RAID1

Установил деб с образа у хостера, установщик создал RAID6 и добавил туда все диски(2 ssd и 2 sata), но в таком раскладе диск сильно тормозит(замерял hdparm).
Хочу изменить тип на RAID1 с 2мя SSD

Исходные данные

cat /proc/mdstat
md2 : active raid6 sdb3[1] sda3[0] sdc3[2] sdd3[3]
      220674048 blocks super 1.2 level 6, 512k chunk, algorithm 2 [4/4] [UUUU]
      [=========>...........]  resync = 47.6% (52560920/110337024) finish=10.8min speed=88455K/sec
      bitmap: 1/1 pages [4KB], 65536KB chunk

md1 : active raid1 sda2[0] sdb2[1] sdc2[2] sdd2[3]
      523712 blocks super 1.2 [4/4] [UUUU]
        resync=DELAYED

md0 : active (auto-read-only) raid1 sda1[0] sdb1[1] sdc1[2] sdd1[3]
      6287360 blocks super 1.2 [4/4] [UUUU]
        resync=PENDING

lsblk
NAME    MAJ:MIN RM   SIZE RO TYPE  MOUNTPOINT
sda       8:0    0   1.4T  0 disk
├─sda1    8:1    0     6G  0 part
│ └─md0   9:0    0     6G  0 raid1 [SWAP]
├─sda2    8:2    0   512M  0 part
│ └─md1   9:1    0 511.4M  0 raid1 /boot
└─sda3    8:3    0 105.3G  0 part
  └─md2   9:2    0 210.5G  0 raid6 /
sdb       8:16   0   1.4T  0 disk
├─sdb1    8:17   0     6G  0 part
│ └─md0   9:0    0     6G  0 raid1 [SWAP]
├─sdb2    8:18   0   512M  0 part
│ └─md1   9:1    0 511.4M  0 raid1 /boot
└─sdb3    8:19   0 105.3G  0 part
  └─md2   9:2    0 210.5G  0 raid6 /
sdc       8:32   0 111.8G  0 disk
├─sdc1    8:33   0     6G  0 part
│ └─md0   9:0    0     6G  0 raid1 [SWAP]
├─sdc2    8:34   0   512M  0 part
│ └─md1   9:1    0 511.4M  0 raid1 /boot
└─sdc3    8:35   0 105.3G  0 part
  └─md2   9:2    0 210.5G  0 raid6 /
sdd       8:48   0 111.8G  0 disk
├─sdd1    8:49   0     6G  0 part
│ └─md0   9:0    0     6G  0 raid1 [SWAP]
├─sdd2    8:50   0   512M  0 part
│ └─md1   9:1    0 511.4M  0 raid1 /boot
└─sdd3    8:51   0 105.3G  0 part
  └─md2   9:2    0 210.5G  0 raid6 /

df -h
Filesystem      Size  Used Avail Use% Mounted on
udev            5.9G     0  5.9G   0% /dev
tmpfs           1.2G  8.8M  1.2G   1% /run
/dev/md2        207G  944M  195G   1% /
tmpfs           5.9G     0  5.9G   0% /dev/shm
tmpfs           5.0M     0  5.0M   0% /run/lock
tmpfs           5.9G     0  5.9G   0% /sys/fs/cgroup
/dev/md1        488M   40M  423M   9% /boot
tmpfs           1.2G     0  1.2G   0% /run/user/0



Перезагружаюсь в rescue mode
делаю
mdadm /dev/md2 --remove /dev/sda3
mdadm /dev/md2 --remove /dev/sdb3

Пишет что
hot remove failed for /dev/sda3: Device or resource busy
Хотя делаю в rescue mode и разделы эти не смонтированы.
Потом делаю
mdadm -S /dev/md2
Остановился
Создаю новый

mdadm --create --verbose /dev/md2 --level=1  --raid-devices=2 /dev/sdc3 /dev/sdd3

Создался нормально. Но не могу его примонтировать, пишет
wrong fs type, bad option, bad superblock

Перезагрузился снова в обычный режим, смотрю
md2 : active raid6 sdb3[1] sda3[0]
      220674048 blocks super 1.2 level 6, 512k chunk, algorithm 2 [4/2] [UU__]
      bitmap: 1/1 pages [4KB], 65536KB chunk

md127 : active raid1 sdc3[0] sdd3[1]
      110337472 blocks super 1.2 [2/2] [UU]
      bitmap: 0/1 pages [0KB], 65536KB chunk

md0 : active (auto-read-only) raid1 sdb1[1] sda1[0] sdc1[2] sdd1[3]
      6287360 blocks super 1.2 [4/4] [UUUU]

md1 : active raid1 sdb2[1] sda2[0] sdd2[3] sdc2[2]
      523712 blocks super 1.2 [4/4] [UUUU]



Добавился md127 и в md2 удалились 2 диска ssd
Как же сделать то по нормальному? C raid ранее не работал. разбить диск при установке Debian не могу, выбора вообще нет, только одна кнопка «Установить Linux Debian 9.5»

 , , ,

gobot ()

Странные тормоза при ребилде raid6

Потребовалось мне сделать repair на массиве, который был когда-то собран с --assume-clean, что привело к безумной цифре в mismatch_cnt.

Запустил ребилд, сижу, жду. Всё работает, скорость ребилда около 200МБ/с. Ребилд идёт, скорость потихоньку падает, всё как и положено. Доработало оно примерно до 2/3, и тут скорость упала с ожидаемых ~150МБ/с до 40Мб/с.

iostat показывает примерно такую картину:

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.00    0.00   13.64   40.91    0.00   45.45

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00
sdc           14730.00  4236.00   94.00   62.00 46992.00 15616.00   802.67     7.34   28.28   31.02   24.13   2.31  36.00
sde           14728.00  4219.00   93.00   63.00 46480.00 15616.00   796.10     7.21   26.95   29.42   23.30   2.26  35.20
sdh           14693.00  4268.00   94.00   62.00 45972.00 15616.00   789.59     7.42   27.82   30.68   23.48   2.28  35.60
sdf           14692.00  4220.00   65.00   60.00 31632.00 15104.00   747.78   143.86 1327.74  135.45 2619.40   8.00 100.00
sdd           14692.00  4221.00   92.00   61.00 45968.00 15616.00   805.02     7.31   27.61   30.48   23.28   2.33  35.60
sdg           14690.00  4245.00   93.00   69.00 45968.00 15616.00   760.30     7.63   27.53   30.84   23.07   2.20  35.60
md1               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00
md2               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00
md3               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00
md6               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00
sdi               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00
md0               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.00    0.00    9.64   43.65    0.00   46.70

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0.00     0.00    0.00    1.00     0.00     0.50     1.00     0.02   16.00    0.00   16.00  16.00   1.60
sdc           11297.00  3969.00   95.00   63.00 45568.00 16128.00   780.96     8.35   52.86   61.14   40.38   2.38  37.60
sde           11297.00  3957.00   95.00   75.00 45568.00 16128.00   725.84     9.85   57.98   72.80   39.20   2.24  38.00
sdh           11296.00  3968.00   96.00   64.00 45568.00 16128.00   771.20    10.71   66.95   81.12   45.69   2.45  39.20
sdf           11296.00  3969.00   96.00   63.00 45568.00 16128.00   776.05     9.63   60.55   73.79   40.38   2.31  36.80
sdd           11299.00  3969.00   79.00   64.00 38280.00 16128.00   760.95   154.94 1191.78  204.46 2410.50   6.99 100.00
sdg           11296.00  3968.00   96.00   64.00 45568.00 16128.00   771.20     9.96   62.27   75.29   42.75   2.30  36.80
md1               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00
md2               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00
md3               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00
md6               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00
sdi               0.00     0.00    0.00    1.00     0.00     0.50     1.00     0.02   16.00    0.00   16.00  16.00   1.60
md0               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00

Да, диск со 100% нагрузкой время от времени меняется, иногда их становится сразу несколько. Данные на массиве в порядке, смарт дисков в порядке, падения производительности в повседневных задачах не ощущается.

У меня одно объяснение - винты из одной партии, в конце дисков много переназначенных на заводе секторов. Я прав, или у этого явления могут быть программные причины?

Участники событий: debian 7, mdadm, sas2008 (LSI 9210-8i в it mode), dt01aca300.

 , ,

koi-sama ()

Контейнеры против виртуальных машин, HDD

Всем привет!

В наличии есть сервер с парой десятков виртуальных машин на нем. Виртуальные машины используются для тестирования ПО. На виртуалках стали появляться сообщения о длинных задержках от жесткого диска.

Есть ли у кого опыт, что переезд на контейнеры сможет немного сгладить ситуацию? Или идея тухлая?

Сейчас там для хранилища используется первое, что пришло в голову — raid6 из ssd-дисков. Но, думаю, это было ошибкой, и лучше сделать это по другому. Как по опыту лучше всего?

Процессора, памяти и объема хранилища в Гб там еще очень много, затык только в скорости жесткого диска.

 , , , ,

ien ()

Доказать невосстановимость информации с диска из RAID6

Привет! Есть аппаратный RAID 6 из 10 hdd дисков (полка). Умер 1 диск из этого RAID.
Вопрос - как доказать что данные с этого диска восстановить не реально (или все же реально восстановить часть информации?).
Нужно отправить диск по гарантии и быть уверенным что данные (даже малейшая часть) с него не восстановимы.
Умер - читай не раскручивается. но этот момент не рассматривается.

 

dmt ()

RAID 6 вылетели 3 диска. Помогите поднять

Ребята еще раз привет

Нужна помощь

Ситуация такая, вылетели 3 диска в RAID 6. Один диск вообще перестал определяться системой (назовем его А), 2 других (В и С) после замены 1ого стали видны и определяются системой.

Диск А заменил на новый и клонировали таблицу разделов с рабочего диска на него.

Теперь вопрос, как мне запустить рейд снова? Да еще есть вероятность, что я случайно провода не в той последовательности воткнул на этих 3х дисках. Ну грубо говоря, тот что был sdf, щас может быть sdg. Первые диски sda sdb sdc sdd sde точно подключены как были раньше. 3 других мог перепутать между собой ((, возможно, хотя вроде старался также все втыкать.

Подскажите как врубить рейд снова?

На данный момент рейд остановлен посредством

#mdadm --stop /dev/md0

#mdadm --assemble --scan
mdadm: /dev/md/0 - assembled from 5 disks. Not enough to run raid.

Подскажите как действовать?

 ,

ITdreamer ()

Вся правда о RAID6

А знаете ли вы, что при удалении ОДНОГО диска, весь массив уходит в оффлайн, и это так задумано ? Мне объяснили это так : при удалении диска, raid6 переходит в уязвимое положение : случайное удаление не того диска из массива, например, приведёт к деградации массива и надёжнее перевести массив в оффлайн, чтобы спокойно восстановить. Пичаль только том, что процесс восстановления массива на 14 дисков уже близится к неделе, а массив в офлайне. А я вещал, наслушавшись местных экспертов, что это интерпрайз, и что нужно убить ТРИ диска, чтобы потерять массив. А всего лишь взял один диск на профилактику, наивно полагая, что никто ничего и не заметит. Такие дела. Хожу, доказываю, что массив не потерян, просто он в оффлайне и надо быть спокойнее.

 

lenin386 ()

anaconda маг, творит что хочет.

май 12 19:25:13 192.168.0.2 kernel: raid6: sse2x1    4433 MB/s
май 12 19:25:13 192.168.0.2 kernel: raid6: sse2x2    6042 MB/s
май 12 19:25:13 192.168.0.2 kernel: raid6: sse2x4    7625 MB/s
май 12 19:25:13 192.168.0.2 kernel: raid6: using algorithm sse2x4 (7625 MB/s)
май 12 19:25:13 192.168.0.2 kernel: raid6: using ssse3x2 recovery algorithm
май 12 19:25:23 192.168.0.2 kernel: audit: type=1130 audit(1431447923.342:70): pid=1 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:init_t:s0 msg='unit=dmraid-activation comm="systemd" exe="/usr/lib/systemd/systemd" hostname=? addr=? terminal=? res=success'
май 12 19:25:23 192.168.0.2 kernel: audit: type=1131 audit(1431447923.342:71): pid=1 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:init_t:s0 msg='unit=dmraid-activation comm="systemd" exe="/usr/lib/systemd/systemd" hostname=? addr=? terminal=? res=success'
май 12 19:25:23 192.168.0.2 unknown[1]: <audit-1130> pid=1 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:init_t:s0 msg='unit=dmraid-activation comm="systemd" exe="/usr/lib/systemd/systemd" hostname=? addr=? terminal=? res=success'
май 12 19:25:23 192.168.0.2 unknown[1]: <audit-1131> pid=1 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:init_t:s0 msg='unit=dmraid-activation comm="systemd" exe="/usr/lib/systemd/systemd" hostname=? addr=? terminal=? res=success' 

как это могло появиться с 1 жёстким диском в системе,и когда я это не просил при установке?

 , ,

erzent ()

Резко упала скорость RAID6

Ребята, подскажите, куда копать.

У нас в студии сервак, на нем Debian 8. В серваке установлен сотовый RAID6 на 8 дисках по 2TB через mdadm, используем в качестве медиахранилища, постоянно гоняем файлы от 100кб до 100мб. Ничего не предвещало сегодня проблем, но тут люди начали жаловаться на низкую скорость чтения и записи на сервак.

Попробовал кинуть файлы по сетке на сервак. Действительно низкая скорость. Сначала думал сетка дурит, но вроде нет (у нас гигабайта разведена по студии). Перегрузили все компы и сервак, не помогло.

Начал тестить непосредственно на серваке производительность рейд. Правда я не специалист в этом, подскажите, с чего начать? Кто в этом деле шарит?

Спасибо.

 ,

ITdreamer ()

Centos 6. RAID-6, 8 дисков, стало 2 non fresh. 1 spare. Что можно сделать?

Всем доброго времени суток. В один прекрасный день, после перезагрузки развалился RAID6 состоящий из 8 дисков. Немного информации: Система, CentOS 6:

Linux Storagehost.local 2.6.32-504.12.2.el6.x86_64 #1 SMP Wed Mar 11 22:03:14 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

Всякое бывало, вылетали диски, тут все просто, заменил, добавил в массив, синхронизировались и все хорошо. А сейчас приходится взывать к помощи всемогущего all'a :). Один диск поменял свой статус на Spare, когда их в жизни в массиве не было.

Сейчас массив находится в таком состоянии :(

[root@Storagehost md10]# mdadm --detail /dev/md10
/dev/md10:
        Version : 1.2
  Creation Time : Fri Apr 11 06:26:46 2014
     Raid Level : raid6
  Used Dev Size : 976627712 (931.38 GiB 1000.07 GB)
   Raid Devices : 8
  Total Devices : 6
    Persistence : Superblock is persistent

    Update Time : Thu Mar 19 14:13:18 2015
          State : active, FAILED, Not Started 
 Active Devices : 5
Working Devices : 6
 Failed Devices : 0
  Spare Devices : 1

         Layout : left-symmetric
     Chunk Size : 512K

           Name : Storage.local:10
           UUID : 93d9ca57:2cb945ba:3e1b4952:b172404c
         Events : 24106

    Number   Major   Minor   RaidDevice State
       0       8      145        0      active sync   /dev/sdj1
       2       0        0        2      removed
       2       8      129        2      active sync   /dev/sdi1
       3       8       81        3      active sync   /dev/sdf1
       8       0        0        8      removed
      10       0        0       10      removed
      10       8      113        6      active sync   /dev/sdh1
      11       8       49        7      active sync   /dev/sdd1

      12       8      161        -      spare   /dev/sdk1
в логах что касается mdadm
dmesg | grep md
md: bind<sda1>
md: bind<sdf1>
md: bind<sdj1>
md: bind<sdk1>
md: bind<sdh1>
md: bind<sdi1>
md: bind<sdd1>
md: bind<sde1>
md: kicking non-fresh sde1 from array!
md: unbind<sde1>
md: export_rdev(sde1)
md: kicking non-fresh sda1 from array!
md: unbind<sda1>
md: export_rdev(sda1)
md: raid6 personality registered for level 6
md: raid5 personality registered for level 5
md: raid4 personality registered for level 4
md/raid:md10: device sdd1 operational as raid disk 7
md/raid:md10: device sdi1 operational as raid disk 2
md/raid:md10: device sdh1 operational as raid disk 6
md/raid:md10: device sdj1 operational as raid disk 0
md/raid:md10: device sdf1 operational as raid disk 3
md/raid:md10: allocated 0kB
md/raid:md10: not enough operational devices (3/8 failed)
md/raid:md10: failed to run raid set.
md: pers->run() failed ...

( mdadm --Examine всех дисков в массиве: )

В сети с такими проблемами редко кто сталкивается. Видел один только случай, когда в raid6 8 из 10 пометились как non fresh

mdadm --assemble --force /dev/md10 /dev/sd[adefhijk]1

не помогает, все остается без изменений.

Диски слить некуда, чтобы играться с ними. Поэтому все (впрочем как обычно) делается на живую. :(

Итак, народ толкните в нужном направлении, что можно сделать то? не верю, что не возможно поднять его.

 ,

Bummka ()

Вопросы по аппратному RAID-6

Добрый день. Есть вопросы к опытным пользователям такого железа. Буду благодарен за ответы.

1) Когда вылетает один диск - он пищит ? Интересует именно пищание, не рассылка e-mail, алерты и пр.

2) Вот вылетел один диск, мы меняем диск, начинаем восстановление, и обнаруживается ошибка на ещё одном. Он этот ещё один выбраковывает сразу же или по окончанию процесса ребилда массива ?

3) Вообще, смысл в 6-м рейде вместо 5-го, исходя из вашей практики, был хоть раз ? То, что он, теоретически, надёжнее, это понятно. Но не оборачивается ли это на практике какими-то граблями ?

 

lenin386 ()

RAID-массив - его журналы нужно зеркалировать?

На RAID есть два журнала:
журнал самого RAID (может он не журналом называется, но смысл какой-то такой же)
журнал файловой системы

Предлагают разместить эти два журнала на отдельных дисках, не тех же самых, где располагается массив.

Мне непонятно - нужно ли эти журналы размещать на RAID1 (зеркале) или можно просто разместить на двух одиночных дисках?

Т.е пять дисков нужно под RAID6, ещё 2 диска под один журнал и ещё два диска под другой журнал, правильно?

Какие диски брать под журналы в процентах от скорости дисков основного RAID - помедленнее или побыстрее?

 , ,

ruoxid_agilobetov ()