LINUX.ORG.RU
ФорумAdmin

Не осилил megaraid. Хочу использовать software raid

 , ,


0

1

Есть старенький сервер аппаратным RAID (без батареи):

06:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 1078 (rev 04)
	Subsystem: Intel Corporation Integrated RAID Controller SROMBSASMP2
	Kernel driver in use: megaraid_sas
	Kernel modules: megaraid_sas

...

Integrated Intel(R) RAID Controller SROMBSASMP2 encl:2 ldrv:1  batt:FAULT, module missing, pack missing, charge failed

...

System Information
	Manufacturer: Intel Corporation
	Product Name: S5520UR

Сейчас в нём стоят страрые диски (не являются compatible):

4 х ST9250410AS,
1 x ST9250610NS

По smart ошибок на них не видно.

Из всех дисков собран RAID6 массив. Диски периодически вылетают в `Unconfigured(bad)`. Или вообще пропадают до перевтыкания.

С megasascli я не смог особо подружиться. Интерфейс кажется отвратительно неудобным. Логи контроллера пока не смог прочитать.

___
Сейчас рассматриваю вариант купить новые диски (например, HTE721010A9E630), воткнуть их в контроллер без RAID (single disk) и собрать на них software raid 5.

Почему так делать не стоит? Или мне это не поможет и non-compatible диски будут вылетать всё равно, даже в single disk?

dmesg:

[    5.209214] megasas: 06.810.09.00-rc1
[    5.223403] megaraid_sas 0000:06:00.0: FW now in Ready state
[    5.237320] megaraid_sas 0000:06:00.0: firmware supports msix	: (0)
[    5.250130] megaraid_sas 0000:06:00.0: current msix/online cpus	: (1/8)
[    5.289961] megaraid_sas 0000:06:00.0: RDPQ mode	: (disabled)
[    5.400208] megaraid_sas 0000:06:00.0: controller type	: MR(512MB)
[    5.400209] megaraid_sas 0000:06:00.0: Online Controller Reset(OCR)	: Enabled
[    5.400210] megaraid_sas 0000:06:00.0: Secure JBOD support	: No
[    5.400218] megaraid_sas 0000:06:00.0: megasas_init_mfi: fw_support_ieee=0
[    5.400230] megaraid_sas 0000:06:00.0: INIT adapter done
[    5.400232] megaraid_sas 0000:06:00.0: Jbod map is not supported megasas_setup_jbod_map 4941
[    5.448108] megaraid_sas 0000:06:00.0: DCMD not supported by firmware - megasas_ld_list_query 4343
[    5.476238] megaraid_sas 0000:06:00.0: pci id		: (0x1000)/(0x0060)/(0x8086)/(0x3505)
[    5.476240] megaraid_sas 0000:06:00.0: unevenspan support	: no
[    5.476241] megaraid_sas 0000:06:00.0: firmware crash dump	: no
[    5.476243] megaraid_sas 0000:06:00.0: jbod sync map		: no
[2016212.300766] megaraid_sas 0000:06:00.0: DCMD not supported by firmware - megasas_ld_list_query 4343
[2016212.328753] megaraid_sas 0000:06:00.0: scanning for scsi4...
[2137514.526383] megaraid_sas 0000:06:00.0: DCMD not supported by firmware - megasas_ld_list_query 4343
[2137514.550408] megaraid_sas 0000:06:00.0: scanning for scsi4...
[2137514.551894] megaraid_sas 0000:06:00.0: 293030 (574341722s/0x0001/CRIT) - VD 00/0 is now DEGRADED
[2137639.083265] megaraid_sas 0000:06:00.0: 293032 (574341848s/0x0004/CRIT) - Enclosure PD 08(c None/p1) phy bad for slot 1
[2150731.354640] megaraid_sas 0000:06:00.0: DCMD not supported by firmware - megasas_ld_list_query 4343
[2150731.378582] megaraid_sas 0000:06:00.0: scanning for scsi4...
[2152640.194603] megaraid_sas 0000:06:00.0: 293155 (574356848s/0x0004/CRIT) - Enclosure PD 08(c None/p1) not responding
[2156221.602414] megaraid_sas 0000:06:00.0: 293241 (574360425s/0x0002/CRIT) - Rebuild failed on PD 13(e0xff/s19) due to target drive error
[2157278.266167] megaraid_sas 0000:06:00.0: DCMD not supported by firmware - megasas_ld_list_query 4343
[2157278.286411] megaraid_sas 0000:06:00.0: scanning for scsi4...
[2157278.288337] megaraid_sas 0000:06:00.0: 293296 (574361480s/0x0001/CRIT) - VD 00/0 is now DEGRADED
[2157884.719754] megaraid_sas 0000:06:00.0: 293325 (574362087s/0x0002/CRIT) - Rebuild failed on PD 14(e0xff/s20) due to target drive error
[2177726.036486] megaraid_sas 0000:06:00.0: DCMD not supported by firmware - megasas_ld_list_query 4343
[2177726.060642] megaraid_sas 0000:06:00.0: scanning for scsi4...
[2269584.872885] megaraid_sas 0000:06:00.0: DCMD not supported by firmware - megasas_ld_list_query 4343
[2269584.896871] megaraid_sas 0000:06:00.0: scanning for scsi4...
[2269584.901900] megaraid_sas 0000:06:00.0: 295034 (574473723s/0x0001/CRIT) - VD 00/0 is now DEGRADED
★★★★★

Ответ на: комментарий от Tanger

Да. Если даунтайм критичен, конечно.

anonymous
()

Сейчас рассматриваю вариант купить новые диски (например, HTE721010A9E630), воткнуть их в контроллер без RAID (single disk) и собрать на них software raid 5.

Если не ошибаюсь, то многие LSI шьются в it-mode для обычного jbod'a, так что еще какой-то контроллер не понадобится. Raid5 на более чем трех дисках не рекомендуется, потому что есть немалый шанс вылета еще одного диска при ребилде. А на чем софтварный собирать планируется? mdadm?

Deleted
()
Ответ на: комментарий от Deleted

А на чем софтварный собирать планируется? mdadm?

вероятно mdadm + lvm поверх.

Raid5 на более чем трех дисках не рекомендуется, потому что есть немалый шанс вылета еще одного диска при ребилде.

Размышляю между raid5 (3x1TB) и raid6 (5x1TB).

Tanger ★★★★★
() автор топика
Ответ на: комментарий от Deleted

Если не ошибаюсь, то многие LSI шьются в it-mode для обычного jbod'a, так что еще какой-то контроллер не понадобится.

А можно ли его?

Он же

Integrated Intel(R) RAID Controller SROMBSASMP2

https://pastebin.com/v4vQAVx0

Не могу ничего найти по запросу `SROMBSASMP2 «Initiator Target»`.

Tanger ★★★★★
() автор топика
Ответ на: комментарий от Tanger

Затупил. Думал у вас какой-то отдельный LSI-йный контроллер стоял. С ним ничего хорошего не получится.

Deleted
()
Ответ на: комментарий от Tanger

Размышляю между raid5 (3x1TB) и raid6 (5x1TB).

Как уже сказали выше - если даунтайм критичен, то лучше о RAID5 забыть.

Deleted
()
Ответ на: комментарий от t184256

При этом в бестпрактис к емц хранилкам флеш и гибрид указывается именно рейд 5 как рекомендуемый )

stave ★★★★★
()
Ответ на: комментарий от Tanger

В случае 5 нужен обязательно хотя спейр, что особо не влияет на большом количестве дисков. А а тебя всего 3 штуки + хотспейр = 4. Так не проще ли сделать 10 рейд, получив буст в иопсах?

stave ★★★★★
()

С megasascli я не смог особо подружиться. Интерфейс кажется отвратительно неудобным.

storcli (или storcli64) посмотри. Качается архив (можно с сайта lsi, можно intel - особой разницы нет), на инсталлятор забивается: там мрак вообще, с web, явой и хз ещё чем, но это архив, и там есть этот storcli.

Про несовместимость - мрак какой-то. У меня MegaRAID SAS 2208 (Intel RS25DB080), что засунул (sata даже, не sas), с тем и работает.

AS ★★★★★
()
Последнее исправление: AS (всего исправлений: 1)
Ответ на: комментарий от AS

Кстати, у них обновление прошивки бывает, я у своего обновлял. Правда, надо читать ридми, могут эксцессы быть. От полной несовместимости (это на srcu31 было у них) до необходимости сброса в дефолт (как раз на RS25DB080), но без потери конфигурации. Лучше забакапиться, наверное, перед обновлением. Обновлять можно тем же storcli.

AS ★★★★★
()

4 х ST9250410AS,
RAID

Вот так, точно делать не стоило с самого начала. Напихаем десктопных хардов в raid6 и потом жалуемся.

anc ★★★★★
()
Ответ на: комментарий от Vlad-76

Спасибо.

Полный лог участка: https://pastebin.com/r5GYMydm

$ cat info.log | grep -E "Event Description|Time" | tr -d '\n' | sed 's/$/\n/;s/Time: /\n/g;s/Event Description//g;'

Tue Mar 13 01:40:26 2018: Removed: PD 16(e0x08/s4) Info: enclPd=08, scsiType=0, portMap=04, sasAddr=0a271c047d807523,0000000000000000
Tue Mar 13 01:40:26 2018: State change on PD 16(e0x08/s4) from ONLINE(18) to FAILED(11)
Tue Mar 13 01:40:26 2018: State change on VD 00/0 from OPTIMAL(3) to PARTIALLY DEGRADED(1)
Tue Mar 13 01:40:26 2018: State change on PD 16(e0x08/s4) from FAILED(11) to UNCONFIGURED_BAD(1)
Tue Mar 13 01:40:28 2018: Inserted: PD 16(e0x08/s4)
Tue Mar 13 01:40:28 2018: Inserted: PD 16(e0x08/s4) Info: enclPd=08, scsiType=0, portMap=04, sasAddr=0a271c047d807523,0000000000000000
Wed Mar 14 11:22:02 2018: Removed: PD 13(e0x08/s1) Info: enclPd=08, scsiType=0, portMap=01, sasAddr=0a271c09678c7d3f,0000000000000000
Wed Mar 14 11:22:02 2018: State change on PD 13(e0x08/s1) from ONLINE(18) to FAILED(11)
Wed Mar 14 11:22:02 2018: State change on VD 00/0 from PARTIALLY DEGRADED(1) to DEGRADED(2)
Wed Mar 14 11:22:02 2018: State change on PD 13(e0x08/s1) from FAILED(11) to UNCONFIGURED_BAD(1)
Wed Mar 14 12:09:42 2018: State change on PD 16(e0x08/s4) from UNCONFIGURED_BAD(1) to UNCONFIGURED_GOOD(0)
Wed Mar 14 12:09:49 2018: Foreign Configuration Detected
Wed Mar 14 12:12:14 2018: Foreign Configuration Detected
Wed Mar 14 12:12:37 2018: Foreign Configuration Detected
Wed Mar 14 12:12:37 2018: Foreign Configuration Detected
Wed Mar 14 12:17:28 2018: Foreign Configuration Detected
Wed Mar 14 12:17:53 2018: Foreign Configuration Detected
Wed Mar 14 12:18:24 2018: State change on PD 16(e0x08/s4) from UNCONFIGURED_GOOD(0) to OFFLINE(10)
Wed Mar 14 12:18:24 2018: Replaced Missing as PD 16(e0x08/s4) on array 0 row 4
Wed Mar 14 12:18:37 2018: Rebuild started on PD 16(e0x08/s4)
Wed Mar 14 12:18:37 2018: State change on PD 16(e0x08/s4) from OFFLINE(10) to REBUILD(14)
Wed Mar 14 15:02:19 2018: Rebuild complete on VD 00/0
Wed Mar 14 15:02:19 2018: Rebuild complete on PD 16(e0x08/s4)
Wed Mar 14 15:02:19 2018: State change on PD 16(e0x08/s4) from REBUILD(14) to ONLINE(18)
Wed Mar 14 15:02:19 2018: State change on VD 00/0 from DEGRADED(2) to PARTIALLY DEGRADED(1)
Wed Mar 14 15:34:08 2018: Inserted: PD 13(e0xff/s19)
Wed Mar 14 15:34:08 2018: Inserted: PD 13(e0xff/s19) Info: enclPd=ffff, scsiType=0, portMap=01, sasAddr=0a271c09678c7d3f,0000000000000000
Wed Mar 14 15:43:25 2018: State change on PD 13(e0xff/s19) from UNCONFIGURED_BAD(1) to UNCONFIGURED_GOOD(0)
Wed Mar 14 15:44:37 2018: Foreign Configuration Detected
Wed Mar 14 15:45:37 2018: Foreign Configuration Detected
Wed Mar 14 15:45:55 2018: State change on PD 13(e0xff/s19) from UNCONFIGURED_GOOD(0) to OFFLINE(10)
Wed Mar 14 15:45:55 2018: Replaced Missing as PD 13(e0xff/s19) on array 0 row 1
Wed Mar 14 15:47:08 2018: Rebuild started on PD 13(e0xff/s19)
Wed Mar 14 15:47:08 2018: State change on PD 13(e0xff/s19) from OFFLINE(10) to REBUILD(14)
Wed Mar 14 16:33:45 2018: Removed: PD 13(e0xff/s19) Info: enclPd=ffff, scsiType=0, portMap=01, sasAddr=0a271c09678c7d3f,0000000000000000
Wed Mar 14 16:33:45 2018: State change on PD 13(e0xff/s19) from REBUILD(14) to FAILED(11)
Wed Mar 14 16:33:45 2018: State change on PD 13(e0xff/s19) from FAILED(11) to UNCONFIGURED_BAD(1)
Wed Mar 14 16:38:38 2018: Inserted: PD 13(e0xff/s19)
Wed Mar 14 16:38:38 2018: Inserted: PD 13(e0xff/s19) Info: enclPd=ffff, scsiType=0, portMap=01, sasAddr=0a271c09678c7d3f,0000000000000000
Wed Mar 14 16:51:20 2018: Removed: PD 14(e0x08/s2) Info: enclPd=08, scsiType=0, portMap=02, sasAddr=0a271c0a547d7349,0000000000000000
Wed Mar 14 16:51:20 2018: State change on PD 14(e0x08/s2) from ONLINE(18) to FAILED(11)
Wed Mar 14 16:51:20 2018: State change on VD 00/0 from PARTIALLY DEGRADED(1) to DEGRADED(2)
Wed Mar 14 16:51:20 2018: State change on PD 14(e0x08/s2) from FAILED(11) to UNCONFIGURED_BAD(1)
Wed Mar 14 16:52:58 2018: Inserted: PD 14(e0xff/s20)
Wed Mar 14 16:52:58 2018: Inserted: PD 14(e0xff/s20) Info: enclPd=ffff, scsiType=0, portMap=02, sasAddr=0a271c0a547d7349,0000000000000000
Wed Mar 14 16:54:41 2018: State change on PD 14(e0xff/s20) from UNCONFIGURED_BAD(1) to UNCONFIGURED_GOOD(0)
Wed Mar 14 16:55:15 2018: State change on PD 14(e0xff/s20) from UNCONFIGURED_GOOD(0) to OFFLINE(10)
Wed Mar 14 16:55:15 2018: Replaced Missing as PD 14(e0xff/s20) on array 0 row 2
Wed Mar 14 16:55:30 2018: Rebuild started on PD 14(e0xff/s20)
Wed Mar 14 16:55:30 2018: State change on PD 14(e0xff/s20) from OFFLINE(10) to REBUILD(14)
Wed Mar 14 16:59:48 2018: Unexpected sense: PD 14(e0xff/s20) Path a271c0a547d7349, CDB: 28 00 00 00 02 00 00 00 28 00, Sense: 6/29/00
Wed Mar 14 17:01:27 2018: Removed: PD 14(e0xff/s20) Info: enclPd=ffff, scsiType=0, portMap=02, sasAddr=0a271c0a547d7349,0000000000000000
Wed Mar 14 17:01:27 2018: State change on PD 14(e0xff/s20) from REBUILD(14) to FAILED(11)
Wed Mar 14 17:01:27 2018: State change on PD 14(e0xff/s20) from FAILED(11) to UNCONFIGURED_BAD(1)
Wed Mar 14 17:03:59 2018: State change on PD 13(e0xff/s19) from UNCONFIGURED_BAD(1) to UNCONFIGURED_GOOD(0)
Wed Mar 14 17:03:59 2018: State change on PD 13(e0xff/s19) from UNCONFIGURED_GOOD(0) to OFFLINE(10)
Wed Mar 14 17:03:59 2018: Replaced Missing as PD 13(e0xff/s19) on array 0 row 1
Wed Mar 14 17:04:01 2018: Rebuild started on PD 13(e0xff/s19)
Wed Mar 14 17:04:01 2018: State change on PD 13(e0xff/s19) from OFFLINE(10) to REBUILD(14)
Wed Mar 14 17:07:18 2018: Inserted: PD 14(e0xff/s20)
Wed Mar 14 17:07:18 2018: Inserted: PD 14(e0xff/s20) Info: enclPd=ffff, scsiType=0, portMap=02, sasAddr=0a271c0a547d7349,0000000000000000
Wed Mar 14 22:31:57 2018: Rebuild complete on VD 00/0
Wed Mar 14 22:31:57 2018: Rebuild complete on PD 13(e0xff/s19)
Wed Mar 14 22:31:57 2018: State change on PD 13(e0xff/s19) from REBUILD(14) to ONLINE(18)
Wed Mar 14 22:31:57 2018: State change on VD 00/0 from DEGRADED(2) to PARTIALLY DEGRADED(1)
Fri Mar 16 00:02:03 2018: Removed: PD 13(e0xff/s19) Info: enclPd=ffff, scsiType=0, portMap=01, sasAddr=0a271c09678c7d3f,0000000000000000
Fri Mar 16 00:02:03 2018: State change on PD 13(e0xff/s19) from ONLINE(18) to FAILED(11)
Fri Mar 16 00:02:03 2018: State change on VD 00/0 from PARTIALLY DEGRADED(1) to DEGRADED(2)
Fri Mar 16 00:02:03 2018: State change on PD 13(e0xff/s19) from FAILED(11) to UNCONFIGURED_BAD(1)
Fri Mar 16 00:03:28 2018: Inserted: PD 13(e0xff/s19)
Fri Mar 16 00:03:28 2018: Inserted: PD 13(e0xff/s19) Info: enclPd=ffff, scsiType=0, portMap=01, sasAddr=0a271c09678c7d3f,0000000000000000
Sat Mar 17 20:31:10 2018: Patrol Read started
Mon Mar 19 05:04:23 2018: Patrol Read complete

Мне не понятно что происходит и почему. По логу похоже что диск отключился на несколько секунд. А почему это могло произойти? Как определить - это проблема диска или контроллера?

Tanger ★★★★★
() автор топика
Ответ на: комментарий от stave

При этом не только у емц, и при этом не только флеш, и, при этом я видел только один такой случай за 10 лет и то это конченные ссзб были и сами в общем-то виноваты. Потому что надо понимать разницу между 10^14 и 10^16, а также не делать глупостей типа 13d+1p и всё будет шелковистое. Ну и да, spare тебя никак не спасёт от данной проблемы.

anonymous
()
Ответ на: комментарий от Tanger

вероятно mdadm + lvm поверх

если у Вас mdadm рассыплется, как барахло из LVM выковыривать будете?
не стоит ставить лишнюю прослойку, имхо...
собирайте нужный тип массива прямо штатными средствами LVM.. оно это умеет...
мало того, можете еще и ссд как кеш прикрутить шоб быстрее было..
да и с Вашими дисками стремно рейд 5 или 6 пилить

zelenij
()
Ответ на: комментарий от zelenij

если у Вас mdadm рассыплется, как барахло из LVM выковыривать будете?

также, как и из lvm, твой к.о.

блаблабла

искперты в треде, все по палатам

anonymous
()
Ответ на: комментарий от zelenij

А если у меня mdraid без lvm посыпется - как я буду выковыривать? Всё равно же лапша будет.

Я думаю что я возьму бекапы.

Tanger ★★★★★
() автор топика

Собрал таки аппаратный RAID-6 на 5хHTE721010A9E630.

Посмотрю, как будут себя вести.

Tanger ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.