Тормозит raid6, не могу найти причину

0

4

Собрал я намедни файлопомоечку, поставил систему, сделал raidz2, начал заполнять и удивился тормозам. Копирование на массив по сети со скоростью в районе 400МБ/с вызывало load average 26. Аналогичная картина случилась и в связке mdadm+luks, повторилась на других ядрах и дистрибутивах. Когда похожая ситуация случилась после переноса части массива (диски + HBA) на другое железо, было принято решение менять HBA.

Китайский 9205-8i был заменён на родной (по заверениям продавца) H310, load average спустился на землю, но проблема со скоростью осталась - что zfs raidz2, что mdadm raid6 отказываются работать быстрее 600МБ/с на одном массиве. При этом все винты по отдельности одновременно под аналогичной нагрузкой показывают нормальную скорость. Тесты упростились до dd if=/dev/zero…, если запустить 18 на все диски одновременно - каждый винт выдаст максимально возможную скорость, если собрать raid6 - аналогичное dd выдаст в лучшем случае 600МБ/с, при этом нагрузка равномерно разделится по дискам и ни на одном из них не будет 100% использования. Если собрать 3 массива из 6 дисков в каждом - будет 600х3.

Тестировалось: proxmox 6 с ядрами 5.3.18-3-pve и 5.4.34-1-pve, дебиан 10 с 4.19 и собранным из исходников 5.3.18, какая-то 16 убунта с её родным ядром. Везде ситуация одинаковая. Да, биос последний, mitigations=off, разницы не заметил.

Железо: 2x E5-2620, 96GB DDR3, X9DRI-F, CSE846 с BPN-SAS2-846EL1, H310 (9211-8i), 18 штук WD80EMAZ.

Единственное, что приходит в голову - тормознутые процессоры, но не может же не самый тормозной xeon времён sandy bridge работать медленнее amd a4-3400?

Ссылка

←	IRedMail - Как изменить директорию открытия RoundCube

Не работает CGI и WSGI в Apache CentOS 8

→

← 1 2 →

отказываются работать быстрее 600МБ/с на одном массиве

а сколько ты хочешь?

Если собрать 3 массива из 6 дисков в каждом - будет 600х3.

так объедени их в raid0

anonymous
(25.05.20 19:22:24 MSK)

У тебя оверхед. zfs поверх софтварного рейда. Так что, либо возьми mdraid/LVM и закатай туда ext4, либо организуй рейд средствами zfs. Еще, btrfs тоже умеет в рейд.

~~anti_win~~ ★★
(25.05.20 19:25:19 MSK)

Удалить всё из /var/cache кроме папки apt если такая есть , отключить все диски и очистить /media , выполнить sudo rm -rf ~/.local/share/gvfs-metadata/* && sudo rm -rf root/.local/share/gvfs-metadata/*

anonymous
(25.05.20 19:28:54 MSK)

Ссылка

Ответ на: комментарий от anti_win 25.05.20 19:25:19 MSK

Не, я не настолько наивен. Цифры - это голый mdadm на 18 дисках или zfs на этих же дисках без mdadm.

koi-sama
(25.05.20 19:37:16 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 25.05.20 19:22:24 MSK

так объедени их в raid0

И потерять 4 диска на чётность?

а сколько ты хочешь?

Хотя бы 1.2ГБ/с, чтобы иметь возможность забить 10 гигабит. Но вообще, соседняя файлопомойка с 14-дисковым raid6 средствами mdadm и luks поверх выдаёт 1.8ГБ/с, хочется получить как минимум столько же.

koi-sama
(25.05.20 19:40:13 MSK) автор топика

Ссылка

Если собрать 3 массива из 6 дисков в каждом - будет 600х3.

Если аппаратный рейд собрать(у тебя ж там LSI, там же есть аппаратный RAID?) - скорость выдаётся как надо?

Какой планировщик I/O используется? mq-deadline?

Pinkbyte ★★★★★
(25.05.20 19:50:10 MSK)
Последнее исправление: Pinkbyte 25.05.20 19:51:10 MSK (всего исправлений: 1)

Как ты подключил 18 дисков к 8-портовому 9211-8i?

bigbit ★★★★★
(25.05.20 19:52:32 MSK)

Ответ на: комментарий от Pinkbyte 25.05.20 19:50:10 MSK

У меня HBA. Можно конечно поиграться и перешить в IR, но изначально хотелось вообще zfs. Если с точки зрения скорости до дисков - там всё ок, параллельные dd или badblocks показывают в начале дисков убедительные 3.4ГБ/с в сумме.

Планировщик - да, mq-deadline, в proxmox остался только он и noop.

edit: %util на дисках в момент копирования где-то в районе 60, с кривым планировщиком было бы 100 и рос бы iowait?

koi-sama
(25.05.20 19:55:32 MSK) автор топика
Последнее исправление: koi-sama 25.05.20 19:59:41 MSK (всего исправлений: 1)

Ответ на: комментарий от bigbit 25.05.20 19:52:32 MSK

Expander backplane - BPN-SAS2-846EL1

koi-sama
(25.05.20 19:56:11 MSK) автор топика

Ответ на: комментарий от koi-sama 25.05.20 19:56:11 MSK

Собери zfs с одним диском и проверь скорость

anonymous
(25.05.20 20:36:00 MSK)

Ссылка

Какие полные параметры запуска dd? oflag=direct есть? bs какой?

chaos_dremel ★★
(25.05.20 20:39:25 MSK)

У тебя ZFS на софтварном RAID, что ли? Совсем больной?! о_О

mord0d ★★★★★
(25.05.20 20:40:16 MSK)

Ты запись мерял?
А попробуй чтение.
У RAID-6 ведь пенальти на запись.

bigbit ★★★★★
(25.05.20 20:47:15 MSK)

Ответ на: комментарий от chaos_dremel 25.05.20 20:39:25 MSK

dd if=/dev/zero of=/dev/xxxx bs=1M

Или наоборот. 18 dd на 18 винтов - забивают всю пропускную способность SAS, 1 dd на 1 массив - тормозит.

koi-sama
(25.05.20 20:48:21 MSK) автор топика

Ответ на: комментарий от koi-sama 25.05.20 19:55:32 MSK

но изначально хотелось вообще zfs

Так никто не против. Пусть будет zfs на каком нибудь /dev/sda. Который в свою очередь уже - аппаратный RAID-6 или RAID-100500.

Мой не так чтобы большой опыт подсказывает, что, несмотря на то что софтверный рейд в линуксе - это вполне себе годнота на дрыщесерверах, но при наличии нормального(не встроенного в мать какого-нибудь intel raid-а...) контроллера - лучше контроллер. При условии конечно что у тебя есть запасной такой, ну или нормальные бэкапы(которые в любом случае не повредят).

Pinkbyte ★★★★★
(25.05.20 20:49:19 MSK)

Ответ на: комментарий от bigbit 25.05.20 20:47:15 MSK

В обе стороны мерял, на чтение такая же фигня.

koi-sama
(25.05.20 20:49:54 MSK) автор топика

Ответ на: комментарий от mord0d 25.05.20 20:40:16 MSK

Нет конечно, зачем?

koi-sama
(25.05.20 20:50:59 MSK) автор топика

Ответ на: комментарий от koi-sama 25.05.20 20:49:54 MSK

zfs pool как создавался? с ashift как полагается(для винтов с 4K-секторами это важно) или дефолт наше всё?

Pinkbyte ★★★★★
(25.05.20 20:51:15 MSK)
Последнее исправление: Pinkbyte 25.05.20 20:53:08 MSK (всего исправлений: 1)

Ответ на: комментарий от koi-sama 25.05.20 20:48:21 MSK

Необходимо добавить oflag=direct в эту команду. Чтобы запись на диски не шла сначала в dirty кеш. Если будешь тестить чтение, то добавь iflag=direct. Без этих параметров получается такой себе тест оперативки.

chaos_dremel ★★
(25.05.20 20:51:27 MSK)

Ответ на: комментарий от chaos_dremel 25.05.20 20:51:27 MSK

Да, думал echo 3 > /proc/sys/vm/drop_caches достатчоно.

С чтением и iflag=direct получилось 1.8ГБ/с, что уже заметно ближе к правде. С записью и oflag=direct скорость упала до 250МБ/с. stripe_cache_size выставлен 6144, практика другого массива показывает что этого достаточно чтобы диски при последовательной записи не дёргались. Всё равно фигня какая-то.

koi-sama
(25.05.20 21:02:23 MSK) автор топика

Ответ на: комментарий от Pinkbyte 25.05.20 20:51:15 MSK

zpool create -O keyformat=passphrase -O keylocation=prompt -O mountpoint=/mnt/zraidz2 -O dnodesize=auto -O normalization=formD -O relatime=on -O xattr=sa -o ashift=12 -O encryption=aes-256-gcm zraidz2 raidz2 /dev/disk/by-id/ata-WDC_WD80EMAZ-00WJTA0_????????

Шифрование в дальнейших тестах было выключено.

Нормальный контроллер - это целая куча геморроев: его купить надо сперва, запасной держать, массивы на них весьма хрупкие по сравнению с мдадмом, по крайней мере аппаратные рейды, пусть и в тестовых целях, я убивал, а мдадмовый в реальности не умирал ни разу. На имеющихся у меня entry-level HBA с рейдовым функционалом, без батареек и памяти, я бы серьёзный массив делать не стал.

koi-sama
(25.05.20 21:07:50 MSK) автор топика

Ответ на: комментарий от koi-sama 25.05.20 21:07:50 MSK

entry-level HBA с рейдовым функционалом, без батареек и памяти, я бы серьёзный массив делать не стал.

Ааа, окей, не посмотрел на модель. Тогда вопросов не имею.

Pinkbyte ★★★★★
(25.05.20 21:13:25 MSK)

Ссылка

Ответ на: комментарий от koi-sama 25.05.20 21:02:23 MSK

drop_caches достаточно, при тестах на чтение, если есть полная уверенность, что дисковый и/или файловый кеш точно не при чём. На запись (без oflag=direct) данные в любом случае сначала попадают в dirty кеш и потом уже на диск. Поэтому показатели скорости получаются неправильными.

По поводу 250 мб/с. Есть вариант попробовать писать блоком равным (stripe size * количество дисков с данными в масиве). Чтобы один блок записи гарантинованно разделялся между всеми дисками с данными («диски» чётности не считаем).

chaos_dremel ★★
(25.05.20 21:16:43 MSK)

Ответ на: комментарий от chaos_dremel 25.05.20 21:16:43 MSK

chunk_size=128k, блоками по 2М - 100% загрузка дисков, 0 чтения и 580МБ/с, блоками по 36М - 35% загрузка дисков и 700МБ/с. iowait не растёт, md6_raid6 в этот момент жрёт 75% от одного ядра.

В принципе, можно было бы на этом моменте и остановиться и списать проблемы на методику тестирования. Но блин, рядом стоит машина с mdadm+luks, которая на меньшем количестве дисков показывает намного более впечатляющий результат.

koi-sama
(25.05.20 21:29:14 MSK) автор топика

Ответ на: комментарий от Pinkbyte 25.05.20 20:49:19 MSK

Пусть будет zfs на каком нибудь /dev/sda. Который в свою очередь уже - аппаратный RAID-6 или RAID-100500.

Ты подсказываешь сильную ерунду.

anonymous
(25.05.20 21:30:55 MSK)

Ссылка

Все 9207/9211 требуют (ИМХО) последней прошивки (20.00.07.00), в предыдущих - жопа вплоть до неопределения части дисков при старте или выпадения из массива в работе.

anonymous
(25.05.20 21:35:24 MSK)

Ответ на: комментарий от anonymous 25.05.20 21:35:24 MSK

Она и стоит. На 9205 я перед тем как принять решение о замене HBA ставил P19. Да и в любом случае, я их как HBA использую.

koi-sama
(25.05.20 21:38:01 MSK) автор топика

Ответ на: комментарий от koi-sama 25.05.20 21:29:14 MSK

А можно скрин atop в момент работы dd на запись? Если что, там надо 5 секунд подождать, чтобы оно данные обновило.

chaos_dremel ★★
(25.05.20 21:49:09 MSK)

Ответ на: комментарий от chaos_dremel 25.05.20 21:49:09 MSK

https://pomf.koi-sama.net/f/4RAWf016SO.png

koi-sama
(25.05.20 21:55:32 MSK) автор топика

Ссылка

если запустить 18 на все диски одновременно - каждый винт выдаст максимально возможную скорость, если собрать raid6 - аналогичное dd выдаст в лучшем случае 600МБ/с, при этом нагрузка равномерно разделится по дискам и ни на одном из них не будет 100% использования. Если собрать 3 массива из 6 дисков в каждом - будет 600х3.

А на рейд ты тоже 18 копий dd запускаешь или одну?

anonymous
(25.05.20 23:17:32 MSK)

Ответ на: комментарий от koi-sama 25.05.20 20:50:59 MSK

Да тут выше ввели в заблуждение.

По остальному мне нечего добавить, во всяком случае пока.

mord0d ★★★★★
(25.05.20 23:30:20 MSK)

Ссылка

Ответ на: комментарий от anonymous 25.05.20 23:17:32 MSK

Запускаю в один поток, разницы с 18 потоками - никакой.

koi-sama
(26.05.20 00:01:24 MSK) автор топика

Ответ на: комментарий от koi-sama 26.05.20 00:01:24 MSK

А если сделать в пуле 18 файловых систем и каждую копию dd в свою файловую систему?

anonymous
(26.05.20 01:06:44 MSK)

Ответ на: комментарий от anonymous 26.05.20 01:06:44 MSK

А смысл? Файловая система в случае с mdadm в тестах вообще не участвует.

koi-sama
(26.05.20 10:55:52 MSK) автор топика

Ответ на: комментарий от koi-sama 25.05.20 21:38:01 MSK

Она и стоит. На 9205 я перед тем как принять решение о замене HBA ставил P19. Да и в любом случае, я их как HBA использую.

Я про IT-firmware (HBA). В предыдущих диски либо не все определялись, либо отстреливались от системы в работе (соответственно, zfs их, разумеется, отстреливала из массива и херилась, т.к. raidz2 не переживал потерю 4х дисков из 8)

anonymous
(26.05.20 15:43:46 MSK)

Ссылка

Ответ на: комментарий от koi-sama 25.05.20 19:56:11 MSK

Expander backplane - BPN-SAS2-846EL1

Ты же бэкплейн к контроллеру подключил одним SFF-8087 кабелем?

anonymous
(26.05.20 15:58:34 MSK)

И почему не взял более новый и менее горячий 9207 на PCIe 3.0? (да-да, тут у lsi было всё через задницу, и 9207 на более новом LSISAS2308, а 9211 - на LSISAS2008 c PCIe 2.0)

anonymous
(26.05.20 16:03:21 MSK)

Ответ на: комментарий от anonymous 26.05.20 15:58:34 MSK

Двумя. С одним кабелем такая же ерунда, впрочем, только что максимальная одновременная скорость до дисков проседает в 2 раза. Один из линков с парой кабелей не поднимается на 9211, но это мелочи.

# smp_discover /dev/bsg/expander-1\:0
  phy   0:S:attached:[5c81f660e137cb00:03  i(SSP+STP+SMP)]  6 Gbps
  phy   1:S:attached:[5c81f660e137cb00:02  i(SSP+STP+SMP)]  6 Gbps
  phy   2:S:attached:[5c81f660e137cb00:01  i(SSP+STP+SMP)]  6 Gbps
  phy   4:U:attached:[5c81f660e137cb00:07  i(SSP+STP+SMP)]  6 Gbps
  phy   5:U:attached:[5c81f660e137cb00:06  i(SSP+STP+SMP)]  6 Gbps
  phy   6:U:attached:[5c81f660e137cb00:05  i(SSP+STP+SMP)]  6 Gbps
  phy   7:U:attached:[5c81f660e137cb00:04  i(SSP+STP+SMP)]  6 Gbps

koi-sama
(26.05.20 16:08:32 MSK) автор топика

Ответ на: комментарий от anonymous 26.05.20 16:03:21 MSK

Что было у местных барыг в наличии по цене как на ебее - то и купил. А 9207 надо у китайцев заказывать и ждать почти месяц.

koi-sama
(26.05.20 16:15:05 MSK) автор топика

Ссылка

Ответ на: комментарий от koi-sama 26.05.20 16:08:32 MSK

Я с экспандерами дела стараюсь не иметь (и не имел пока, слава аллахам, больно уж они капризные), но вроде как для EL1 надо подключать одним кабелем, или я не прав?

Также встречал ранее информацию, что связка «контроллер+экспандер+диски» гораздо более капризная с т.з. HCL, чем просто «контроллер+диски» и надо смотреть HCL: http://web.archive.org/web/20180324201022/http://www.supermicro.com/products/...

Один из линков с парой кабелей не поднимается на 9211

Не понял?

anonymous
(26.05.20 16:31:11 MSK)

18 штук WD80EMAZ

Судя по всему, пытался ущипнуть бога за бороду и распотрошил внешние Western Digital 8TB Elements? :)

anonymous
(26.05.20 16:35:07 MSK)

Ответ на: комментарий от anonymous 26.05.20 16:31:11 MSK

Я бы тоже предпочёл тупой бэкплейн, но что есть. 2 порта поддерживаются далеко не везде, но в целом экспандерам обычно наплевать и оно работает. SAS - довольно гибкая штука.

Не понял?

В одном 8087 4 канала, т.е. с логической точки зрения HBA к экспандеру подключается 4 или 8 каналами в зависимости от того сколько физических коннекторов подключено. Когда стоял глючный 9205, поднималось 8 линков, с 9211 - только 7. Что в принципе неплохо, потому что люди жаловались на то, что связка 9211 и экспандера выдаёт скорость в 2 раза меньше положенной.

koi-sama
(26.05.20 16:48:29 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 26.05.20 16:35:07 MSK

Почему пытался? Винты работают же.

koi-sama
(26.05.20 16:49:06 MSK) автор топика

Ответ на: комментарий от koi-sama 26.05.20 16:49:06 MSK

так там, судя по интернетам, диски гогно на 5400rpm, да ещё и smr.

anonymous
(26.05.20 18:05:59 MSK)

Ответ на: комментарий от anonymous 26.05.20 18:05:59 MSK

Нет, EMAZ - это (были) гелиевые, судя по всему, перемаркированные HGST, но не SMR.

anonymous
(26.05.20 18:22:07 MSK)

Ссылка

Ответ на: комментарий от anonymous 26.05.20 18:05:59 MSK

SMR у WD в диапазоне от 2 до 6 ТБ, ну и на ноутбучных где-то. 5400 - это несколько печально, но 7200rpm за такие деньги не продаются.

koi-sama
(26.05.20 18:22:50 MSK) автор топика

Ссылка

Ответ на: комментарий от koi-sama 26.05.20 10:55:52 MSK

А смысл? Файловая система в случае с mdadm в тестах вообще не участвует.

Если предположить, что причина в обоих случаях одна и та же, то смысла, конечно, нет.

anonymous
(27.05.20 00:13:36 MSK)

Ссылка

Пошаманил я ещё немного с бубном, попробовал другое железо - десктопный i3-4130, попробовал разные комбинации портов на HBA и экспандере - всё без толку. С другим железом сетевого копирования не вышло - там один pcie x16 всего, но забитие нулями с mdadm оказалось столь же тормознутым. Попробовал ещё более древнюю 14 убунту с не менее древним mpt3sas, принципиально ничего не изменилось.

Возможно, это особенность работы конкретного поколения контроллеров с конкретными винтами, ну и экспандер до кучи, без которого винты в таком количестве просто некуда подключать.

koi-sama
(27.05.20 22:17:49 MSK) автор топика

Ответ на: комментарий от koi-sama 27.05.20 22:17:49 MSK

с 9211 - только 7

Мне кажется, дело в этом. Ну не конкретно в 7 линках вместо 8, а в несовместимостями какого-то оборудования или дефектного контроллера.

Другими словами, сначала надо физику исправлять, а потом уже zfs/mdadm тюнить. ИМХО.

anonymous
(28.05.20 15:28:41 MSK)

Ответ на: комментарий от anonymous 28.05.20 15:28:41 MSK

Так контроллер менялся - c 9205 при копировании был безумный load average. Можно предположить, что sas2 контроллер с чипом от lsi плохо дружит с sas2 экспандером с чипом от lsi, но это звучит крайне странно. Может, конечно, у 9211 (и любого другого контроллера с 2008 на борту) есть проблемы совместимости с экспандерами, но именно такое проявление этих проблем выглядит крайне странным.

У меня пока 2 идеи - поскольку тестирование на других железках было весьма поверхностным, можно продолжить допиливание сервера и как и планировалось, купить нормальные процессоры - пару E5-2650v2. Если ZFS с ними выйдет на 700-800МБ/с записи (а она очевидно упирается в процы, потому что нагрузка с zfs при записи взлетает до 16-17) - можно так и оставить. Второй вариант - дальше менять контроллеры, найти заведомо исправный 9207 или что-то на sas3008, но это дополнительные траты денег на железо, которое мне кроме как для тестов и не нужно.

Можно было бы без экспандера попробовать, но тупой бэкплейн стоит 100 баксов, которые и так есть куда потратить.

koi-sama
(28.05.20 16:37:05 MSK) автор топика

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	IRedMail - Как изменить директорию открытия RoundCube

Admin

Не работает CGI и WSGI в Apache CentOS 8

→

Похожие темы