Намутил свой сетевой протокол для дисков

13

8

На имеющемся железе пробрасывает NVMe примерно на его родной скорости, и делает это в два с лишним раза быстрее штатного линуксового nvme-over-tcp. Дальше упирается в мой слабый клиентский комп, но на большом железе производительность растёт до миллионов IOPS через один диск. 50 GbE успешно загружал на полную катушку, был, практически, line rate.

Ссылка

←	Что учитывается при переводе ctime

Как запихнуть в .apk консольный бинарник для дальнейшего его запуска основной программой?

→

← 1 2 →

Что происходит при ошибках в сети ?

Deleted
(14.06.19 21:36:12 MSK)

Ответ на: комментарий от Deleted 14.06.19 21:36:12 MSK

Ретрансмиссия запроса. По другой очереди, если есть.

mv ★★★★★
(14.06.19 21:37:20 MSK) автор топика

Мои поздравления с вашим достмжением.

torvn77 ★★★★★
(14.06.19 21:40:22 MSK)

Ссылка

Ответ на: комментарий от mv 14.06.19 21:37:20 MSK

Осталось интегрировать в ceph.

Deleted
(14.06.19 22:03:25 MSK)

Ссылка

expect to see a lot of kernel crashes and freezes
Си

ЧТД

~~RazrFalcon~~ ★★★★★
(14.06.19 22:07:13 MSK)

man RDMA, лисапетостроитель.

anonymous
(14.06.19 22:15:16 MSK)

Ответ на: комментарий от anonymous 14.06.19 22:15:16 MSK

Так ты сам его man. А ещё лучше, попробуй.

mv ★★★★★
(14.06.19 22:25:54 MSK) автор топика

Ссылка

Ответ на: комментарий от RazrFalcon 14.06.19 22:07:13 MSK

Включат в ваниль, пройдет кучу стэйджингов и станет тортиком

I-Love-Microsoft ★★★★★
(14.06.19 23:24:17 MSK)

Ссылка

я так понял это кодогенерация из лиспа? а где лисповые сырцы-то?

Rastafarra ★★★★
(15.06.19 00:32:17 MSK)

nbd чем-то не устроил?

vvviperrr ★★★★★
(15.06.19 00:34:53 MSK)

Ответ на: комментарий от vvviperrr 15.06.19 00:34:53 MSK

nbd чем-то не устроил?

NVMe и nbd в одном предложении употреблять неположено.

mv ★★★★★
(15.06.19 02:51:22 MSK) автор топика

Ссылка

Ответ на: комментарий от Rastafarra 15.06.19 00:32:17 MSK

я так понял это кодогенерация из лиспа? а где лисповые сырцы-то?

Да, я - лисповый бот. В чьём-то Емаксе кручусь.

mv ★★★★★
(15.06.19 02:52:57 MSK) автор топика

Ссылка

Это получается ~~и стенку в магазине можно приподнять~~ в систему можно подключить удаленный NVMe и работать с ним как с локальным диском, с возможностью записи через O_DIRECT и вот это всё?

foror ★★★★★
(15.06.19 08:07:28 MSK)
Последнее исправление: foror 15.06.19 08:09:26 MSK (всего исправлений: 1)

Ну круто, чё...

Успехов.

~~Moisha_Liberman~~ ★★
(15.06.19 10:48:00 MSK)

Ссылка

Звучит очень круто. Под какую задачу разрабатывалось? Можно пару примеров использования?

aquadon ★★★★★
(15.06.19 10:51:10 MSK)

В скрипте вижу включение jumbo frames, а без этого передача сильно просаживается?

В чем подвох такого ускорения передачи?

Какая минимальная версия ядра нужна для сборки? Ни тут, ни в README инфы про версию не нашёл.

Radjah ★★★★★
(15.06.19 12:08:25 MSK)
Последнее исправление: Radjah 15.06.19 12:13:41 MSK (всего исправлений: 1)

Ответ на: комментарий от foror 15.06.19 08:07:28 MSK

Это получается и стенку в магазине можно приподнять в систему можно подключить удаленный NVMe и работать с ним как с локальным диском, с возможностью записи через O_DIRECT и вот это всё?

Можно на пачке NVMe сделать страйптнутый LVM, пробросить его по сети и иметь больше миллиона IOPS с одного диска. У меня полтора было на 50 GbE.

mv ★★★★★
(15.06.19 15:11:58 MSK) автор топика

Ответ на: комментарий от aquadon 15.06.19 10:51:10 MSK

Звучит очень круто. Под какую задачу разрабатывалось? Можно пару примеров использования?

Под облачный сторидж с ненормальной топологией. Там нижний уровень отдавал жирные слайсы на средний, который на них зеркало делал, а из зеркала свои, более мелкие слайсы отдавал на верхний. Пропускная способность сетевого диска между нижним и средним уровнями была критическим параметром.

mv ★★★★★
(15.06.19 15:14:37 MSK) автор топика

Ссылка

Ответ на: комментарий от Radjah 15.06.19 12:08:25 MSK

В скрипте вижу включение jumbo frames, а без этого передача сильно просаживается?

Достаточно прилично. Но тоже может работать. Прям сейчас не может, надо параметры создания очереди диска в инициаторе подправить. А ещё лучше, MTU path discovery прикрутить.

В чем подвох такого ускорения передачи?

Стандартно... Multiqueue, оптимизация доступа к памяти (нет горячих спинлоков, не пишутся общие области памяти, предварительное выделение, где только можно), zero-copy (кроме приёма в инициаторе). В случае с L3 (IP/UDP) ещё и не использую кернельный IP-стек.

Какая минимальная версия ядра нужна для сборки? Ни тут, ни в README инфы про версию не нашёл.

Разрабатывалось под 4.13, но давно не проверял. На 5.0 и 5.1 точно работает.

Извините, торопился: через час уезжаю в одиночку в тундру от переизбытка цивилизации лечиться, на всякий случай исходники в таком вот виде выложил. Мало ли... Документация будет.

mv ★★★★★
(15.06.19 15:19:50 MSK) автор топика
Последнее исправление: mv 15.06.19 15:20:46 MSK (всего исправлений: 1)

Ответ на: комментарий от mv 15.06.19 15:19:50 MSK

Извините, торопился: через час уезжаю в одиночку в тундру от переизбытка цивилизации лечиться, на всякий случай исходники в таком вот виде выложил. Мало ли... Документация будет.

Если что, считать тебя ~~коммунистом~~ кем? :P

Harald ★★★★★
(15.06.19 15:21:44 MSK)

Ссылка

Ответ на: комментарий от mv 15.06.19 15:19:50 MSK

Прям сейчас не может, надо параметры создания очереди диска в инициаторе подправить. А ещё лучше, MTU path discovery прикрутить.

Ясно.

Разрабатывалось под 4.13, но давно не проверял. На 5.0 и 5.1 точно работает.

Пробовал собирать на debian 9 с 4.9 и ловил ошибки. На armbian с 4.14 тоже не собралось.

А вместо блочного устройства с файлом будет работать или с loop-устройством?

через час уезжаю в одиночку в тундру

Ну вопрос всё равно будет актуален. :)

Radjah ★★★★★
(15.06.19 15:36:41 MSK)
Последнее исправление: Radjah 15.06.19 15:37:43 MSK (всего исправлений: 1)

Ответ на: комментарий от Radjah 15.06.19 15:36:41 MSK

Пробовал собирать на debian 9 с 4.9 и ловил ошибки. На armbian с 4.14 тоже не собралось.

Надо посмотреть, оно на достаточно древнем ядре может работать, теоретически. Единственное, что в blk-mq много лет безуспешно с рейс кондишеном боролись между таймаутом и комплишеном запроса, и там залипоны могут случаться.

armbian? На не-x86 не проверял. В протоколе BE всё должно быть, но раз не проверял, то наверняка не работает.

А вместо блочного устройства с файлом будет работать или с loop-устройством?

С файлом не будет, а loop - блочное устройство.

mv ★★★★★
(15.06.19 15:41:56 MSK) автор топика

Ответ на: комментарий от mv 15.06.19 15:11:58 MSK

Это ты через fio миллион иопсов намерял ?

Deleted
(15.06.19 16:46:53 MSK)

Ответ на: комментарий от Deleted 15.06.19 16:46:53 MSK

Да.

mv ★★★★★
(15.06.19 16:48:09 MSK) автор топика

Ответ на: комментарий от mv 15.06.19 16:48:09 MSK

Слабо верится в миллион иопсов на одном ssd.
А по этим тестам напрямую и по сети насколько отличается ?
https://www.sebastien-han.fr/blog/2014/10/10/ceph-how-to-test-if-your-ssd-is-...

Deleted
(15.06.19 17:05:21 MSK)

Ответ на: комментарий от Deleted 15.06.19 17:05:21 MSK

Страйп у меня. А 700к и один диск уже выдаёт.

mv ★★★★★
(15.06.19 17:09:08 MSK) автор топика

Ответ на: комментарий от Deleted 15.06.19 17:05:21 MSK

Та это у тебя амуде тыквит ssd дохлым синглкором.

anonymous
(15.06.19 17:10:38 MSK)

Ссылка

Ответ на: комментарий от mv 15.06.19 17:09:08 MSK

Можно целиком глянуть команду fio и выхлоп ?

Deleted
(15.06.19 18:05:48 MSK)

Ответ на: комментарий от Deleted 15.06.19 18:05:48 MSK

Я уже уехал. На гитхабе посмотри, там с лейтенси есть.

mv ★★★★★
(15.06.19 18:36:51 MSK) автор топика

Ответ на: комментарий от mv 15.06.19 18:36:51 MSK

Я чет затупил. В твоем тесте только чтение. А я подумал что речь о записи. Интересно глянуть что с записью получается, есть ли какие-то подводные камни.

Я уже уехал

Хорошего отдыха.

Deleted
(15.06.19 19:32:51 MSK)

Ссылка

Ответ на: комментарий от mv 15.06.19 15:11:58 MSK

Можно на пачке NVMe сделать страйптнутый LVM, пробросить его по сети и иметь больше миллиона IOPS с одного диска. У меня полтора было на 50 GbE.

А зачем? Эту пачку NVMe можно локально разместить. Можно сделать программный RAID0 или RAID1 на паре из локального и удаленного NVMe?

foror ★★★★★
(15.06.19 21:02:44 MSK)
Последнее исправление: foror 15.06.19 21:04:09 MSK (всего исправлений: 1)

звучит интересно, но надо смотреть внимательно. сильное повышение производительности за просто так не бывает.

Iron_Bug ★★★★★
(15.06.19 22:49:00 MSK)

Ответ на: комментарий от Iron_Bug 15.06.19 22:49:00 MSK

Так тут вроде не просто так, а за проц.

anonymous
(16.06.19 16:19:16 MSK)

Ответ на: комментарий от anonymous 16.06.19 16:19:16 MSK

Наоборот: проца меньше на операцию использую, оттого на том же проце и операций больше.

mv ★★★★★
(17.06.19 20:37:31 MSK) автор топика

Ответ на: комментарий от foror 15.06.19 21:02:44 MSK

Можно сделать программный RAID0 или RAID1 на паре из локального и удаленного NVMe?

Можно.

mv ★★★★★
(17.06.19 20:38:12 MSK) автор топика

Ответ на: комментарий от mv 17.06.19 20:38:12 MSK

Так ты в тундре или где?

anonymous
(17.06.19 20:59:24 MSK)

Ответ на: комментарий от mv 17.06.19 20:37:31 MSK

Тогда я не понял фразу «Дальше упирается в мой слабый клиентский комп, но на большом железе производительность растёт до миллионов IOPS через один диск».

Во что конкретно там упирается производительность?

anonymous
(17.06.19 23:08:23 MSK)

Звучит прекрасно.

targitaj ★★★★★
(17.06.19 23:10:03 MSK)

Ссылка

Ответ на: комментарий от anonymous 17.06.19 23:08:23 MSK

Вероятно, генеращая нагрузку программа упирается.

targitaj ★★★★★
(18.06.19 00:35:02 MSK)

Ссылка

Ответ на: комментарий от anonymous 17.06.19 20:59:24 MSK

В тундре. На редких заправках спутниковый интернет есть. Щас вот на последней, полный бак и 50 литров в канистрах дальше повезу.

mv ★★★★★
(18.06.19 17:02:54 MSK) автор топика

Ссылка

это все на что способны нынешние синьоры ?
говнокод уровня джуна
скажите название компании которая за вас переплатила

anonymous
(18.06.19 17:43:41 MSK)

Ответ на: комментарий от anonymous 18.06.19 17:43:41 MSK

это все на что способны сегодняшние тролли? вброс уровня 5 класса скажите название сайта на котором кормят таких идиотов

anonymous
(19.06.19 15:07:26 MSK)

Ссылка

лучей счастья посылаю. читаемая сишечка вышла.

SevikL ★★★★★
(19.06.19 15:31:21 MSK)

Ссылка

Ответ на: комментарий от anonymous 18.06.19 17:43:41 MSK

Это домашняя поделка, я даже железа на $3к за свой счёт под это дело купил. И ещё тыщи 2 надо: клиент не тянет.

А ещё я сегодня на айсберг залазил =)

mv ★★★★★
(21.06.19 00:13:52 MSK) автор топика

Ответ на: комментарий от mv 21.06.19 00:13:52 MSK

А ещё я сегодня на айсберг залазил =)

ЛОРозависимость безгранична!

Harald ★★★★★
(21.06.19 00:17:46 MSK)

Ссылка

Ответ на: комментарий от mv 21.06.19 00:13:52 MSK

то есть для себя вы делаете еще хуже чем для компании которая вас купила ?

anonymous
(21.06.19 14:45:36 MSK)

Ответ на: комментарий от anonymous 21.06.19 14:45:36 MSK

Три запятых пропустил, стыдно.

mv ★★★★★
(22.06.19 17:49:26 MSK) автор топика

Ссылка

2 сентября 2019 г.

Ответ на: комментарий от mv 15.06.19 15:41:56 MSK

На Debian 10 с 4.19.67 собралось, но проверять буду, когда машина в пределах одного помещения со мной будет. :)

Десятков гигабит у меня нет, но потыкать желание есть.

Radjah ★★★★★
(02.09.19 15:26:55 MSK)

Ответ на: комментарий от Radjah 02.09.19 15:26:55 MSK

Плюс-минус работает примерно с 4.13, но для потыкивания желательна сотня гигабит, плюс железо, могущее прокормить это дело :) fio, запущенный на i7-3770, не может сеть нагрузить нормально.

mv ★★★★★
(02.09.19 16:39:21 MSK) автор топика

Ответ на: комментарий от mv 02.09.19 16:39:21 MSK

Да мне это больше как альтернативу iscsi интересно потыкать. Не IOPS измерять и просто запустить у себя. :)

Если еще dkms.conf замутишь, то будет прям вообще зашибись.

Radjah ★★★★★
(02.09.19 19:20:16 MSK)
Последнее исправление: Radjah 02.09.19 19:23:15 MSK (всего исправлений: 1)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	Что учитывается при переводе ctime

Development

Как запихнуть в .apk консольный бинарник для дальнейшего его запуска основной программой?

→

Ну круто, чё...

Похожие темы