Производительность дисковой системы KVM

1

9

Имеется система

# lscpu | grep 'Model name'
Model name:            AMD EPYC 7401 24-Core Processor
# lsb_release -d
Description:	Debian GNU/Linux 9.4 (stretch)
# uname -r
4.15.0-0.bpo.2-amd64

в ней LVM том, который подключен к виртуалке (там ядро ~~4.9~~ уже тоже 4.15) так:

<disk type='block' device='disk'>
  <driver name='qemu' type='raw' cache='none' io='threads'/>
  <source dev='/dev/fast/data'/>
  <target dev='vdb' bus='virtio'/>
  <address type='pci' domain='0x0000' bus='0x00' slot='0x08' function='0x0'/>
</disk>

fio с конфигом

blocksize=4k
rw=randread
direct=1
buffered=0
ioengine=libaio
iodepth=32
numjobs=32

выдаёт
3060 MB/s 800k IOPS на хосте
400 MB/s 100k IOPS в госте

Если я правильно интерпретировал информацию, выданную гуглом, то KVM умеет работать с одним диском только в один поток, что в данном случае и даёт столь большую разницу.

Собственно вопрос: есть ли способ заставить дисковую систему работать в виртуалке если не на полную катушку, то хоть на пол катушечки?

PS Пробовал подключать образы qcow2 и raw, играться с cache, io, iothreads разными способами без заметного результата.

Ссылка

←	graphite + grafana - взять данные из графита по определенному условию

nginx 1.14.0

→

virtio не пробовал?

Deleted
(17.04.18 19:14:38 MSK)

Ответ на: комментарий от Deleted 17.04.18 19:14:38 MSK

Вроде оно и используется

<target dev='vdb' bus='virtio'/>

Или нужны ещё какие-то махинации?

NeOlip ★★
(17.04.18 19:21:21 MSK) автор топика

Ссылка

Эт конечно печально, что по iops в 8 раз, но если посмотреть на задержку, то получится разница в 0.28 мс на операцию. Печально, но avg lat 0.32 мс более чем достойно

router@europe:~$ echo '32/(800*10^3)' | bc -l
.00004000000000000000
router@europe:~$ echo '32/(100*10^3)' | bc -l
.00032000000000000000

На всякий случай подпишусь на тему

router ★★★★★
(17.04.18 20:50:55 MSK)

Ссылка

Прокидывай pci.

anonymous
(17.04.18 21:03:16 MSK)

Ответ на: комментарий от anonymous 17.04.18 21:03:16 MSK

Виртуалка планируется не одна, так что хотелось бы найти другой вариант.

NeOlip ★★
(17.04.18 22:27:24 MSK) автор топика

Ответ на: комментарий от NeOlip 17.04.18 22:27:24 MSK

Насколько я понимаю, каждая виртуалка - отдельный процесс. А с диском работает ОСь

Т.е. как раз с несколькими ВМ есть шанс выжать из диска всё

router ★★★★★
(17.04.18 22:32:03 MSK)

Ответ на: комментарий от router 17.04.18 22:32:03 MSK

Виртуалки разные. Некоторым хотелось бы дать больше ресурсов. Ну и банальный спортивный интерес тоже присутствует (=

NeOlip ★★
(17.04.18 23:00:30 MSK) автор топика

Ссылка

а как можно с диском работать не в один поток? он же один!

anonymous
(18.04.18 00:50:45 MSK)

Ответ на: комментарий от anonymous 18.04.18 00:50:45 MSK

Так же как с процессором, который тоже «типа один хДДД)))00».

anonymous
(18.04.18 03:06:36 MSK)

Ссылка

Я замечал падение производительности при использовании LVM. Попробуйте поэкспериментировать подключив устройство целиком, и как локальную папку. Ну и для максимального быстродействия только RAW

cyroot
(18.04.18 03:45:46 MSK)

https://wiki.mikejung.biz/KVM_/_Xen#virtio-blk_iothreads_.28x-data-plane.29

тут много разных вариантов оптимизации расписано. несколько лет назад, я помню из одного гостя выжимали то ли миллион то ли полтора iops. попугаи конечно, но смотрится красиво

dyasny ★★★★★
(18.04.18 04:08:39 MSK)

Ответ на: комментарий от cyroot 18.04.18 03:45:46 MSK

Пробовал RAW, QCOW2, монтирование директории с хоста, LVM: разницы практически нет.

NeOlip ★★
(18.04.18 12:28:58 MSK) автор топика

Ответ на: комментарий от NeOlip 18.04.18 12:28:58 MSK

А пробовали прокинуть всё устройство целиком?

cyroot
(18.04.18 13:05:35 MSK)

Ответ на: комментарий от cyroot 18.04.18 13:05:35 MSK

Проброс устройства не устраивает. Выше уже предлагали.

NeOlip ★★
(18.04.18 13:46:35 MSK) автор топика

Ссылка

Ответ на: комментарий от cyroot 18.04.18 03:45:46 MSK

Попробуйте

Попробуй. Будь уже как все не будь мудаком.

anonymous
(18.04.18 13:52:26 MSK)

Ответ на: комментарий от anonymous 18.04.18 13:52:26 MSK

Попробуй изменить глубину очереди iodepth=64 numjobs=64

rootmaster ★
(18.04.18 14:44:33 MSK)

Ответ на: комментарий от rootmaster 18.04.18 14:44:33 MSK

При iodepth=64 numjobs=64 те же 100k IOPS
При numjobs=16 поднимается до 150k

NeOlip ★★
(18.04.18 16:18:37 MSK) автор топика
Последнее исправление: NeOlip 18.04.18 16:18:49 MSK (всего исправлений: 1)

Ответ на: комментарий от anonymous 18.04.18 13:52:26 MSK

Будь уже как все не будь мудаком.

Всю жизнь старался «не быть как все», дождитесь пока вашими ценнейшими советами кто-то поинтересуется, иначе идите с ними в известном направлении!

cyroot
(18.04.18 16:30:42 MSK)

Ответ на: комментарий от NeOlip 18.04.18 16:18:37 MSK

Диски сторадж локальные или хранилка?

rootmaster ★
(18.04.18 17:23:09 MSK)

Ответ на: комментарий от rootmaster 18.04.18 17:23:09 MSK

Локальные. Intel P3700 NVMe

NeOlip ★★
(18.04.18 18:52:25 MSK) автор топика

Ответ на: комментарий от NeOlip 18.04.18 18:52:25 MSK

в опциях для образа диска добавте cache=writeback оно намного быстрей для гостя и позволяет работать кэшированию на хосте

cache='writeback' io='threads'

rootmaster ★
(18.04.18 20:35:11 MSK)

https://communities.intel.com/thread/76405

anonymous
(19.04.18 08:40:32 MSK)

Ответ на: комментарий от cyroot 18.04.18 16:30:42 MSK

Всю жизнь старался «не быть как все»

Главное юбку не надевай

anonymous
(19.04.18 10:18:19 MSK)

Ссылка

Ответ на: комментарий от rootmaster 18.04.18 20:35:11 MSK

Что с writeback, что с none ~150k IOPS в госте. На хосте 700k (количество потоков fio снизил до 16)

Сейчас конфиг fio имеет вид

blocksize=4k
rw=randread
direct=1
buffered=0
ioengine=libaio
iodepth=32
numjobs=16

Конфиг диска:

<disk type='file' device='disk'>
  <driver name='qemu' type='raw' cache='none' io='native'/>
  <target dev='vdb' bus='virtio'/>
</disk>

NeOlip ★★
(19.04.18 10:41:35 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 19.04.18 08:40:32 MSK

Я в курсе, что каждая пузомерка выдаёт результат в своих сферических попугаях, именно по этому пузомерка используется одна и с одинаковым конфигом. Либо я вообще не понял, что вы хотите сказать.

NeOlip ★★
(19.04.18 10:51:58 MSK) автор топика

Ответ на: комментарий от NeOlip 19.04.18 10:51:58 MSK

Попробовать сделать так, как сказано в «Правильный ответ» пункт 3. Если это возможно.

anonymous
(19.04.18 11:17:36 MSK)

Ссылка

Насколько я помню virtio само по себе быстро, но имеет кучу ограничений. SCSI с моделью SCSI-контроллера «virtio» даёт даже лучшую производительность + поддержку TRIM/discard + нормальное наименование устройств + поддержку scsi_mq из коробки на госте

<controller type='scsi' index='0' model='virtio-scsi'>
<driver queues='$vcpu'>
</controller>

chaos_dremel ★★
(19.04.18 14:48:14 MSK)

Ответ на: комментарий от chaos_dremel 19.04.18 14:48:14 MSK

Да тоже самое по производительности.

ha-ha
(19.04.18 15:56:09 MSK)

Ответ на: комментарий от ha-ha 19.04.18 15:56:09 MSK

Ставь Vmware ESXi

rootmaster ★
(19.04.18 16:03:49 MSK)

Ссылка

Ответ на: комментарий от chaos_dremel 19.04.18 14:48:14 MSK

virtio-scsi даже чуть медленнее получилось: 100k IOPS

Конфиг:

<disk type='file' device='disk'>
  <driver name='qemu' type='raw' cache='none' io='native'/>
  <source file='/path/to/img'/>
  <target dev='vdb' bus='scsi'/>
  <address type='drive' controller='0' bus='0' target='1' unit='0'/>
</disk>
<controller type='scsi' index='0' model='virtio-scsi'>
  <driver queues='16' />
</controller>

NeOlip ★★
(19.04.18 16:38:06 MSK) автор топика
Последнее исправление: NeOlip 19.04.18 16:43:26 MSK (всего исправлений: 1)

Ответ на: комментарий от NeOlip 19.04.18 16:38:06 MSK

спасибо за тест, кстати.

~~darkenshvein~~ ★★★★★
(19.04.18 17:13:31 MSK)

Ссылка

Ответ на: комментарий от NeOlip 19.04.18 16:38:06 MSK

<driver queues='16' />

1) а повысить можно?

2) попробуй с тем же 16 дать нагрузку так, чтобы iodepth * numjobs не превышало 16. В выводе интересен НЕ IOPS, а avg lat

3) я тут внезапно подумал.. а на хост системе NVME же, так? У него низкие задержки и как следвтвие высокий iops за счёт, на минуточку, отказа от стандартного стека протоколов. Т.е. там, ЕМНИП, ни разу не скази, идут оптимизированные команды. Т.е. может от виртуалки нет смысла ждать огромных цифр именно потому, что в виртуалке с эмуляцией scsi их не будет по определению

router ★★★★★
(19.04.18 22:03:36 MSK)
Последнее исправление: router 19.04.18 22:05:54 MSK (всего исправлений: 1)

Ответ на: комментарий от router 19.04.18 22:03:36 MSK

Кстати, по ссылке которую привёл dyasny:

Performance listed from highest to lowest.
NVMe passthrough
vhost-scsi
virtio-scsi

router ★★★★★
(19.04.18 22:13:05 MSK)

Ссылка

Ответ на: комментарий от router 19.04.18 22:03:36 MSK

1) В принципе можно. Попробую.

2) при 32/16 (iodepth/numjobs): 132K IOPS, avg lat ~ 3500 usec. Но 99.99 персентиль - 44288

При 32/8: 187K IOPS, avg lat - 1500 usec, 99.99 - 7840

При 2/8: 100K IOPS, avg lat - 150 usec, 99.99 - 506

3) Хорошая мысль, спасибо. Это действительно объясняет разницу в скорости (по крайней мере я, в силу своего незнания, готов принять эту версию (= ), а т. к. производительности на виртуалку итак будет вполне достаточно, то можно и подзабить.

Может в следующий раз таки попробую NVMe passthrough, сейчас откровенно лень.

NeOlip ★★
(19.04.18 22:55:29 MSK) автор топика

Ответ на: комментарий от dyasny 18.04.18 04:08:39 MSK

Чуть не забыл сказать спасибо. Эту ссылку я и сам находил и она даже частично помогла, но чуда не произошло. Видимо либо я тупенький рукожоп, либо без проброса устройства действительно нереально выжать из SSD больше.

NeOlip ★★
(19.04.18 23:01:41 MSK) автор топика

Ответ на: комментарий от NeOlip 19.04.18 22:55:29 MSK

При 2/8: 100K IOPS, avg lat - 150 usec, 99.99 - 506

Т.е. в ВМ реально задержка достигала 0.15 мс. В заголовке 0.32 получилось тупо за счёт задарнной сверх максимума длины очереди запросов

Ну т.е. если получится поднять с 16 до 32 ( на сторне виртуального диска ВМ ), то и iops будут 200k вместо 100к, грубо говоря

Т.е. выше 0.15 мс вряд ли прыгнуть, но поднять IOPS'ы можно

router ★★★★★
(19.04.18 23:33:11 MSK)
Последнее исправление: router 19.04.18 23:39:16 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от NeOlip 19.04.18 23:01:41 MSK

либо без проброса устройства действительно нереально выжать из SSD больше.

А vhost-scsi? Если конечно поретя живой миграции не критична

router ★★★★★
(19.04.18 23:33:51 MSK)

Ответ на: комментарий от NeOlip 19.04.18 23:01:41 MSK

да кстати, можно попробовать пробросить весь диск, «сырой». то есть исключить слой ФС, когда в ВМ отдаётся файл-диск. если выше ещё не советовали.

~~darkenshvein~~ ★★★★★
(20.04.18 08:48:05 MSK)
Последнее исправление: darkenshvein 20.04.18 08:48:41 MSK (всего исправлений: 1)

Ответ на: комментарий от darkenshvein 20.04.18 08:48:05 MSK

Да в общем-то он это и сделал - пробрасывается LVM LV

router ★★★★★
(20.04.18 09:49:29 MSK)

Ответ на: комментарий от router 20.04.18 09:49:29 MSK

лвм это таки гоняние проца. тогда надо собирать лвм массив уже внутри виртуалки (если оно так не было, ленива читать тред).

~~darkenshvein~~ ★★★★★
(20.04.18 09:51:00 MSK)

Ответ на: комментарий от router 19.04.18 23:33:51 MSK

vhost-scsi

<hostdev mode='subsystem' type='scsi_host'>
   <source protocol='vhost' wwpn='naa.5001405f37c1f3f7'/>
   <address type='pci' domain='0x0000' bus='0x00' slot='0x10' function='0x0'/>
</hostdev>

При 32/8: 150K IOPS, avg lat - 1838, 99.99 - 11072

NeOlip ★★
(20.04.18 10:03:41 MSK) автор топика

Отдай виртуалке два диска, и на ней собери RAID0. Вариант не для продакшена, но попугаев иногда позволяет увеличить. Будешь знать, если дело в однопоточности.

muon ★★★★★
(20.04.18 10:19:16 MSK)

Ответ на: комментарий от muon 20.04.18 10:19:16 MSK

Я тут за последние дни поначитался всякого и вроде во всех тестах всяческих редхатов и айбиэмов берут 4/8/16/32 раздела, прокидывают их все в виртуалки и снимают over9000 IOPS со всей этой радости.

В связи с чем вопрос: а как этим пользоваться в продакшене-то? Собирать в виртуалке RAID из 16 дисков (которые на самом деле разделы одного диска) - это же наркомания какая-то (= Попугаи сами по себе меня мало интересуют в общем-то.

PS Собрать рейд попробую для полноты картины.

NeOlip ★★
(20.04.18 10:59:47 MSK) автор топика

Ссылка

Ответ на: комментарий от darkenshvein 20.04.18 09:51:00 MSK

лвм это таки гоняние проца

Кхм. Это не файл на ФС, а весьма тонкая прослойка вроде обычной партиции

У меня тесты fio показывали оверхед от lvm около 5 мкс ( 0.005 мс ). Для сравнения, у ТС сейчас avg lat 150 мкс ( 0.15 мс ). Т.е. оверхед от lvm меньше стандартной погрешности измерений

тогда надо собирать лвм массив уже внутри виртуалки

Массив? Ты точно понимаешь, о чём идёт речь? И я таки не вижу разницы в производительности между выдачей LV в ВМ или выдачей диска и созданием LV внутри ВМ

router ★★★★★
(20.04.18 11:12:33 MSK)
Последнее исправление: router 20.04.18 11:22:15 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от NeOlip 20.04.18 10:03:41 MSK

При 32/8: 150K IOPS, avg lat - 1838, 99.99 - 11072

Такие бешеные задержки говорят о том, что очередь запросов от fio больше ( существенно больше ) глубины очереди диска ( виртуального ). Выше уже видели, что норм 0.15 мс

Поставь очередь запросов ( iodepth * numjobs ) поменьше и постепенно увеличивай. Начиная с некоторого числа у тебя почти перестанет расти IOPS и резко начнёт расти avg lat. Это значит, что полностью забил глубину очереди диска

Вот там, где на графике почти одинаковый IOPS ( от request number ), смотри минимальный avg lat. Это задержки для текущей конфигурации твоей ВМ, и там же глубина очереди виртуального диска

Пока создаваемая нагрузка не превысит возможности физического NVME диска ( а она не превысит :) ), именно эта задержка и определяет максимальный IOPS в виртуалке при фиксированной ( текущей конфигурацией ) длине очереди

Т.е. тут можно пытаться найти вариант выдачи диска, для которого задержки поменьше, или повышать глубину очереди ( если это возможно. т.к. запас по iops'ам физического диска ещё очень большой )

router ★★★★★
(20.04.18 11:18:53 MSK)
Последнее исправление: router 20.04.18 11:21:03 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от muon 20.04.18 10:19:16 MSK

Только сегодня руки вновь дошли до этой железки.

Попробовал RAID0 из 2 и 4 дисков (raw image). В обоих случаях fio показал ~1000 Mb/s и 250K IOPS, но с 4 дисками задержки заметно меньше.

Так же пробовал натравливать fio на разделы без рейда: разницы не увидел.

Ну и на этом заканчиваю экспериментировать. Всем отписавшимся в теме ещё раз спасибо за участие.

NeOlip ★★
(28.04.18 15:02:02 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	graphite + grafana - взять данные из графита по определенному условию

Admin

nginx 1.14.0

→

Похожие темы