Помогите с анализом нагрузки на ЦПУ в сетевом приложении

1

4

Есть сетевое приложение, снял трейс с помощью perf, вышло, что 35% ЦПУ оно проводит в приеме сообщений, 50% в передаче. Передается порядка 110 сообщений в секунду размером в основном от 100 до 500 байт. Т.е. данных явно мало и нагрузка на ЦПУ явно этому не соответствует. Нужно разобраться почему так.

Что бросается в глаза - в приеме только 5% из 35% оно проводит в сисколах ядрах, а при передаче уже 26% из 50%. Разве так должно быть? И самое главное - из 26% ЦПУ, что уходят на _libc_sendmessage (которая уже дергает ядро), около 19% уходит на ip_recv - это же по идее уже прием данных, а не передача? а вообще стек вызова заканчивается вызовом __lock_text_start, где ЦПУ проводит 17.8% времени

есть знатоки линукса и его ядра, кто может пояснить: 1 Нормально ли тратить при передаче 100 сообщений в 100-500 байт столько ЦПУ (запускаю на виртуалке, на хосте рязань 9 5950х) 2. Почему в вызове _libc_sendmessage используется ip_recv и в итоге подавляющее кол-во времени проводится в __lock_text_start

Из подробностей - обмен по мультикасту, создается несколько отдельных сокетов, которые привязываются к одному мультикаст адресу, под капотом boost::asio.

UPDATE: добавил ссылку на FlameGraph со стеком вызовов при отравке сообщения. Тут видно, что __libc_sendmessage занимает 9% от общего времени работы приложения, и из них 6.35% ЦПУ проводит в __lock_text_start. Возможно это скажет кому-то из специалистов?

←	Визуальные метки на полях

Почему не срабатывает join exist

→

А ты как обрабатываешь? select? poll, epoll, kqueue?

zx_gamer ★★★
(21.08.24 11:54:21 MSK)

Т.е. данных явно мало и нагрузка на ЦПУ явно этому не соответствует.

А в чём проявляется нагрузка на ЦПУ? Приложение хотя бы в top видно?

Ещё стоит иметь в виду, что perf измеряет не общее время, проведённое внутри функций (wallclock), а только активное использование процессора. В сетевом приложении по-идее большую часть времени должно занимать ожидание событий, которое perf вообще не видит

И самое главное - из 26% ЦПУ, что уходят на _libc_sendmessage (которая уже дергает ядро), около 19% уходит на ip_recv - это же по идее уже прием данных, а не передача? а вообще стек вызова заканчивается вызовом __lock_text_start, где ЦПУ проводит 17.8% времени

Типичная работа event loop. Одна операция закончилась, переключаемся на следующую, ничего не осталось — ждём.

annulen ★★★★★
(21.08.24 12:08:45 MSK)

Ответ на: комментарий от zx_gamer 21.08.24 11:54:21 MSK

Это легаси, но доступ к исходникам есть. Судя по всему в цикле блокирующий сокет крутится. Но по приему и выглядит все хорошо - прием данных по сети потребляет 35%, из них 5% непосредственно на прием в сисколе ядра, а 30% уходит на обработку данных. Вопрос больше по передаче

yetanother ★★
(21.08.24 12:25:19 MSK) автор топика

Ответ на: комментарий от annulen 21.08.24 12:08:45 MSK

А в чём проявляется нагрузка на ЦПУ? Приложение хотя бы в top видно?

Нагрузка проявляется в потреблении ресурсов ЦПУ)) В топе, конечно, видно. Где-то 60-70% жрет

В сетевом приложении по-идее большую часть времени должно занимать ожидание событий, которое perf вообще не видит

У меня и задача снизить потребление ЦПУ, если что-то где-то ждет, то это не страшно

Типичная работа event loop. Одна операция закончилась, переключаемся на следующую, ничего не осталось — ждём.

Активное ожидание? Не хотелось бы, ресурсы-то ограниченные

yetanother ★★
(21.08.24 12:30:32 MSK) автор топика

Ответ на: комментарий от yetanother 21.08.24 12:25:19 MSK

Как все вышесказанное поможет решить проблему, если я не получил ответа на вопрос?

zx_gamer ★★★
(21.08.24 12:49:57 MSK)

Ответ на: комментарий от yetanother 21.08.24 12:30:32 MSK

У меня и задача снизить потребление ЦПУ, если что-то где-то ждет, то это не страшно

Ждать можно по разному. Пока не покажешь какая у тебя логика работы с сокетом и какая мощность виртуалки (может у тебя там одно ядро всего) - никаких внятных ответов тебе никто не даст.

Norgat ★★★★★
(21.08.24 13:10:59 MSK)

Ответ на: комментарий от zx_gamer 21.08.24 12:49:57 MSK

Осторожно предположу, что я все-таки ответил на вопрос - крутится блокирующийся сокет boost::asio в отдельном потоке. То есть в явном виде нет ни select, ни poll, ни epoll, ни kqueue. По первому скажу еще что его уже давно никто не использует, уж слишком старый он. По последнему замечу, что речь идет все-таки о линукс. Ну и вроде как линукс давно уже epoll использует. Думаю, что у boost::asio под капотом именно он, но это мое предположение.

Но если я все-таки не ответил на вопрос, то прошу уточнить, что именно нужно еще рассказать. Заранее спасибо

yetanother ★★
(21.08.24 13:32:49 MSK) автор топика

У тебя там инфинити луп? Поставь слип(1)

ya-betmen ★★★★★
(21.08.24 13:37:05 MSK)

Ответ на: комментарий от ya-betmen 21.08.24 13:37:05 MSK

там спинлок

anonymous
(21.08.24 13:40:58 MSK)

Ответ на: комментарий от Norgat 21.08.24 13:10:59 MSK

На передачу используется сокет boost::asio, все тривиально

   _socket->send_to(...);

На прием крутится блокирующий сокет в отдельном потоке

    try
    {
        boost::system::error_code ec;
        while (true)
        {
            size_t bytesReceived = _socket->receive_from(
                                       boost::asio::buffer(_buffer),
                                       _endPoint,
                                       boost::asio::ip::udp::socket::message_flags(),
                                       ec
                                   );

            boost::this_thread::interruption_point();

            _callback(_buffer.data(), bytesReceived);
        }
    }
    catch (const boost::thread_interrupted&)
    {
       // ...
    }

Но по приему у меня вопросов нет, там есть что оптимизировать в обработке. Вопрос по передаче, почему она столько времени в ядре проводит. По машине писал, на хосте amd Ryzen 9 5950x

yetanother ★★
(21.08.24 13:41:40 MSK) автор топика

Ответ на: комментарий от ya-betmen 21.08.24 13:37:05 MSK

Sleep не поможет. Если бы там был 100% нагрузка вне зависимости от кол-ва входящий сообщений, то другое дело. Но тут нет 100% нагрузки и если уменьшать число сообщений, то и нагрузка уменьшается. Луп то инфинити, но там же блокирующийся сокет

yetanother ★★
(21.08.24 13:45:16 MSK) автор топика

Ответ на: комментарий от yetanother 21.08.24 13:45:16 MSK

500*110/1024=50Kb

Если бы прием отправка таких обёмов так тормозили вообще бы ничего не работало.

запускаю на виртуалке

Может там с сетевой карточкой фигня какая?

ya-betmen ★★★★★
(21.08.24 14:15:41 MSK)

Ответ на: комментарий от ya-betmen 21.08.24 14:15:41 MSK

Если бы прием отправка таких обёмов так тормозили вообще бы ничего не работало.

Отсюда и вопрос, что не типичное это поведение.

Может там с сетевой карточкой фигня какая?

Не, именно с кодом, воспроизводится на разных машинах

yetanother ★★
(21.08.24 14:25:58 MSK) автор топика

Добавил ссылку на FlameGraph со стеком вызовов при отравке сообщения. Тут видно, что __libc_sendmessage занимает 9% от общего времени работы приложения, и из них 6.35% ЦПУ проводит в __lock_text_start. Возможно это скажет кому-то из специалистов?

yetanother ★★
(21.08.24 14:31:17 MSK) автор топика

Ответ на: комментарий от yetanother 21.08.24 14:31:17 MSK

При посылке сообщения висит на приеме (подтверждения?). Приемник плохо принимает?

anonymous
(21.08.24 14:44:48 MSK)

Ответ на: комментарий от anonymous 21.08.24 14:44:48 MSK

Это UDP, мультикаст, там же не должно быть подтверждения. Приемник принимает устойчиво, сеть хорошая. Единственно, что как я понял, там создается несколько сокетов, которые привязываются к одному мультикаст адресу, может они как-то конкурируют друг с другом в ядре и поэтому такая ситуация?

yetanother ★★
(21.08.24 14:56:49 MSK) автор топика

Ответ на: комментарий от yetanother 21.08.24 14:56:49 MSK

Значит источник и приемник на одной системе, и график показывает весь процесс посылки и приема сообщения.

anonymous
(21.08.24 15:05:46 MSK)

Ответ на: комментарий от anonymous 21.08.24 15:05:46 MSK

Мультикаст заворачивается на самого себя, так по умолчанию. Источник и приемники на одном хосте, но в разных приложениях. График показывает стек вызовов одного потока приложения, который работает на передачу, их там еще два таких с таким же стеком вызовов плюс два потока на прием сообщений, но там уже не мультикаст и с ними вопросов нет, в принципе

yetanother ★★
(21.08.24 15:10:39 MSK) автор топика

Ответ на: комментарий от yetanother 21.08.24 15:10:39 MSK

Не знаю, на графике показаны одновременно и посылка и прием. Прием висит на блокировке, наверно, пока принимающий поток не заберет данные.

anonymous
(21.08.24 15:20:39 MSK)

Ответ на: комментарий от anonymous 21.08.24 15:20:39 MSK

Вот у меня и вопрос - а откуда тут берется прием, если вызов __libc_sendmessage?

yetanother ★★
(21.08.24 16:32:55 MSK) автор топика

Ответ на: комментарий от yetanother 21.08.24 16:32:55 MSK

Почему бы и нет, если это на одном хосте: минимум сисколов и переключений контекста.

В общем, основное время висит на приеме, и чуть - дергает модуль сетевой карты. Остальное время не имеет значения.

anonymous
(21.08.24 17:22:46 MSK)

Ответ на: комментарий от yetanother 21.08.24 16:32:55 MSK

И я угадал «__lock_text_start» - это где-то внутри spinlock

anonymous
(21.08.24 17:30:31 MSK)

Ответ на: комментарий от yetanother 21.08.24 13:32:49 MSK

Ну и вроде как линукс давно уже epoll использует.

Ядро Linux ничего не использует. Он предоставляет разные способы взаимодействия с собой.

Среди этих способов: 1. POSIX, то, что умеет любая *NIX система: select и poll 2. специфичное только для Linux: epoll

Вот что выберет программист, то и будет использоваться, отсюда, кстати, неверно, что select не используется. Это самый «классический» способ взаимодействия с *NIX системой.

Думаю, что у boost::asio под капотом именно он, но это мое предположение.

В Boost.ASIO будет ровно, то, что задано макросами: https://www.boost.org/doc/libs/1_85_0/doc/html/boost_asio/using.html

Далее, вы уверены, что это проблема где-то в системе, а не в Boost? Я бы написал «hello world» на чистых системных вызовах на Си, померил бы производительность там. Не нулевая вероятность, что это оверхед Boost.ASIO.

Ну а если проблема не в этом, то дальше надо думать над самой логикой (не лучше написать асинхронно?).

zx_gamer ★★★
(21.08.24 19:21:27 MSK)

Попробуй увеличить буфер на отправку.

faq2 ★
(22.08.24 01:31:55 MSK)

Я бы посмотрел еще на www.linux.org.ru/tag/profiler .

Infra_HDC ★★★★★
(22.08.24 01:39:49 MSK)

Из подробностей - обмен по мультикасту, создается несколько отдельных сокетов, которые привязываются к одному мультикаст адресу, под капотом boost::asio.
UPDATE: добавил ссылку на FlameGraph

Выкинь всё, кроме работы с boost::asio, и выложи компилирующийся исходник. Иначе тупняк в треде растянется на пару месяцев.

LamerOk ★★★★★
(22.08.24 11:07:21 MSK)

Непонятно, зачем вообще Asio, если всё синхронно. Сделайте на сисколлах, как предлагали выше.

anonymous
(22.08.24 18:08:15 MSK)

пересобрать с новым asio который умеет uring

anonymous
(22.08.24 19:02:57 MSK)

Новая вводная. Я ошибся с оценкой сетевой нагрузки на порядок - там не 110 исходящий сообщений в секунду, а ~2750, размер средний 386 байт уже со всей службной информацией, трафик около 1Мб/сек получается. Приложение шлет мультикаст по двум интерфейсам и, соответственно, назад получает все эти же пакеты. Получается сетевая подсистема ядра просто ддосится мелкими пакетами? Сейчас буду дорабатывать архитектуру, там половину сообщений можно выбросить (дубли), и попробую еще сократить их кол-во.

С другой стороны, если брать 2750 пакетов с размером MTU 1400 это будет ~3,85 Мб/сек, это явно не предел сетевой подсистемы

yetanother ★★
(23.08.24 11:37:58 MSK) автор топика

Ответ на: комментарий от zx_gamer 21.08.24 19:21:27 MSK

Про epoll в линуксе я неправильно выразился, не линукс его использует, а в линуксе он используется. Да, в выхлопе перфа я нашел, что именно epoll используется в моем конкретном случае, но ЦПУ в нем очень мало времени проводит.

Пока я хочу уменьшить число сообщений, которые отправляются по сети, есть такая возможность. Если не поможет - переписать асинхронно, там по идее будет быстро, вариант с сишными вызовами тоже интересен

yetanother ★★
(23.08.24 11:43:48 MSK) автор топика

Ответ на: комментарий от yetanother 23.08.24 11:43:48 MSK

Тут еще следует учесть, что производительность может быть низкой из-за того, что сообщения маленькие. Вероятно, время от размера сообщения (в разумных пределах) не зависит.

zx_gamer ★★★
(23.08.24 12:01:04 MSK)

Ответ на: комментарий от yetanother 23.08.24 11:37:58 MSK

Можно еще для эксперимента собрать текущий код на FreeBSD (естественно, убедившись, что в Boost.ASIO включится kqueue).

По крайней мере раньше провайдеры предпочитали FreeBSD, потому что сетевая подсистема ни в какое сравнение с Linux'овой не шла.

zx_gamer ★★★
(23.08.24 12:05:03 MSK)

Ответ на: комментарий от zx_gamer 23.08.24 12:01:04 MSK

Все равно остается вопрос - ведь если сообщения будут размером с дефолтный MTU, то 2750*1400 будет все равно 30 МБит/сек. Т.е. это не такое уж большое кол-во пакетов. Ну либо для нагрузки 100 Мбитного канала нужно всегда увеличивать МТУ в 3-4 раза - я тут не в курсе

yetanother ★★
(23.08.24 12:18:03 MSK) автор топика

Ответ на: комментарий от yetanother 23.08.24 12:18:03 MSK

Я про то, что нагрузка растет не столько от трафика, сколько от сообщений различных.

zx_gamer ★★★
(23.08.24 12:27:06 MSK)

Ответ на: комментарий от zx_gamer 23.08.24 12:27:06 MSK

Я согласен, что кол-во сообщений играет роль, но кмк не должны 2750 сообщений быть такой большой нагрузкой.

yetanother ★★
(23.08.24 13:59:42 MSK) автор топика

Ответ на: комментарий от yetanother 23.08.24 11:43:48 MSK

Если для обмена сообщениями действительно используется несколько сокетов (а не несколько сотен или тысяч сокетов), то я бы попробовал переключить с epoll на poll и сравнить.

annulen ★★★★★
(23.08.24 23:37:20 MSK)

Переделал на асинхронщину, картинка в перфе, соответственно, поменялась заметно, но нагрузка на ЦПУ осталась. Просто раньше ЦПУ проводил время в потоках, которые вели сетевой обмен через блокирующиеся сокеты. А теперь их нет и ЦПУ проводит время в io_service.

yetanother ★★
(28.08.24 12:26:02 MSK) автор топика

1 октября 2024 г.

Если вдруго кому интересно - проблема оказалась в архитектуре. Тут не сетевая подсистема не справлялась, а приложение генерировало много лишних дублирующих пакетов, которые создавали избыточную сетевую нагрузку.

yetanother ★★
(01.10.24 21:55:27 MSK) автор топика

←	Визуальные метки на полях

Development

Почему не срабатывает join exist

→

Похожие темы