Проблема с темпом выдачи данных 1,6 ms (Qt c++, tcp)

0

4

Linux Astra. При передачи данных возникают задержки около 200, 50 миллисекунд через несколько тысяч пачек, есть зависимость от взаимодействия с рабочим столом (сворачивание окон) . Протокол: запрос-ответ, управляющий пакет 100 байт, ответный 800 байт, темп 1,6 мс. Используются линуксовые сокеты,в setsockopt TCP_NODELAY 1. На поток выдачи выставлен scheduler SCHED_FIFO с приоритетом 98, прерывания обрабатываются на отдельном ядре. Пересобирал ядро для повышения частоты прерываний CONFIG_HZ с 250 до 1000. Проблема сохраняется на тестовой программе, выдающей константный массив. Прошу помочь.

Ссылка

←	Посоветуйте протокол

Что обозначают правила QSizePolicy::Maximum и Minimum ?

→

← 1 2 →

есть зависимость от взаимодействия с рабочим столом (сворачивание окон)

Ты же не выполняешь IO-операции в главном потоке, правда?

XMs ★★★★★
(07.12.18 10:47:08 MSK)

Поиграйся с размерами приемного и передающего буфера. Попробуй неблокирующий режим передачи.

eagleivg ★★★★★
(07.12.18 10:48:50 MSK)

Ответ на: комментарий от XMs 07.12.18 10:47:08 MSK

Взаимодействия с файлами нет, пробовал дефолтный массив

Speed_nik
(07.12.18 10:52:05 MSK) автор топика

Ответ на: комментарий от Speed_nik 07.12.18 10:52:05 MSK

IO — это не только файлы. Это и сеть в том числе. Так в главном потоке или нет?

XMs ★★★★★
(07.12.18 10:53:53 MSK)

Ответ на: комментарий от eagleivg 07.12.18 10:48:50 MSK

В setsockopt ставил TCP_MAXSEG 1024,SO_SNDBUF 4096, пачки не режутся

Speed_nik
(07.12.18 10:55:11 MSK) автор топика

Ссылка

Ответ на: комментарий от XMs 07.12.18 10:53:53 MSK

Как это можно проверить?

Speed_nik
(07.12.18 10:56:21 MSK) автор топика

Ответ на: комментарий от Speed_nik 07.12.18 10:56:21 MSK

В смысле? Если ты создавал отдельный поток (QThread/std::thread/whatever) и все сетевые операции делал в нём — то, значит, всё хорошо, у тебя код выполняется в отдельном потоке. Если нет — всё в главном.

Используются линуксовые сокеты,в setsockopt TCP_NODELAY 1

Есть ли в этом объективная причина? Почему не воспользуешься QTCPSocket? С ним и при многопоточности проще

XMs ★★★★★
(07.12.18 11:01:57 MSK)
Последнее исправление: XMs 07.12.18 11:03:05 MSK (всего исправлений: 2)

Ответ на: комментарий от XMs 07.12.18 11:01:57 MSK

Класс создал, инициализировал, закинул в поток (movetothread). Вызовы происходят с ID потока.

Сначала использовал QTCPSocket, переписал в надежде ускорить работу.

TCP_NODELAY, т. к. пакеты небольшие ускоряет передачу

Speed_nik
(07.12.18 11:14:52 MSK) автор топика

Ответ на: комментарий от Speed_nik 07.12.18 11:14:52 MSK

Класс создал, инициализировал, закинул в поток

Только сейчас или ещё тогда? А гуи тред ничего из данных рабочего потока не лочит?

deep-purple ★★★★★
(07.12.18 11:19:16 MSK)

Ответ на: комментарий от XMs 07.12.18 11:01:57 MSK

В смысле?

А ты, кстати, не всматривался в htop с кутёвым приложением? Оно своей жизнью живёт: иногда самостоятельно по прихоти его левой пятки потоки создаёт/удаляет.

deep-purple ★★★★★
(07.12.18 11:23:30 MSK)

тсп это нормально

anonymous
(07.12.18 11:29:28 MSK)

Ответ на: комментарий от deep-purple 07.12.18 11:19:16 MSK

Не лочит, qthread, время жизни не сбрасывается

Speed_nik
(07.12.18 11:32:17 MSK) автор топика

Попробуй освободить одно ядро поближе к dma зоне от остальных процессов и потоков и посади туда сетевой поток.

Но для начала, тебе нужен какой-то бенчмарк твоей сети, что бы понять много или мало 1.6ms.

Ещё, можно логи поставить на критическом пути программы, с целевым лэйтенси ~2ms можно вполне себе брать spdlog или даже boost::log и посмотреть где «тормозит».

есть зависимость от взаимодействия с рабочим столом (сворачивание окон)

Проблема сохраняется на тестовой программе, выдающей константный массив

Видимо таки дело в affinity если оба два правда.

pon4ik ★★★★★
(07.12.18 11:32:52 MSK)

Ответ на: комментарий от anonymous 07.12.18 11:29:28 MSK

тсп может 50us в 99.99% случаев, при правильной сетевухе и прочих тюнингах, даже на штатном ляликсовом tcp стеке.

pon4ik ★★★★★
(07.12.18 11:33:56 MSK)

Ответ на: комментарий от pon4ik 07.12.18 11:33:56 MSK

tcp никому не обязан отправлять данные равномерно, в рфц про это тоже ничего нет

anonymous
(07.12.18 11:38:25 MSK)

Ответ на: комментарий от anonymous 07.12.18 11:38:25 MSK

Не обязан, но можно.

pon4ik ★★★★★
(07.12.18 11:39:01 MSK)

Ответ на: комментарий от Speed_nik 07.12.18 11:32:17 MSK

Не лочит

Т.е. гуй вообще никоим образом ни байтика информации из рабочего треда не использует? А что же он тогда показывает? Пустое окно? Не верится.

Колись каким образом гуй получает информацию для отображения состояния и/или данных из рабочего треда.

deep-purple ★★★★★
(07.12.18 11:41:31 MSK)

Ответ на: комментарий от deep-purple 07.12.18 11:23:30 MSK

Там с потоками иногда весело, видимо, eventloop чудит

XMs ★★★★★
(07.12.18 11:41:44 MSK)

Ответ на: комментарий от pon4ik 07.12.18 11:39:01 MSK

а в теме его хотят обязать, что выглядит смешно, я бы для начала поигрался с ипперф

anonymous
(07.12.18 11:42:02 MSK)

Ответ на: комментарий от anonymous 07.12.18 11:42:02 MSK

Я бы сначала поигрался с сокетами без полезной нагрузки. iperf слишком навороченный, придётся как минимум сорцы посмотреть, что бы убедиться, что он про лэйтенси а не про трупут.

pon4ik ★★★★★
(07.12.18 11:46:36 MSK)

Ссылка

Ответ на: комментарий от Speed_nik 07.12.18 11:14:52 MSK

Класс создал, инициализировал

Какой класс? Свой или QTCPSocket?

Покажи, как у тебя происходит обмен данными с сетью.

переписал в надежде ускорить работу

QTCPSocket, конечно, может тормозить, но из-за эвентлупа, а не сам по себе. Его можно использовать без него

XMs ★★★★★
(07.12.18 11:48:18 MSK)

Ответ на: комментарий от XMs 07.12.18 11:41:44 MSK

Я такое поведение замечал только если более одного «потока» (кутреда, поэтому в кавычках), создаёт ещё 1, а сильно реже даже 2 реальных потока, когда я заставляю рабочий «поток» шевелиться.

deep-purple ★★★★★
(07.12.18 11:49:30 MSK)

Ссылка

Ответ на: комментарий от deep-purple 07.12.18 11:41:31 MSK

В рабочем варианте сигналы/слоты + очередь, в тестовом константый массив и массив

Speed_nik
(07.12.18 11:50:59 MSK) автор топика

Ответ на: комментарий от Speed_nik 07.12.18 11:50:59 MSK

сигналы/слоты

Перепроверь и руками, явно, в коннектах слотов укажи queued connection, но только в тех, которые касаются подписки на эмиты из рабочего треда (дада, я знаю что оно автоматически типа само, но читай дальше). Проверь чтобы в коде НЕ БЫЛО так, что какой-то объект в треде гуя может эмитнуть сигнал, на который другой объект в треде гуя подписан как «queued».

очередь

Какая-то своя в потоке или ты про queued о котором я абзацем выше?

Добавь рабочему треду «мощщИ»: http://doc.qt.io/qt-5/qthread.html#Priority-enum

deep-purple ★★★★★
(07.12.18 12:00:02 MSK)

Ответ на: комментарий от XMs 07.12.18 11:48:18 MSK

Код к сожалению сейчас сбросить не могу. Мой класс.

Speed_nik
(07.12.18 12:08:33 MSK) автор топика

Ответ на: комментарий от deep-purple 07.12.18 12:00:02 MSK

Явно указана очередь в cornnect слотов, вызовы не пересекаются. Очередь QQueue для поддержки буфера выдачи, приоритет потока TimeCritical

Speed_nik
(07.12.18 12:28:00 MSK) автор топика

Ссылка

Ответ на: комментарий от Speed_nik 07.12.18 12:08:33 MSK

Без кода сложно. Попробуй сделать минимальный пример, который сможешь выложить и где проблема будет проявляться

XMs ★★★★★
(07.12.18 12:30:37 MSK)

Ссылка

Ещё пачка наводящих вопросов:

У тебя под контролем сервер или клиент или и то и то
Есть ли вылеты на петле
Стандартные ли настройки буферов сокетов на стороне клиента и сервер
Пробовал ли SO_BUSY_POLL
Как ты дёргаешь сокет - неблокирущий, асинхронный или блокирующий

pon4ik ★★★★★
(07.12.18 12:39:23 MSK)

Ответ на: комментарий от pon4ik 07.12.18 12:39:23 MSK

Только сервер.

Вылетов нет.

К клиенту доступа нет, сервер и тестовый клиент настраивал с помощью setsockopt, в sysctl. Помогло слабо, в связи с этим не уверен в правильности настройки.

Попробую SO_BUSY_POLL

Сначала был асинхронный, теперь блокирующий

Speed_nik
(07.12.18 12:59:52 MSK) автор топика

Ответ на: комментарий от XMs 07.12.18 10:47:08 MSK

Ты же не выполняешь IO-операции в главном потоке, правда?

На что ты намекаешь? Код выполняемый в главном потоке особо замедлен что ли? Это такой же код, просто, он оккупировав главный поток залочит UI. Почему этот код должен выполняться медленее?

~~thomasbug~~
(07.12.18 13:02:02 MSK)

Ответ на: комментарий от thomasbug 07.12.18 13:02:02 MSK

оккупировав главный поток залочит UI

Может быть и наоборот: UI залочит всё остальное. Что у ТСа и происходит при сворачивании

XMs ★★★★★
(07.12.18 13:12:46 MSK)

Ссылка

Ответ на: комментарий от Speed_nik 07.12.18 12:59:52 MSK

Сделай для начала echo клиент/сервер с твоим типовым пэйлоадом и с ним играйся, в идеале, без культей. Для начала без очереди сообщений совсем, просто один запрос ответ пинг понг. Когда там добьёшься нужного времени отклика, ищи разницу со своей реализацией или усложняй echo конфиг пока он тоже не начнёт лагать.

В общем и целом держать сервер на десктопе где не все ядра отданные ему заняты им безраздельно - лотерея если хочется в лэйтенси. Не должно быть переключений контекста с другими процессами как минимум.

Вылетов нет

Имеются в виду не падения, а процент вылетов времён отклика из математического ожидания.

pon4ik ★★★★★
(07.12.18 13:19:47 MSK)

Ссылка

Ответ на: комментарий от pon4ik 07.12.18 11:32:52 MSK

Видимо таки дело в affinity если оба два правда.

affinity дает задержку в 1.6 миллисекунд? Не может такого быть.

tailgunner ★★★★★
(07.12.18 13:24:02 MSK)

есть зависимость от взаимодействия с рабочим столом (сворачивание окон)

А без этого темп держится или нет?

tailgunner ★★★★★
(07.12.18 13:25:32 MSK)

Ответ на: комментарий от tailgunner 07.12.18 13:24:02 MSK

Если на ядре запущен ещё один планировщик кроме FIFO и есть активно работающие процессы - то почему бы и нет?

1.6ms это ещё мало, я как-то замерял, у меня получилось что до 12ms можно курить в такой конфигурации и это без DE и с почти всеми спящими остальными процессами. А 1.6ms это целевая лэйтенси, читай внимательней, вылеты идут по 50-200ms. Больше похоже на то, что кто-то буфер сокета забивает где то или на всякие инверсии приоритетов, ну или просто сеть кал.

pon4ik ★★★★★
(07.12.18 13:40:48 MSK)
Последнее исправление: pon4ik 07.12.18 13:42:52 MSK (всего исправлений: 1)

Ответ на: комментарий от pon4ik 07.12.18 13:40:48 MSK

Если на ядре запущен ещё один планировщик кроме FIFO и есть активно работающие процессы - то почему бы и нет?

Если все процессоры заняты, affinity не поможет. Если есть свободные процессоры, переброска нити на другой процессор не даст задержку в 1.6мс.

у меня получилось что до 12ms можно курить в такой конфигурации

И причем здесь affinity?

А 1.6ms это целевая лэйтенси, читай внимательней, вылеты идут по 50-200ms.

Улучшать целевую латентность в 1.6мс за счет affinity - так себе идея. Начинать надо с TCP_NODELAY и маленьких клиента с сервером. Очевидно, что задержки в десятки миллисекунд - это какой-то В/В. Вопрос только в том, имеют эти задержки внутреннюю или внешнюю природу - например, манипуляции окнами на фреймбуфере могут загрузить вообще всё.

А по-хорошему, если такие требования к задержкам, надо использовать UDP.

tailgunner ★★★★★
(07.12.18 13:50:36 MSK)

Ответ на: комментарий от tailgunner 07.12.18 13:50:36 MSK

При том, что надо хотя бы освободить ядра на которых крутится mission critical код для начала. Само переключение на другое ядро не даст задержки такой. А вот ожидание свободного ядра при вытесняющем планировании может дать и по-более и будет зависеть от ~~погоды на Марсе~~загруженности системы. Может причина и не в этом, но минус одна переменная это всегда хорошо. А в этом, она сильно чаще, чем кажется.

Короче, согнать другие процессы включая init с тех ядер, на которых выполняется целевое решение нужно. А не affinity потоков своих наяривать.

pon4ik ★★★★★
(07.12.18 13:55:51 MSK)
Последнее исправление: pon4ik 07.12.18 13:56:53 MSK (всего исправлений: 1)

Ответ на: комментарий от tailgunner 07.12.18 13:50:36 MSK

Интересно. А где по-нормальному (в контексте описаной ТС проблемы) должен делаться замер времени? И какими вызовами/средствами?

~~thomasbug~~
(07.12.18 14:03:32 MSK)

Ответ на: комментарий от pon4ik 07.12.18 13:55:51 MSK

А вот ожидание свободного ядра при вытесняющем планировании может дать и по-более и будет зависеть от погоды на Марсезагруженности системы.

О чем и речь. Но с этим борются приоритетами.

Короче, согнать другие процессы включая init с тех ядер, на которых выполняется целевое решение нужно.

Время таких мер еще не пришло - 200мс этим не объяснишь.

tailgunner ★★★★★
(07.12.18 14:03:40 MSK)

Ответ на: комментарий от tailgunner 07.12.18 14:03:40 MSK

200мс если куча хрени работает теоретически может быть, но согласен, маловероятно. Вот 50 - запросто с de как мне кажется, даже мыслей небыо никогда замерять что-то под таким конфигом:)

pon4ik ★★★★★
(07.12.18 14:05:51 MSK)

Ссылка

Ответ на: комментарий от tailgunner 07.12.18 13:25:32 MSK

Без взаимодействия с интерфейсом задержки все равно есть.

Speed_nik
(07.12.18 14:05:53 MSK) автор топика

Ответ на: комментарий от thomasbug 07.12.18 14:03:32 MSK

А где по-нормальному (в контексте описаной ТС проблемы) должен делаться замер времени? И какими вызовами/средствами?

Я бы делал на передающем и приемном концах. Пронумеровать сообщения и смотреть дельты. Или даже сделать перед началом колхоз-синхронизацию времени (по UDP, естественно).

И какими вызовами/средствами?

С целевой задержкой 1.6мс подойдет примерно всё. gettimeofday, например.

tailgunner ★★★★★
(07.12.18 14:06:34 MSK)

Ответ на: комментарий от Speed_nik 07.12.18 14:05:53 MSK

Это хорошо. Значит, нужно писать минимальный сценарий воспроизведения. Без изысков - send, poll, TCP_NODELAY.

tailgunner ★★★★★
(07.12.18 14:08:22 MSK)

Ссылка

Ответ на: комментарий от thomasbug 07.12.18 14:03:32 MSK

По хорошему - везде, нужен просто профиль работы приложения. Но, дёшево(быстро) это можно сделать только сэмплерным профайлером. А он сам привносит издержки да и точности скорее всего будет маловато.

А инструментировать код, да ещё и эффективно задача определённого времени. Но, кмк, те же 200мс можно увидеть и в профиле от того же oprofile, только смотреть надо будет очень внимательно и сопоставлять таймштампы пиков.

pon4ik ★★★★★
(07.12.18 14:09:00 MSK)

Ссылка

Ответ на: комментарий от tailgunner 07.12.18 14:06:34 MSK

SO_TIMESTAMPING же.

pon4ik ★★★★★
(07.12.18 14:09:40 MSK)

Ответ на: комментарий от pon4ik 07.12.18 13:55:51 MSK

Процессы перебрасывает с помощью sched_setaffinity в цикле или есть более лучший способ?

Speed_nik
(07.12.18 14:11:42 MSK) автор топика

Кстати, а ты сетевые дампы смотрел? Как минимум, если там тоже отражается задержка, можно использовать таймштампы пакетов с задержкой, что бы сопоставлять их с таймштампами других событий которые вызывают подозрение.

pon4ik ★★★★★
(07.12.18 14:11:45 MSK)

Ссылка

Ответ на: комментарий от pon4ik 07.12.18 14:09:40 MSK

В данном случае я не вижу преимуществ. Содержимое пакета всё равно определяем мы, почему не положить в него время? Тем более, если использовать колхоз-синхронизацию времени. SO_TIMESTAMPING нужен, когда в протокольный payload невозможно впихнуть время.

tailgunner ★★★★★
(07.12.18 14:12:59 MSK)
Последнее исправление: tailgunner 07.12.18 14:14:10 MSK (всего исправлений: 1)

Ответ на: комментарий от Speed_nik 07.12.18 14:11:42 MSK

Процессы перебрасывает с помощью sched_setaffinity

Выстави affinity иниту в начале загрузки.

О, или проверь, есть ли в Astra опция ядра isol_cpus (если тебе доступно изменение конфигурации загрузчика).

tailgunner ★★★★★
(07.12.18 14:13:52 MSK)
Последнее исправление: tailgunner 07.12.18 14:19:01 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Speed_nik 07.12.18 14:11:42 MSK

Надо все остальные процессы в системе согнать с ядер на которых планируется выполнять твой процесс. Я обычно делаю это с помощью ps и taskset. Это не атомарно, но атомарного решения тут в принципе нет. Если потом, вдруг кто-то и остался висеть на нужных ядрах их можно нагрепать и согнать ещё раз.

Ешё, можно заморочиться наверное и на старте пускать init через taskset.

pon4ik ★★★★★
(07.12.18 14:14:22 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	Посоветуйте протокол

Development

Что обозначают правила QSizePolicy::Maximum и Minimum ?

→

Похожие темы