C++ парсинг протоколов. HTTP, например.

0

2

В теории, конечный автомат — рулез. Он позволяет парсить поток даже при ленивом поступлении на вход данных по одному байту.

Например, в nginx запилена такая FSM (finite state machine), которая жрёт по 1 байту и идёт в длинный switch, где в зависимости от текущего состояния каким-то образом сжирает этот байт.

Но в реальной жизни в 99% случаев HTTP-запрос (пачка хидеров и завершающий двойной перевод строки) целиком приходит в одном пакете. То есть, при чтении из сокета в 99% случаев оказывается, что нам доступен целый запрос в буфере и FSM нам не нужен, мы можем запустить последовательность процедур, которые выцепят из этого буфера разные аспекты парсимого протокола.

Насколько большой оверхед даёт FSM в виде хождения в таблицу указателей на функции (это то, во что скомпилируется switch) на каждый байт?

Я понимаю, что FSM по-хорошему нужен. Кусок HTTP-запроса может прийти раньше второго куска. Малолетние хакеры могут захотеть посылать HTTP-запросы через nc по одной строчке и это выдержит nginx. Но в реальной жизни целый запрос обычно валится в виде одного пакета.

Ссылка

← qt: изменение размеров виджетов

shell q →

← 1 2 →

Для http там switch получится просто огромный...

Малолетние хакеры могут захотеть посылать HTTP-запросы через nc по одной строчке и это выдержит nginx

А ещё малолетние хакеры могут использовать telnet или фиговое соединение, ИМХО, ДКА нужен.

Но в реальной жизни целый запрос обычно валится в виде одного пакета

Определи понятие «реальная жизнь»

Stil ★★★★★
(14.07.14 16:47:44 MSK)

какой идиотизм я только что прочитал

Harald ★★★★★
(14.07.14 16:49:51 MSK)

Ссылка

Ответ на: комментарий от Stil 14.07.14 16:47:44 MSK

Для HTTP switch нормальный, если писать не криво. В nginx аффтар напейсал и не умер. Читаемо, никаких фатальных ужоснахов нет.

kiverattes ★☆
(14.07.14 16:51:22 MSK) автор топика

Ссылка

Поделись «запросом» из своего пакета! Хочу чтобы так же вштырило!

anonymous
(14.07.14 16:51:58 MSK)

Ответ на: комментарий от anonymous 14.07.14 16:51:58 MSK

Чё?

kiverattes ★☆
(14.07.14 17:43:55 MSK) автор топика

Ссылка

даю подсказку - HTTP работает поверх поточно-ориентированных протоколов, например, TCP

Harald ★★★★★
(14.07.14 17:51:22 MSK)

Ответ на: комментарий от Harald 14.07.14 17:51:22 MSK

И чо?

kiverattes ★☆
(14.07.14 17:53:48 MSK) автор топика

Ответ на: комментарий от kiverattes 14.07.14 17:53:48 MSK

учи матчасть

Harald ★★★★★
(14.07.14 17:56:46 MSK)

мы можем запустить последовательность процедур, которые выцепят из этого буфера разные аспекты парсимого протокола.

Ну тебе же всё равно нужно анализировать каждый байт в буфере, что бы „выцепить из этого буфера разные аспекты парсимого протокола“. Да ещё и делать это будет каждая процедура с начала. Так что упомянутый оверхед может быть как раз отрицательным.

~~nanoolinux~~ ★★★★
(14.07.14 17:56:49 MSK)

Ответ на: комментарий от Harald 14.07.14 17:56:46 MSK

Сам учи.

kiverattes ★☆
(14.07.14 17:57:18 MSK) автор топика

Ссылка

Ответ на: комментарий от nanoolinux 14.07.14 17:56:49 MSK

Зачот.

kiverattes ★☆
(14.07.14 17:57:33 MSK) автор топика

Ответ на: комментарий от kiverattes 14.07.14 17:57:33 MSK

Спасибо, учитель!

~~nanoolinux~~ ★★★★
(14.07.14 17:59:23 MSK)

Ссылка

man regexp спасет отца демократии или мать истерии

anonymous
(14.07.14 19:02:20 MSK)

Ссылка

Ответ на: комментарий от Harald 14.07.14 17:56:46 MSK

Krieger_Od ★★
(14.07.14 19:11:15 MSK)

Ссылка

Ответ на: комментарий от Harald 14.07.14 17:51:22 MSK

Читатели топика массово упоролись, поскольку о своём знакомстве с фактом поточно-ориентированности HTTP я явно упоминул несколько раз в посте. И тут вдруг они внезапно поняли, что надо написать об этом ещё раз.

kiverattes ★☆
(14.07.14 19:30:34 MSK) автор топика
Последнее исправление: kiverattes 14.07.14 19:31:11 MSK (всего исправлений: 1)

Ответ на: комментарий от kiverattes 14.07.14 19:30:34 MSK

значит, ты не осознаёшь смысл, стоящий за этими словами :)

Harald ★★★★★
(14.07.14 20:06:10 MSK)

Ответ на: комментарий от Harald 14.07.14 20:06:10 MSK

Пля... Читай топик 100 раз до просветления.

kiverattes ★☆
(14.07.14 21:31:37 MSK) автор топика

Насколько большой оверхед даёт FSM в виде хождения в таблицу указателей на функции (это то, во что скомпилируется switch) на каждый байт?

Относительно большой. HTTP проектировали чтобы его можно было парсить совсем топорно в заранее накопленном буфере, ~ поиск по \r\n, нулей и т.п. Поиск байта-двух всегда быстрее кормёжки по байтам в FSM.

мы можем запустить последовательность процедур, которые выцепят из этого буфера разные аспекты парсимого протокола.

Этого тоже делать не нужно. Большую часть можно разобрать и обработать сразу, для остальгого (~куки, прочие ненужные поля) можно делать ленивый разбор, т.е. первичный парсер запоминает ссылки в виде оффсетов на части запроса и последующий код при необходимости делает доразбор.

~~mashina~~ ★★★★★
(14.07.14 21:33:02 MSK)

Ссылка

Ответ на: комментарий от kiverattes 14.07.14 21:31:37 MSK

Кусок HTTP-запроса может прийти раньше второго куска

наоборот прочитал значит, ок :)

В твоём варианте, чтобы убедиться, что запрос пришёл целиком, нужно держать буфер, в котором этот запрос гарантированно помещается, и чтобы убедиться в этом, надо лишний раз пробежаться от начала до конца, чтобы обнаружить маркер конца запроса, т.е получается дополнительный расход памяти и процессорного времени. А парсится запрос всё равно побайтно, так что FSM получится в любом случае, только в менее явном и наглядном виде.

Harald ★★★★★
(14.07.14 21:40:03 MSK)

Ответ на: комментарий от Harald 14.07.14 21:40:03 MSK

На практике получается так, что почти всегда запрос целиком есть в первом принятом пакете от клиента, а жалкая доля процента неудачников может быть послана нафиг.

И вот когда у меня есть целый запрос в буфере, мне не нужно прыгать через JMP-инструкции на каждый байт, отрабатывая switch, я могу сразу на этом пакете запускать всякие функции сравнения строк.

Просмотр каждого байта функцией strcmp - это быстрее, чем прыгать на каждый байт в switch().

kiverattes ★☆
(15.07.14 11:11:27 MSK) автор топика

Ответ на: комментарий от kiverattes 15.07.14 11:11:27 MSK

почти всегда запрос целиком есть в первом принятом пакете

Да, точно. Особенно когда в запросе URL c кучей параметров или POST-запрос

Ты хочешь вручную парсить HTTP без построения FSM? Никто же не мешает? Старые протоколы делали типа человеко-читабельными и человеко-писабельными. Можешь читать по «строкам» (\n) и парсить уже отдельную строку (регулярками, хе-хе)

anonymous
(15.07.14 11:35:23 MSK)

Ссылка

Кхм... Парсеры бывают разные (тут можно было бы написать целую лекцию). Если известны конкретные требуемые параметры, можно сгенерить парсер чем-то вроде ANTLR (или yacc, lex, flex, bison - вопрос личных предпочтений). Если умеешь работать с генераторами, то это задача лёгкая. Но это вопрос опыта. Иногда проще изучить работу с генераторами парсеров, чем городить какое-то своё чудище. Конечно, всё зависит от задачи. Для одноразовой софтины по выцеплению пары заголовков это слишком мощное решение. А вот для более сложных вещей типа браузеров - вполне себе оправданное.

Iron_Bug ★★★★★
(15.07.14 13:20:07 MSK)

Ссылка

Лучше всего писать код FSM на каком-нибудь DSL, который потом сгенерит тебе оптимизированный код. Например Ragel.

Кроме того, если хочешь парсить HTTP 1.1, то эту FSM даже писать не придётся, можно взять код из Mongrel, см. файлы с расширением rl в https://github.com/evan/mongrel/blob/master/ext/http11/

nozh ★
(15.07.14 16:07:45 MSK)
Последнее исправление: nozh 15.07.14 16:12:41 MSK (всего исправлений: 1)

Ссылка

поточно-ориентированности HTTP

в таблицу указателей на функции (это то, во что скомпилируется switch)

на этом пакете запускать всякие функции сравнения строк

запрос целиком есть в первом принятом пакете

вся суть С++ кодеров

rand ★
(15.07.14 20:47:41 MSK)

Ответ на: комментарий от rand 15.07.14 20:47:41 MSK

Читай топик, тут никто не спрашивал про всю суть каких-либо кодеров.

kiverattes ★☆
(15.07.14 21:22:16 MSK) автор топика

Ответ на: комментарий от kiverattes 15.07.14 21:22:16 MSK

Предпосылки твоих вопросов неверны, поэтому отвечать на них нет смысла.

rand ★
(15.07.14 21:51:48 MSK)

которые выцепят из этого буфера разные аспекты парсимого протокола

Это тоже будет конечный автомат, только кривой и неявно заданный.

Кстати я что то не понимаю о каких огромных switch идет речь? Состояний, да может быть много, но в каждом конкретном состоянии вариантов выбора для http можно по пальцам пересчитать.

Ну и конечно, какой вообще нахрен switch? За switch в крестах нужно расстреливать сразу и без размышлений.

no-such-file ★★★★★
(15.07.14 22:01:02 MSK)

Ответ на: комментарий от rand 15.07.14 21:51:48 MSK

Никто смысла и не обещал.

kiverattes ★☆
(16.07.14 01:02:08 MSK) автор топика

Ссылка

Ответ на: комментарий от no-such-file 15.07.14 22:01:02 MSK

switch не противоречит стандарту

kiverattes ★☆
(16.07.14 01:02:43 MSK) автор топика

Ссылка

Ответ на: комментарий от no-such-file 15.07.14 22:01:02 MSK

Ну и конечно, какой вообще нахрен switch? За switch в крестах нужно расстреливать сразу и без размышлений.

Где ты там кресты увидел?

~~mashina~~ ★★★★★
(16.07.14 11:17:26 MSK)

Кусок HTTP-запроса может прийти раньше второго куска

- если клиент шлет данные по TCP в правильном порядке, то этого быть не может.

Но вполне себе может быть ситуация, когда запрос пришел не полностью или, например, пришел целый запрос и кусок следующего запроса. Т.о. в общем случае задача гипотетического парсера HTTP-сообщения - это по буферу данных, полученных от клиента вернуть:

количество распарсенных байт из предоставленного буфера;
признак полностью полученного HTTP-сообщения;
признак ошибки парсинга и ее данные;
данные распарсенного HTTP-сообщения (method, URI, version, headers, etc.);
тело распарсенного HTTP-сообщения.

При этом да, парсер получается stateful, ибо, опять же, можно получить от клиента не весь запрос что повлечет за собой повторное получение данных от клиента и «допарсивание», так что без FSM не обойтись.

Однако, честно говоря, я не вижу никакого оверхэда при использовании FSM, т.к. в любом случае без состояний в том или ином виде не обойтись. Даже если парсер stateless (состояние не хранится в каком-либо члене класса), то внутри функции парсинга все равно будет иметь место хранение текущего состояния в некоей локальной переменной при переходе от одного символа к другому.

illy ★
(16.07.14 15:31:17 MSK)

Ответ на: комментарий от illy 16.07.14 15:31:17 MSK

Первый кусок не может прийти раньше второго?

kiverattes ★☆
(16.07.14 16:42:00 MSK) автор топика

Ответ на: комментарий от kiverattes 16.07.14 16:42:00 MSK

Первый кусок не может прийти раньше второго?

Не может - это гарантирует TCP. В случае UDP - да, может.

illy ★
(16.07.14 18:44:15 MSK)

Ответ на: комментарий от illy 16.07.14 18:44:15 MSK

ПЕРВЫЙ КУСОК НЕ МОЖЕТ ПРИЙТИ РАНЬШЕ ВТОРОГО??? Я НАЧЕНАЮ СОМНЕВАЦЦО В ИНТЕЛЛЕКТЕ ЛОРА!!!111

kiverattes ★☆
(16.07.14 18:48:52 MSK) автор топика
Последнее исправление: kiverattes 16.07.14 18:49:13 MSK (всего исправлений: 1)

Ответ на: комментарий от kiverattes 16.07.14 18:48:52 MSK

вот если бы ты написал «второй кусок позже первого», тогда бы все всё сразу правильно поняли :)

Harald ★★★★★
(16.07.14 18:51:37 MSK)

Ссылка

Ответ на: комментарий от kiverattes 16.07.14 18:48:52 MSK

Упс, заработался, прошу прощения. «Второй кусок не может прийти раньше первого» :)

illy ★
(16.07.14 18:57:18 MSK)

Ссылка

Ответ на: комментарий от mashina 16.07.14 11:17:26 MSK

Где ты там кресты увидел?

В названии темы «C++ парсинг протоколов».

no-such-file ★★★★★
(16.07.14 19:32:15 MSK)

Ответ на: комментарий от no-such-file 16.07.14 19:32:15 MSK

А где ты кресты в плюсах увидел?

kiverattes ★☆
(16.07.14 22:01:35 MSK) автор топика

Ответ на: комментарий от no-such-file 16.07.14 19:32:15 MSK

Так а в чём проблема использовать switch в C++?

anonymous8 ★★
(16.07.14 23:16:50 MSK)

Ответ на: комментарий от anonymous8 16.07.14 23:16:50 MSK

не понял, как ты предлагаешь использовать switch/case в данном случае?

mcFactor ★
(17.07.14 07:56:44 MSK)

Ответ на: комментарий от kiverattes 16.07.14 22:01:35 MSK

А где ты кресты в плюсах увидел?

Ну это кагбэ старая тема: Цэ два креста. Алсо http://lurkmore.to/C++ Ты ваще откдудова выпал, парниша?

no-such-file ★★★★★
(17.07.14 18:10:12 MSK)

Ответ на: комментарий от no-such-file 17.07.14 18:10:12 MSK

Лучше читай спеку, там это называется плюсами, а не всяких дебилов в интернете.

kiverattes ★☆
(18.07.14 10:45:52 MSK) автор топика

Ответ на: комментарий от kiverattes 18.07.14 10:45:52 MSK

Чувак, это сленг. Ты сам называешь «спецификации» спеками, и прочее.

PreciousProtection ★
(18.07.14 11:26:29 MSK)

Ответ на: комментарий от kiverattes 18.07.14 10:45:52 MSK

в интернете.

Ну ты и обалдуй. Кресты были крестами когда интернет ещё пешком под стол ходил.

no-such-file ★★★★★
(18.07.14 17:04:52 MSK)

Ссылка

Ответ на: комментарий от PreciousProtection 18.07.14 11:26:29 MSK

Это не сленг, это стёб. Стёб неосиляторов над тем, что ниасилили.

kiverattes ★☆
(18.07.14 17:28:55 MSK) автор топика

Ответ на: комментарий от kiverattes 18.07.14 17:28:55 MSK

Бомбануло тебе, милок? :3

Deleted
(18.07.14 17:56:17 MSK)

Ответ на: комментарий от Deleted 18.07.14 17:56:17 MSK

Наркоманы в треде?

kiverattes ★☆
(18.07.14 18:02:46 MSK) автор топика

Ссылка

Ответ на: комментарий от kiverattes 18.07.14 17:28:55 MSK

So what?

PreciousProtection ★
(19.07.14 10:28:03 MSK)

Ссылка

Ответ на: комментарий от Deleted 18.07.14 17:56:17 MSK

master/slave переименовали в leader/follower.
~~www.linux.org.ru/forum/talks/10524043~~

Кстати да, жалко, ведь slave в английском происходит от «славянин».

anonymous
(19.07.14 13:25:35 MSK)

Ответ на: комментарий от anonymous 19.07.14 13:25:35 MSK

весь мир давно за белых людей здесь считают caucasian

anonymous
(19.07.14 13:33:22 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

← qt: изменение размеров виджетов

Development

shell q →

Похожие темы