Как найти заголовок в текстовых протоколах?

0

2

Как считывать данные и искать заголовки из текстовых протоколов? Вроде HTTP? Я отправляю запрос в сокет.

Мне приходит ответ

HTTP/1.0 200 OK
Server: nginx/0.6.31
Content-Language: ru
Content-Type: text/html; charset=utf-8
Content-Length: 1234

<данные>

Каким образом я должен узнать сколько байт будет в заголовке ответа сервера, чтобы его полностью распарсить?

Считывать побайтово пока не встречу \r\n\r\n?

Мне кажется, побайтово считывать медленно.

Ссылка

← Деструкторы в php

Как иизбежать искажения изображения при использовании perspective в CSS? →

Считывать побайтово пока не встречу \r\n\r\n?

Я бы так и делал. Только читал бы не побайтово, а большими порциями.

rumgot ★★★★★
(16.07.17 10:41:04 MSK)
Последнее исправление: rumgot 16.07.17 10:41:50 MSK (всего исправлений: 1)

Читай неблокирующим read'ом столько сколько читается и ищи в потоке \r\n\r\n

Reset ★★★★★
(16.07.17 10:48:20 MSK)

Ответ на: комментарий от Reset 16.07.17 10:48:20 MSK

Читай неблокирующим read'ом

С чего вы взяли, что ТСу именно неблокирующий надо?

ищи в потоке \r\n\r\n

Ну да, а Content-Length, charset, cookie и т д - это типа совсем не надо парсить, ага. Ладно ещё не нарвётесь на HTTP/0.NN, где двойной пустой строки вообще нет.

vodz ★★★★★
(16.07.17 11:23:55 MSK)

принято заводить под это дело отдельный буфер,
куда дописываются полученные байты,
после чего данные сплитятся на \n(\r), и заганяютя в список,
а уже в списке ищутся нужные данные, будь то контент длинна или еще что то
это в простом варианте

anonymous
(16.07.17 12:09:56 MSK)

Использовать готовый парсер.

~~RazrFalcon~~ ★★★★★
(16.07.17 12:11:15 MSK)

побайтово считывать медленно

И ты, мешок с костями, ещё рассуждаешь о медленности?

По теме: сообщение (запрос) состоит из элементарных сообщений (строка до разделителя), которые могут быть статусом, выражением или данным.

Раз в определении присутствует байт (конец строки), то да - считыать побайтно.

Если бы байт не упоминался, то нижней границей было бы элементарное сообщение.

anonymous
(16.07.17 12:22:26 MSK)

Ответ на: комментарий от vodz 16.07.17 11:23:55 MSK

С чего вы взяли, что ТСу именно неблокирующий надо?

С того что он не хочет читать по одному байту. С блокирующим только так.

Reset ★★★★★
(16.07.17 12:49:36 MSK)

Ответ на: комментарий от Reset 16.07.17 12:49:36 MSK

С того что он не хочет читать по одному байту. С блокирующим только так.

ioctl(socket, FIONREAD, &ready_for_read);

vodz ★★★★★
(16.07.17 13:11:41 MSK)

Ответ на: комментарий от rumgot 16.07.17 10:41:04 MSK

А каким выбрать размер порции? В этом загвоздка

Я беру размер 512 байт, а если весь ответ меньше? У меня read будет висеть и ждать

JANB ★
(16.07.17 13:53:45 MSK) автор топика

Ответ на: комментарий от Reset 16.07.17 12:49:36 MSK

Не понял, что мне мешает сделать

read(sock, buffer, 1)?

JANB ★
(16.07.17 13:54:57 MSK) автор топика

Ответ на: комментарий от anonymous 16.07.17 12:22:26 MSK

Раз в определении присутствует байт

В определении моем, которое я дал? Я мог и фигню сморозить. мне интересно как люди читают http, необязательно побайтно

JANB ★
(16.07.17 13:58:15 MSK) автор топика

Ссылка

Ответ на: комментарий от RazrFalcon 16.07.17 12:11:15 MSK

Какие то монстры в ответе гугла

JANB ★
(16.07.17 14:01:59 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 16.07.17 12:09:56 MSK

И по сколько считывать? Что делать если ответ меньше чем порция для считывания и сокет блокирующий?

JANB ★
(16.07.17 14:04:00 MSK) автор топика

Ответ на: комментарий от JANB 16.07.17 13:53:45 MSK

Это зависит от того, с помощью каких функций/библиотек ты работаешь с сетью. Я могу подсказать, как это делается на c++/Qt или c++/Boost.asio .

rumgot ★★★★★
(16.07.17 14:09:19 MSK)

Ссылка

Ответ на: комментарий от JANB 16.07.17 14:04:00 MSK

Что делать если ответ меньше чем порция для считывания и сокет блокирующий?

recv() прочитает и вернет количество прочитанных байт. Блокироваться не будет

http://man7.org/linux/man-pages/man2/recv.2.html

These calls return the number of bytes received, or -1 if an error occurred.

Логика немного сложнее, если данных пришло больше буфера. Нужно вычитывать до тех пор пока recv() > 0.

Deleted
(16.07.17 14:51:23 MSK)

Ответ на: комментарий от JANB 16.07.17 13:54:57 MSK

Ничто не мешает. Это неэффективно. Слишком много сисколов.

Reset ★★★★★
(16.07.17 15:25:44 MSK)

Ссылка

Ответ на: комментарий от vodz 16.07.17 13:11:41 MSK

linux-only хак. Я бы руки вырвал за такой код.

Reset ★★★★★
(16.07.17 15:26:13 MSK)

Ответ на: комментарий от Deleted 16.07.17 14:51:23 MSK

If no messages are available at the socket, the receive calls wait
       for a message to arrive, unless the socket is nonblocking

И с чего это не должен блокироваться блокирующий сокет ?

Reset ★★★★★
(16.07.17 15:31:16 MSK)

Ответ на: комментарий от Reset 16.07.17 15:26:13 MSK

linux-only хак.

Нет, этот ioctl-код был, когда Linux-а ещё не было. Тогда даже сети не было, использовался для узнавания, сколько можно прочитать чего-либо (то есть в основном из tty).

vodz ★★★★★
(16.07.17 16:18:27 MSK)

Ссылка

Вот замечательный пример. https://github.com/nodejs/http-parser

dvetutnev ★
(16.07.17 16:41:19 MSK)

Ссылка

Используй так длина Content-Length: = 16

char *ptr = strstr ( buf, "Content-Length:" );
ptr += 17;
int length = atoi ( ptr );

~~u0atgKIRznY5~~ ☆
(16.07.17 16:58:46 MSK)

Ссылка

Ответ на: комментарий от Reset 16.07.17 15:31:16 MSK

Это я коряво выразился. Если пришло меньше запрашиваемого количества, не будет блокироваться ожидая еще данных

Deleted
(16.07.17 17:07:17 MSK)

Ссылка

Понятие «протокол» подразумевает как раз свод правил, которых будут придерживаться машины при обмене данными. В твоём случае, конечно, нужно опираться на протокол, а это значит, что получив знание о том по какому протоколу к тебе обратились ты уже принимаешь решение как интерпретировать всё остальное. Представь, что нет никакой универсальной последовательности байт, которую всегда можно интерпретировать как «всё, вот тут конец», всё зависит от протокола и в данном случае конец - это «\r\n\r\n», а также как тут выже сказали, бывают и другие вариации протокола HTTP и уже тебе решать будет ли твой софт его поддерживать.

c3ph
(16.07.17 17:16:12 MSK)

Ссылка

Если нужно парсить конкретно HTTP, то используй https://github.com/nodejs/http-parser

anonymous
(16.07.17 17:36:43 MSK)

Ссылка

Ответ на: комментарий от Reset 16.07.17 10:48:20 MSK

Читай неблокирующим read'ом столько сколько читается и ищи в потоке \r\n\r\n

А так как всегда есть шанс, что данные будут приходить по одному байту, то нужно будет реализовывать конечный автомат или использовать уже готовый http-parser, который уже отлажен и работает так же быстро, как собственный велосипед.

anonymous
(16.07.17 17:39:36 MSK)

Ссылка

Ответ на: комментарий от anonymous 16.07.17 12:09:56 MSK

принято заводить под это дело отдельный буфер,

куда дописываются полученные байты, после чего данные сплитятся на \n(\r), и заганяютя в список, а уже в списке ищутся нужные данные, будь то контент длинна или еще что то это в простом варианте

Или можно реализовать конечный автомат, который будет анализировать входящий поток побайтно и никуда его не сохранять. Или использовать готовый http-parser.

anonymous
(16.07.17 17:41:47 MSK)