LINUX.ORG.RU

HELP! Рекурсивно запросить URL


0

1

Есть странная задачка: нужно выдернуть из файла миллион URL-ов, по одному скормить их сайту (просто http-запрос сделать с этим URL), для каждого такого хттп-запроса убедиться, что сайт ответил, но не дожидаться полного ответа сайта (он будет мегабайт на пять), а проверить, что в первых XYZ байт ответа есть определённое ключевое слово, после чего оборвать соединение.

Чем бы это получше сделать ? Я слишком слабо знаю всякие bash-и и прочее, поэтому прошу помощи.

Спасибо заранее!

Ответ на: комментарий от edigaryev

Да, стандартное. Если его нет в первых строках хттп-ответа, то выдать варнинг

gregg128 ()

какую базу данных парсим? Беслпатный доступ к журналам, базе телефонов, паспортов, конкурентов?

annoynimous ★★★★★ ()

curl --range в цикле в купе с грепом

Nao ★★★★★ ()
Ответ на: комментарий от annoynimous

2 annoynimous Эх, если бы это была база данных. Хрен там..

Короче, всем кто по делу ответил - спасибо.

gregg128 ()

только при чем тут рекурсия, если у тебя банальный цикл?

nu11 ★★★★★ ()
Ответ на: комментарий от true_admin

> HTTP HEAD

HEAD тело запроса не возвращает.

проверить, что в первых XYZ байт ответа есть определённое ключевое слово

sjinks ★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.