LINUX.ORG.RU

[интересная задача] Маскировка скрипта под браузер


0

0

Здравствуйте все!

Есть задача скриптом таскать странички с одно сайта. Делается это через некоторое количество проксей, которые скрипт выбирает в случайном порядке. Т.е. каждый новый запрос идет через другой прокси.

Проблема в том, что прокси эти со временем банятся сервером.

Внимание вопрос: как можно замаскировать поведение скрипта под поведение обычного браузера, чтобы не так быстро банились прокси?

P.S. Сейчас для каждого запроса случайным образом подставляется один из пяти user-agent'ов.

P.P.S. Рассуждения о правовой стороне вопроса предлагаю не начинать.

Ответ на: комментарий от sdio

Браузером тоже банится, если очень быстро ходить.

Но если браузером - то не так быстро.

К тому же в самом начале сайт довольно долго позволял без бана делать запросы (до 30-40 минут). Теперь же (дня через два) ~70 проксей на 5ти процессах не живут и 10ти минут.

it-partizan
() автор топика
Ответ на: комментарий от it-partizan

> Браузером тоже банится, если очень быстро ходить.

может банят просто по количеству HTML-я с IP-адреса? интересно, крупные провайдеры с NATом там вообще навсегда забанены ?

> Но если браузером - то не так быстро.

если там защищаются от автокачалок, вполне могут отслеживать

1. сессии

2. исполнение javascript-a браузером

3. еще тысячу вещей.

gods-little-toy ★★★
()
Ответ на: комментарий от gods-little-toy

Заскриптуй браузер. watir или selenium тебе в помощь.

anonymous
()

Подозреваю, что пользы от обхода бана будет немного, так как если у тебя всё-таки получится открыть много соединений к сайту, то на него создастся большая нагрузка, и он станет тормозить.

RommeDeSerieux
()
Ответ на: комментарий от RommeDeSerieux

> Подозреваю, что пользы от обхода бана будет немного, так как если у тебя всё-таки получится открыть много соединений к сайту, то на него создастся большая нагрузка, и он станет тормозить.

Есть очень сильные подозрения, что конкретно этот сервер не станет тормозить)

it-partizan
() автор топика

> P.S. Сейчас для каждого запроса случайным образом подставляется один из пяти user-agent'ов.

Ещё referer иногда проверяется ;-)

ip1981 ☆☆
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.