LINUX.ORG.RU

Яндекс поиск

 


0

1

Ввиду жесткой политики яндекса по отношению к автоматическим поисковым запросам, появился вопрос: как соорудить такой запрос, который яндекс не принял бы за бота и вернул бы результаты поиска. Ситуация: написал на питоне вот так:

    import requests

    from sb4 import BeautifulSoup

    h={'User-Agent': 'Mozilla/5.0', 'Accept': 'text/html', 'Accept-Language':'ru,en'}

    t=urllib.quote(_text)

    r=requests.get("http://m.yandex.ru/yandsearch?text="+t, headers=h)

    s=BeautifulSoup(r.text)

    print s
В ответ получаю:

Нам очень жаль, но запросы, поступившие с вашего IP-адреса, похожи на автоматические. По этой причине мы вынуждены временно заблокировать доступ к поиску. Рядом в браузер вставляю точно такой же адрес, страница открывается нормально. Может какие заголовки или куки добавить?

PS Яндекс.XML нынче недоступен простому народу, надо сайты регистрировать..

Кривой юзер-агент + нет реферера. Почему б не посмотреть в фаербаге, какие заголовки шлются?

Но это поможет только если запросы редкие.

Vit ★★★★★ ()

Поиграйся с UA и прокси. И да, curl поддерживает куки. Попробуй его.

IPR ★★★★★ ()
Ответ на: комментарий от Vit

А реферал тут причём? Может он закладку открывает? Или передача реферала в браузере отключена?

IPR ★★★★★ ()

Яндыкс емнип такого вываливает когда во время запроса юзер не отмечается в метрике. Авторегистратор в нем пилил пару лет назад, когда ходишь по метрике - всё ок, перестаешь - после рега ящика просит номер телефона. Так-то.

NeverLoved ★★★★★ ()
Ответ на: комментарий от Vit

Специально проверил, всё работает. Значит неадекватный агент.

IPR ★★★★★ ()

надо сайты регистрировать..

Да ладно, хочешь сказать, у тебя какого-нибудь сайта нету для такого дела?

Apple-ch ★★ ()
Ответ на: комментарий от IPR

У меня тоже, как и все остальные сервисы яндекса кроме маркета (вот уж удобен, и хороших аналогов я не встречал). По работе надо был бот-авторегистратор аккаунтов на яндексе.

NeverLoved ★★★★★ ()

временно решил проблему, запихнув в запрос все заголовки и куки, какие отправляет браузер, что весьма криво.

Насколько я понял, количество запросов, разрешенных на 1 акк в яндекс.XML пропорционально популярности зарегистрированных сайтов, и для пустых, нераскрученных сайтов даст порядка 1-10 запросов в сутки, не больше. А это, конечно, совсем не те цифры, которые мне интересны.

Поясните, пожалуйста, насчет метрики и прокси. Метрике нужно выполнить javascript?

antropos ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.