LINUX.ORG.RU

С гуглем кто-то боролся уже?

 ,


0

1

Тяну с ютуба информацию ботом, в самый неподходящий момент, когда почти всё отладил, бананули. В смысле, капчу теперь подсовывают. Временно решил проблему, пройдя её браузером, скормив боту заголовки отсылаемые браузером, но... В общем, по какому критерию они определяют, кто-то в курсе? Очень не хочется прокси подключать, мне всего-то осталось закончить отладку, да прогнать пару тысяч запросов собрав нужную информацию. До этого довольно продуктивно бот отработал несколько недель назад, слал все запросы без отсылки доп заголовков, помню ещё удивился тогда, что не банят. Понадобилось алгоритм сбора подправить, рассчитывал быстро сделать и на тебе. (

★★

Последнее исправление: Reaper (всего исправлений: 1)

Паразитирующие на нормальных проектах нужны.
Ой.
Не нужны.

zolden ★★★★★
()

Тебе гугл дал api к своим сервисам. Если ты считаешь,что тебе можно нарушать пользовательские условия, то это сугубо твоя проблема.

Очень хорошо что гугл вычисляет таких на раз.

shrub ★★★★★
()
Ответ на: комментарий от shrub

Не вижу смысла морализировать, у меня есть задача, я её выполню. Форум технический, вопрос технический, законодательство я не нарушаю. Плохого в том, что делаю, не нахожу - задача разовая, нагрузку на сервис создаю смешную, бо пауз налепил между запросами. По-другому получить информацию не вижу возможным.

Reaper ★★
() автор топика
Ответ на: комментарий от anonymous

Я не нашёл там, как получить содержимое meta keywords на страницах-результатах поиска. API даёт сделать поиск, но не содержимое страницы с видео.

Reaper ★★
() автор топика
Ответ на: комментарий от Reaper

гугель умный, думаю, даже если человек будет достаточно методично слать запросы — получит капчу. ну, пару тысяч тебе на пару капч как раз и хватит

возможно стоит скриптовать настоящий браузер, хотяб headless какой-нибудь

trashymichael ★★★
()

Не так давно читал статью по схожему поводу, только там интернет-казино было. Применимо к вашему случаю: делайте не просто sleep(200), а слип с рендомной адекватной задержкой. +-секунда-две. Плюс делайте «уход» куда-нибудь на другую ссылку раз в, скажем, 20 запросов, чтобы сбить их счетчик. А лучше не через 20, а тоже случайное адекватное количество. Эмулируйте браузер, хотябы по UA. Делайте часовые паузы каждые 500 запросов, а луше посмотрите, через какое количество запросов вам подсунут капчу.

AlexCones ★★★
()
Ответ на: комментарий от trashymichael

Смысла скриптовать браузер нет, я могу послать и принять абсолютно всё, что шлёт и принимает браузер, что, собственно, и сделал уже частично. Поставил паузы побольше между запросами, работает пока. Если будет часто отваливаться подключу заходы через прокси, возиться просто не хотел долго со всем этим.

Reaper ★★
() автор топика

могу ошибаться, но посмотри на phantomjs, может поможет. Во всяком случае полностью имитирует браузер.

ggrn ★★★★★
()
Ответ на: комментарий от stevejobs

Я по работе делаю, выложить в паблик не могу. Но там нет ничего сложного, если что-то интересует - спроси, отвечу с примером.

Reaper ★★
() автор топика
Ответ на: комментарий от Reaper

Смысла скриптовать браузер нет, я могу послать и принять абсолютно всё, что шлёт и принимает браузер, что, собственно, и сделал уже частично.

Там может быть тьма всякого навороченного ajax-а, и проще использовать браузер, чем вручную разбираться в их коде.

anonymous
()
Ответ на: комментарий от Legioner

Действительно, что может быть проще, чем распознать самую идиотскую капчу во всём интернете, которая и глазами совсем плохо парсится, как же это я сразу не догадался, лол.

Reaper ★★
() автор топика
Ответ на: комментарий от anonymous

Там может быть тьма всякого навороченного ajax-а, и проще использовать браузер, чем вручную разбираться в их коде.

Не, крайне редко лазал в код, анализа пересылаемых заголовков обычно хватает.

Reaper ★★
() автор топика
Ответ на: комментарий от Reaper

Есть же сервисы, где сидит миллион китайцев и по 2 цента за ведро капч разгадывают.

Legioner ★★★★★
()

я игрался) куки отдаешь? эм... а представиться яндексом или другим популярным ботом не думал?

oskar0609
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.