LINUX.ORG.RU

Как проходить капчу из скрипта?

 , ,


0

3

Есть скрипт для рипанья сайтов. Для определённости — gallery-dl. Работает отлично. Но если сайт хостится на CloudFlare, и ему не нравится твой IP, появляется страница с капчой. Скрипт эту страницу проходить не умеет. Если пользоваться TOR-ом или популярным прокси, это происходит регулярно.

А может ли скрипт, получив страницу с запросом от CloudFlare, открыть её в браузере, чтобы пользователь ввёл всё, что надо, скрипт получил нужные куки и работал дальше? Где-нибудь это реализовано?

★★★★★

Просто рипай через селениум, он тебе прямо браузер откроет и ты будешь видеть всё, что происходит. Но код придётся самому писать, это да.

cocucka_B_TECTE
()
Ответ на: комментарий от cocucka_B_TECTE

Просто рипай через селениум, он тебе прямо браузер откроет и ты будешь видеть всё, что происходит. Но код придётся самому писать, это да.

gallery-dl тем хорош, что там вся структура сайта и возможные проблемы досконально изучены. Но Selenium, вроде, умеет работать с питоном, а значит можно их как-то скрестить.

Спасибо.

question4 ★★★★★
() автор топика
Ответ на: комментарий от question4

Там API открытая есть.

Процесс распознавания изображений и решения капчи состоит из нескольких простых шагов: Вы отправляете изображение на наш сервер. Сервер возвращает вам уникальный идентификатор вашей задачи (Captcha ID). Вы запускаете цикл, который проверяет, выполнена ли задача. Сервер возвращает вам результат распознавания.

Rossiks
()
Последнее исправление: Rossiks (всего исправлений: 4)
Ответ на: комментарий от Rossiks

Cloudflare картинками давно не пользуется.

question4 ★★★★★
() автор топика
Ответ на: комментарий от Rossiks

Он не спрашивает как распознать капчу, он спрашивает как в gallery-dl вставить поддержку внешнего обработчика для неё.

firkax ★★★★★
()
Ответ на: комментарий от question4

Да, у селениума есть API для питона. Может прокатит тупо заменить, что там в gallery-dl для выкачки сайтов (requests + beautifulsoup?) на селениум.

cocucka_B_TECTE
()
Ответ на: комментарий от firkax

Тебе интересна лекция по синхронизации советского законодательства с требованиями Лиги Наций? Так это нацпол и оффтопик.

question4 ★★★★★
() автор топика
Ответ на: комментарий от question4

Вопрос вполне норм, хоть и немного агрессивный, а ответ вообще непонятно к чему.

На месте сайтов я бы вообще забанил тор и подобное наглухо.

firkax ★★★★★
()
Ответ на: комментарий от firkax

Его используют для выкладки изображений и видео. Для скачивания которых и предназначена gallery-dl.

question4 ★★★★★
() автор топика
25 июня 2024 г.

Вот что-то для скачивания с Cloudflare, обходящее капчу:
https://github.com/pyload/pyload
https://github.com/VeNoMouS/cloudscraper
https://github.com/dipu-bd/lightnovel-crawler
Не пробовал.

P.S. Узнал о них из новости об уязвимости: https://www.opennet.ru/opennews/art.shtml?num=61421 Скоро использовать их станет опасно.

olegd ★★★
()
Последнее исправление: olegd (всего исправлений: 1)
Ответ на: комментарий от MagicMirror

Не каждого первого, а тех кто пытается эксплуатировать окружающее его общество. В последнее время таких к сожалению много развелось.

firkax ★★★★★
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.