Тупой вопрос про использование куков во wget

0

1

Здравствуйте.

Есть башскрипт, его задача - страничку по расписанию с сайта wget'ом таскать, текст из неё вынимать и вслух его читать. Некоторое время назад работать перестал. В терминале выхлоп: 403: Forbidden (сайт под CloudFlare, к сожалению).

В браузере сайт спокойно открывается, потому, что я там капчу уже нажимал, и куки позволяют свободный проход. Я попробовал рецепт:

Да, /tmp/cookies.txt успешно сформировался. Да, если погрепать его по имени сайта, то выхлоп непустой. Да, «wget --load-cookies=/tmp/cookies.txt -O - $url» отыграло без ошибок. Нет, выхлоп вот этой вот команды по-прежнему ERROR 403: Forbidden.

Я подумал: может firefox как-то можно запустить, чтоб он без формирования интерфейса просто обработал url и выдал результат (то, что я в Code Inspector'е вижу) в stdout. Попробовал покурить firefox headless mode в надежде на то, что вот это вот то, что мне надо, но погрузился в ужасные дебри питона и селениума, которые мне колхознику очень плохо понятны и кажутся пушкой по воробьям.

Подскажите, пожалуйста, возможность как-то всё-таки затягивать подобное командной строчкой в stdout для последующего парсинга и прочего.

Спасибо за внимание.

←	Virtual pets для онтопика

Нет звука в сессии Wayfire/Mate

→

Печеньки ты ему дал, дай и ~~кнут~~user-agent. Думаю, проблема в этом.

yars068 ★★★★★
(16.10.25 11:11:25 MSK)

Ответ на: комментарий от yars068 16.10.25 11:11:25 MSK

Увы,

wget --load-cookies=/tmp/cookies.txt -U "Mozilla/5.0 (X11; Linux i686; rv:144.0) Gecko/20100101 Firefox/144.0" -O - $url

тоже выдаёт Forbidden(

piyavking ★★★★★
(16.10.25 11:18:18 MSK) автор топика
Последнее исправление: piyavking 16.10.25 11:19:08 MSK (всего исправлений: 1)

wget-ом ты такие сайты не откроешь, никак. Неужели ты думаешь что он отличается от браузера только юзер-агентом и куками?

Я подумал: может firefox как-то можно запустить, чтоб он без формирования интерфейса просто обработал url и выдал результат (то, что я в Code Inspector'е вижу) в stdout.

firefox без интерфейса можно, но в stdout нельзя. Чтобы забрать контент, к файрфоксу надо прицепить проксю (изучай Си, если ещё нет), которая честно даст ему сделать всё что хочет он и хочет от него сайт, но данные страницы просниффит и куда-нить сохранит. Митмфлар проксю конечно же тоже спалит и будет очень часто сувать свои капчи, но по крайней мере остальное можно будет не делать вручную.

firkax ★★★★★
(16.10.25 11:39:59 MSK)
Последнее исправление: firkax 16.10.25 11:40:55 MSK (всего исправлений: 1)

Если не найдёшь шаманства для wget (или curl, тоже попробуй), то можно воткнуть в фф юзерскрипт, который будет выцеплять контент со страницы и отправлять на твой сервер.

legolegs ★★★★★
(16.10.25 11:43:37 MSK)

Там, наверное, не только user-agent нужно, а вообще весь заголовок, host и всё остальное.. И не проще ли найти другой источник нужной информации?

ps1h ★★★
(16.10.25 11:45:06 MSK)

погрузился в ужасные дебри питона и селениума

Что там сложного?

from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Firefox()
driver.get("http://www.python.org")
elem = driver.find_element(By.NAME, "q")

gruy ★★★★★
(16.10.25 11:46:34 MSK)
Последнее исправление: gruy 16.10.25 11:47:09 MSK (всего исправлений: 1)

CloudFlare занимается тем, что монополизирует Интернет под один браузер. И использует лютый фингерпринтинг для того, чтобы никакой программный код, кроме кода браузера за которым в реальном времени находится живой человек, не смог попасть на сайт.

Да, пока ещё наверное можно это обойти, но только временно. Гайки закручивают с каждым годом всё сильнее.

Для обхода есть инструменты, но т.к. не занимаюсь давно скрейпингом, не могу вспомнить название. Попадались где-то недавно в обсуждениях политики CF на HN, но прочитал и сразу же забыл.

Chiffchaff
(16.10.25 12:16:58 MSK)

Ответ на: комментарий от legolegs 16.10.25 11:43:37 MSK

или curl, тоже попробуй

я пробовал, он неасиливает скрипт перенаправления и тупо затягивает страничку с капчей(

piyavking ★★★★★
(16.10.25 12:31:17 MSK) автор топика

Ответ на: комментарий от gruy 16.10.25 11:46:34 MSK

Не иcключаю, что попробую. Хотя узнавать что-то новое ужасно лень, но, видимо, придётся.

Так оно, насколько я понимаю, и должно сделать то, что мне нужно: вывалить в консоль содержимое вкладки «Inspector» браузерного окна «Developer Tools», если всё предельно педантично изложить?

piyavking ★★★★★
(16.10.25 12:33:30 MSK) автор топика
Последнее исправление: piyavking 16.10.25 12:39:02 MSK (всего исправлений: 2)

в firefox открываешь inspector -> network, грузишь сайт, находишь нужный запрос, пкм, copy value -> copy as curl. Дальше методом исключения ищешь какие серверу нужны заголовки. Куки обычно не одноразовые и долго живут. selenium нужно использовать, когда сервер делает сложные антибот проверки через javascript.

arrecck ★★★
(16.10.25 12:43:38 MSK)

Ответ на: комментарий от arrecck 16.10.25 12:43:38 MSK

CF давно умеет детектить такие примитивные вещи. У них используются более продвинутые способы фингерпринтинга UA. Например, фингерпринтинг SSL: как-то основывается на том, что браузеры все по-разному реализуют SSL, есть какие-то тонкие различия в реализации (в детали не вникал), которые на 100% достоверно позволяют отличить curl/wget от FF и Chrome.

Есть и инструменты, которые позволяют обойти SSL фингерпринтинг, предлагаю искать их самостоятельно. Но понятно, что это борьба брони и снаряда: сегодня сработает, завтра уже нет.

Chiffchaff
(16.10.25 12:57:31 MSK)

Ответ на: комментарий от piyavking 16.10.25 12:33:30 MSK

вывалить в консоль содержимое вкладки «Inspector» браузерного окна «Developer Tools»

Зачем всё? Можешь вытащить только нужный блок со страницы, по XPATH или ID, или названию css класса.

gruy ★★★★★
(16.10.25 13:14:22 MSK)

Ответ на: комментарий от gruy 16.10.25 13:14:22 MSK

Ну да. Оно и есть, что мне надо. Придётся и эту матчасть разгрызать. Эх, долюшка красноглазая... Спасибо!

piyavking ★★★★★
(16.10.25 13:40:30 MSK) автор топика

Ответ на: комментарий от arrecck 16.10.25 12:43:38 MSK

когда сервер делает сложные антибот проверки через javascript

Клаудфлар, к сожалению, именно это и делает(

piyavking ★★★★★
(16.10.25 13:42:07 MSK) автор топика

Можете попробовать curl-impersonate, но эта гонка вооружений зашла далеко вперёд. Даже настоящий но безголовый бразузер могут определить и забанить.

AITap ★★★★★
(16.10.25 14:18:26 MSK)

Ответ на: комментарий от AITap 16.10.25 14:18:26 MSK

Да даже и с головой-то я еле-еле ключик подобрал чтоб в вечной петле не крутиться. Печаль, да)

piyavking ★★★★★
(16.10.25 20:31:55 MSK) автор топика

В фф есть опция - скопировать как curl, которая копирует твой запрос из браузера и один в один делает из него команду курл. Может это тебе поможет?

Slack ★★★★★
(17.10.25 16:00:53 MSK)

←	Virtual pets для онтопика

Desktop

Нет звука в сессии Wayfire/Mate

→

Похожие темы