LINUX.ORG.RU
ФорумJob

Дописать парсер к одному ресурсу

 , ,


2

3

Ищу человека который допишет(в целом он уже готов возможно некоторые места просто немного костыльные) мой парсер на python к одному ресурсу. На данный момент основная проблема в том что я получаю блокировку по IP, при этом на данный момент я использую selenium+proxy+ ставлю кастомный user-agent НО все ровно получаю блокировку/капчу. Хотя если вбиваю данные прокси(предварительно очистив куки) себе в навигатор то как правило капчи нет и все открывается нормальо

ps: оплачу ТОЛЬКО по факту(в случае стабильной работы), согласен кинуть 1500р.

Скажи хоть что за ресурс. Без этого трудоемкость оценить нельзя. Одни баны обходятся через апи, другие проще готовые базы найти или купить. Оплата по факту с такими данными реально для голодной школоты.

Lordwind ★★★★★ ()

Тут надо не питоном парсить, а в браузер плагин для парсинга делать. В общем случае, согласно формулировке проблемы.

peregrine ★★★★★ ()
Последнее исправление: peregrine (всего исправлений: 1)
Ответ на: комментарий от peregrine

а в браузер плагин для парсинга делать.

Не надо. Для такого уже несколько лет есть https://github.com/puppeteer/puppeteer который умеет рулить хромом по его стандартному API и исполнять JS скрипты (возвращая в ноду данные). API можно прикрутить к любому ЯП, на сколько мне известно.

Селениум, пару лет назад, когда сравнивал их, был глючным очень для парсинга и с довольно тяжелым API (в хроме намного приятнее).

Norgat ★★★★★ ()
Ответ на: удаленный комментарий

Демпингуй не демпингуй, всё равно получишь… шааайбу шааайбу.

pon4ik ★★★★★ ()
Ответ на: удаленный комментарий

Плюс я повторюсь для особо ‘умных’ скрипт уже есть и он написан!

Только почему-то не работает %)

Написать скрипт, который парсит страницу, может любая макака. А бороться с защитой сайта совсем другой уровень

router ★★★★★ ()

Что за ресурс?
Скорость парсинга?
Если молотит без остановки - нужны прокси, много прокси. БОЛЬШЕ прокси богу прокси!
В зависимости от ресурса - от бесплатных публичных до дорогих индивидуальных

Qwentor ★★★★★ ()

recaptcha?

там проблема в другом - эта гадость распознает, когда chrome(firefox - хз) запущен с параметром remote-debugging-port или как это называется.

Через selenium это не решить, я для себя сделал по-другому - написал extension, который выполнял javascript удаленно.

chkalov ()
Последнее исправление: chkalov (всего исправлений: 1)

Это называется sensordata (Fraudscore, ThreatMetrix - вот это всё). Цена такого парсера на рынке - 1500$.

dnb ★★★ ()
Ограничение на отправку комментариев: только для зарегистрированных пользователей, score>=0