LINUX.ORG.RU

Парсить сайты через tor?

 ,


1

1

Как это делать? Требования два.

1. Чтобы через тор работало, потому что я пользуюсь сайтами, которые хочу парсить, и не хочу, чтобы меня забанили, в том числе по айпи.

3. На одном из сайтов не получить инфу из основной html страницы. Нужно, чтобы работали джаваскрипты и подгружали инфу. Как это обойти? Phantom.js - оно?

★★

Последнее исправление: cetjs2 (всего исправлений: 1)

HTMLUnit вам поможет в парсинге там все это включается и отлично работает. Это Java

anonymous
()

множество сайтов блокируют тор-траффик, особенно крупные.

filequest
()

чтобы работали джаваскрипты и подгружали инфу. Как это обойти?

это очень трудно. Придется все обращения из скриптов тоже перенаправлять через тор. В итоге, хз что тебе сервера будут отдавать, так как заголовки неизвестно какие будут приходить на target-сервер

filequest
()

Я бы использовал Selenium. Он запустит настоящий хром и будет действовать, как обычный пользователь. В то же время из программы у тебя есть доступ ко всему.

Legioner ★★★★★
()
Ответ на: комментарий от umren

Это трафик ононимусов там паразитный.
Поднимешь exit-ноду - через 5мин с неё будут крутить sql-inj на каком-нибудь вордпрессе.

Reinar
()
Ответ на: комментарий от Reinar

Поднимешь exit-ноду - через 5мин с неё будут крутить sql-inj на каком-нибудь вордпрессе.

Так это наоборот хорошо. Боты - санитары Интернета.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.