LINUX.ORG.RU

Нужен аналог teleport pro, чтобы грабить корованы


1

0

Посоветуйте, пожалуйста, утилиту для кравлинга сайтов, которая

1) Может параллельно выполнять запросы к различным сайтам
и страницам в своей очереди

2) Умеет работать с машины, имеющей несколько IP-адресов,
выполняя разные запросы с разных адресов

3) Умеет выполнять java-script на страницах
для получения большего количества анализируемых ссылок

4) При сохранении результатов умеет локализовать ссылки
(т.е. модифицировать скачанные файлы таким образом, чтобы
можно было проводить навигацию по файлам, сохраненным локально)

5) умеет пользоваться списками прокси при выполнении запросов

6) умеет использовать tor

7) умеет соблюдать политики доступа
(например не давать на один сервер более чем N запросов за T секунд,
настройки по учету/неучету robots.txt,
опции по поиску URL-адресов, написанных без гиперлинков)

8) имеет возможности по заданию области обхода
(корневые сайты, на сколько уровней можно уходить в бок,
насколько вглубь, какой объем можно скачивать)

9) умеет пользоваться поисковыми системами, ведя поиск сайтов
по набору ключевых слов

10) имеет графический интерфейс с индикацией состояния,
возможностью просмотра истории и логов

Возможно, вот прямо такой утилиты нет, а есть утилиты,
которые умеют часть функций - как они называются и на чем написаны?

Думаю такие ацкие монструозные орудия хакеры собирают под себя сами, из скриптов и разных заплат, и вряд ли будут делиться такими вещами.

HTTrack вроде аналог телепорта неплохой и открытый, можно самому доделать нужное. Но обойму прокси и тор это думаю только на скриптах мастерить — сам такое хотеть сильно.

gkrellm
()

3,4,7,8 httrack и морды к нему webhttrack, khttrack

ptah_alexs ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.