LINUX.ORG.RU

как скачивать полностью некоторые хитрые сайты с помощью wget либо другой программы

 ,


0

2

Всем привет!

Подскажите,пожалуйста, как скачивать с разных сайтов полностью все html-страницы, которые индексируются в поисковых машинах как Яндекс, Гугл и т.п., но не индексируются при попытке построить карту сайта с помощью разных программ?

Например, я с помощью wget скачал сайт:

http://www.orthilia.ru/

Всего скачивается около 1420 файлов.

Однако, такие страницы, как:

http://www.orthilia.ru/herbs_description.php?id=2445 http://www.orthilia.ru/herbs_description.php?id=45

не скачиваются пауком (краулером) и не строятся в карту сайта.

Если ввести адреса этих страниц вручную, то они нормально скачиваются.

Однако, не всегда удается узнать все URL-адреса какого-либо сайта.

Прописать useragent гугловского бота и добавить рандомное время ожидания между скачиваемыи файлами?

anonymous ()
Ответ на: комментарий от anonymous

и добавить рандомное время ожидания

рандомное

wget так умеет?

(Не топикстартер, но тоже интересно.)

EternalNewbie ()

А на эти ссылки можно как либо попасть не напрямую?

tyamur ()

ЭТО ЖЕ динамические ссылки , которые генерируется на лету из базы данных и контент достается тож из базы. Wget же может скачивать только статические файлы html/css/js/img, не?

anonymous ()
Ответ на: комментарий от anonymous

Чем отличается статический штмл от динамического? Хоть и сам контент и динамический, но ссылка на него есть, что мешает скачать?

tyamur ()

Гугл не только парсит индекс, но и ходит по ссылкам.
Твой краулер так делает?

duck ()
Ответ на: комментарий от tyamur

Допустим, ссылки сервер каждый раз генерирует разные на один и тот же контент, каким-то рандомом.

anonymous ()
Ответ на: комментарий от EternalNewbie

Таки да. Вбил а настройках 20 секунд и после каждого скаченного файла случайным образом генерируется время ожидания до скачивания следующего файла, которое не превышает эти самые 20 секунд. Напрмер 1,15,7,11,4 и так далее от 0 до 20.

anonymous ()

А если адрес скачиваемого контента формируется в JavaScript и ссылка формируется «по частям»? Единственный выход - использовать «марионеточные» надстройки к движкам браузера. У firefox, например, такой есть. Движок выполнит JS-код и позволит «Сохранить как»/«Веб-страницу» целиком. Иначе же это какая-то халтура. Особенно с учётом того, что не так мало сайтов, где по существу весь контент грузится JavaScript'ом

DRVTiny ★★★★★ ()
Ответ на: комментарий от DRVTiny

«марионеточные» надстройки к движкам браузера

Можно примеры названий таких надстроек?

greenman ★★★★★ ()
Ответ на: комментарий от DRVTiny

Спасибо. Что-то сходу не разобрался, это надо файрфокс пересобирать?

greenman ★★★★★ ()
Ответ на: комментарий от greenman

Точно не нужно. Эта штука просто управляет firefox'ом как пульт ДУ.

DRVTiny ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.