как скачивать полностью некоторые хитрые сайты с помощью wget либо другой программы

0

2

Всем привет!

Подскажите,пожалуйста, как скачивать с разных сайтов полностью все html-страницы, которые индексируются в поисковых машинах как Яндекс, Гугл и т.п., но не индексируются при попытке построить карту сайта с помощью разных программ?

Например, я с помощью wget скачал сайт:

http://www.orthilia.ru/

Всего скачивается около 1420 файлов.

Однако, такие страницы, как:

http://www.orthilia.ru/herbs_description.php?id=2445 http://www.orthilia.ru/herbs_description.php?id=45

не скачиваются пауком (краулером) и не строятся в карту сайта.

Если ввести адреса этих страниц вручную, то они нормально скачиваются.

Однако, не всегда удается узнать все URL-адреса какого-либо сайта.

Ссылка

←	Что-то в этом вебе слишком много всего

Celery запускает планировщик чаще чем указано в настройках

→

Прописать useragent гугловского бота и добавить рандомное время ожидания между скачиваемыи файлами?

anonymous
(08.02.18 00:39:25 MSK)

Ответ на: комментарий от anonymous 08.02.18 00:39:25 MSK

и добавить рандомное время ожидания

рандомное

wget так умеет?

(Не топикстартер, но тоже интересно.)

EternalNewbie
(13.02.18 15:33:53 MSK)

А на эти ссылки можно как либо попасть не напрямую?

tyamur ★★
(13.02.18 15:53:04 MSK)

Ссылка

Ответ на: комментарий от EternalNewbie 13.02.18 15:33:53 MSK

--random-wait

https://www.gnu.org/software/wget/manual/wget.html

Radjah ★★★★★
(13.02.18 15:57:21 MSK)

Ссылка

ЭТО ЖЕ динамические ссылки , которые генерируется на лету из базы данных и контент достается тож из базы. Wget же может скачивать только статические файлы html/css/js/img, не?

anonymous
(13.02.18 15:57:30 MSK)

Ответ на: комментарий от anonymous 13.02.18 15:57:30 MSK

Чем отличается статический штмл от динамического? Хоть и сам контент и динамический, но ссылка на него есть, что мешает скачать?

tyamur ★★
(13.02.18 16:05:24 MSK)

Гугл не только парсит индекс, но и ходит по ссылкам.
Твой краулер так делает?

duck
(13.02.18 22:47:41 MSK)

Ссылка

Ответ на: комментарий от tyamur 13.02.18 16:05:24 MSK

Допустим, ссылки сервер каждый раз генерирует разные на один и тот же контент, каким-то рандомом.

anonymous
(15.02.18 21:08:42 MSK)

Ссылка

Ответ на: комментарий от EternalNewbie 13.02.18 15:33:53 MSK

Таки да. Вбил а настройках 20 секунд и после каждого скаченного файла случайным образом генерируется время ожидания до скачивания следующего файла, которое не превышает эти самые 20 секунд. Напрмер 1,15,7,11,4 и так далее от 0 до 20.

anonymous
(16.02.18 03:19:51 MSK)

Ссылка

А если адрес скачиваемого контента формируется в JavaScript и ссылка формируется «по частям»? Единственный выход - использовать «марионеточные» надстройки к движкам браузера. У firefox, например, такой есть. Движок выполнит JS-код и позволит «Сохранить как»/«Веб-страницу» целиком. Иначе же это какая-то халтура. Особенно с учётом того, что не так мало сайтов, где по существу весь контент грузится JavaScript'ом

DRVTiny ★★★★★
(22.02.18 10:16:13 MSK)