wget не скачивает картинки

1

1

Здравствуйте. Пытаюсь скачать главную страницу сайта http://bionover.ru/ Скачивает все, кроме картинок (миниатюр к записям). Картинки расположены на этом же сервере в пределах домена. В чем может быть причина?

Скачиваю этой командой:

wget -e robots=off -k -p -nc -np --trust-server-names --no-check-certificate http://bionover.ru/

Ссылка

← Сломалась alsa. Прошу помочь

Не проходит авторизация vsftpd →

В чем может быть причина?

Там все картинки подгружаются с помощью js через APi google. Походу google против скачивания.

Deleted
(24.05.19 20:13:06 MSK)

Ответ на: комментарий от Deleted 24.05.19 20:13:06 MSK

Но если если скачивать конкретно картинку, то она скачается:

wget -k -p -nc -np --trust-server-names --no-check-certificate http://bionover.ru/wp-content/uploads/2014/06/fotolia_55391157_m-335x231.jpg

napulsnik
(24.05.19 20:20:08 MSK) автор топика

Не мучься с wget'ом, возьми это:

[20:29] u@notebook:~> cat /usr/ports/www/httrack/pkg-descr 
HTTrack is an easy-to-use offline browser utility. It allows you to download a
World Wide website from the Internet to a local directory, building recursively
all directories, getting html, images, and other files from the server to your
computer. HTTrack arranges the original site's relative link-structure. Simply
open a page of the "mirrored" website in your browser, and you can browse the
site from link to link, as if you were viewing it online.

HTTrack can also update an existing mirrored site, and resume interrupted
downloads. HTTrack is fully configurable, and has an integrated help system.

WWW: https://www.httrack.com/
WWW: https://github.com/xroche/httrack

IPR ★★★★★
(24.05.19 20:31:14 MSK)

Ответ на: комментарий от napulsnik 24.05.19 20:20:08 MSK

Но если если скачивать конкретно картинку, то она скачается:

Google: «data-src=» wget =>

Заметки Тупого Прогера: Wget Как скопировать все изображения с html + data-src

Deleted
(24.05.19 20:35:00 MSK)
Последнее исправление: Deleted 24.05.19 20:36:38 MSK (всего исправлений: 1)

Ответ на: комментарий от Deleted 24.05.19 20:35:00 MSK

Да, дело было в «data-src». Спасибо. Получается Wget'ом такие сайты не удобно качать, т.к. ссылки на такие картинки он не сконвертирует в относительные.

napulsnik
(24.05.19 20:53:05 MSK) автор топика

Ссылка

Ответ на: комментарий от IPR 24.05.19 20:31:14 MSK

Видимо придется изучать. Вся проблема в «lazy load», картинка в коде прописана через «data-src». Не знаю, сможет ли «httrack» отработать такое.

napulsnik
(24.05.19 20:54:54 MSK) автор топика

Ссылка

Сам думаю чем скачивать сайты. Но на линуксе нет нормальных инструментов вроде Offline Explorer, так что только руками в MHT остается. Но оно и к лучшему, зато будешь уверен, что все сохранилось нормально.

HTTraQt это что-то невнятное и нефункциональное.

anonymous
(24.05.19 20:59:16 MSK)

Ответ на: комментарий от anonymous 24.05.19 20:59:16 MSK

так что только руками в MHT остается

Не обязательно: WebScrapBook от Danny Lin

Deleted
(24.05.19 21:02:19 MSK)

Ответ на: комментарий от Deleted 24.05.19 21:02:19 MSK

Эта приблуда у меня глючила, то сохраняла, то нет.

anonymous
(24.05.19 21:09:59 MSK)

Ответ на: комментарий от anonymous 24.05.19 21:09:59 MSK

Эта приблуда у меня глючила, то сохраняла, то нет.

Согласен. Тока щас потестил. Трендец какой то.

Deleted
(24.05.19 21:12:04 MSK)

Ссылка

Ответ на: комментарий от anonymous 24.05.19 20:59:16 MSK

Кстати, сохранение в mht можно включить во флагах хромобраузеров. Opera 12 еще его понимает на импорт-экспорт (иногда только она сохраняет фоновые картинки, прописанные в css). IE, конечно. Firefox не поддерживает mht.

anonymous
(24.05.19 21:39:35 MSK)