LINUX.ORG.RU

wget не скачивает картинки

 


1

1

Здравствуйте. Пытаюсь скачать главную страницу сайта http://bionover.ru/ Скачивает все, кроме картинок (миниатюр к записям). Картинки расположены на этом же сервере в пределах домена. В чем может быть причина?

Скачиваю этой командой:

wget -e robots=off -k -p -nc -np --trust-server-names --no-check-certificate http://bionover.ru/

В чем может быть причина?

Там все картинки подгружаются с помощью js через APi google. Походу google против скачивания.

Deleted
()
Ответ на: комментарий от Deleted

Но если если скачивать конкретно картинку, то она скачается:

wget -k -p -nc -np --trust-server-names --no-check-certificate http://bionover.ru/wp-content/uploads/2014/06/fotolia_55391157_m-335x231.jpg

napulsnik
() автор топика

Не мучься с wget'ом, возьми это:

[20:29] u@notebook:~> cat /usr/ports/www/httrack/pkg-descr 
HTTrack is an easy-to-use offline browser utility. It allows you to download a
World Wide website from the Internet to a local directory, building recursively
all directories, getting html, images, and other files from the server to your
computer. HTTrack arranges the original site's relative link-structure. Simply
open a page of the "mirrored" website in your browser, and you can browse the
site from link to link, as if you were viewing it online.

HTTrack can also update an existing mirrored site, and resume interrupted
downloads. HTTrack is fully configurable, and has an integrated help system.

WWW: https://www.httrack.com/
WWW: https://github.com/xroche/httrack

IPR ★★★★★
()
Ответ на: комментарий от napulsnik

Но если если скачивать конкретно картинку, то она скачается:

Google: «data-src=» wget =>

Заметки Тупого Прогера: Wget Как скопировать все изображения с html + data-src

Deleted
()
Последнее исправление: Deleted (всего исправлений: 1)
Ответ на: комментарий от Deleted

Да, дело было в «data-src». Спасибо. Получается Wget'ом такие сайты не удобно качать, т.к. ссылки на такие картинки он не сконвертирует в относительные.

napulsnik
() автор топика
Ответ на: комментарий от IPR

Видимо придется изучать. Вся проблема в «lazy load», картинка в коде прописана через «data-src». Не знаю, сможет ли «httrack» отработать такое.

napulsnik
() автор топика

Сам думаю чем скачивать сайты. Но на линуксе нет нормальных инструментов вроде Offline Explorer, так что только руками в MHT остается. Но оно и к лучшему, зато будешь уверен, что все сохранилось нормально.

HTTraQt это что-то невнятное и нефункциональное.

anonymous
()
Ответ на: комментарий от anonymous

Эта приблуда у меня глючила, то сохраняла, то нет.

Согласен. Тока щас потестил. Трендец какой то.

Deleted
()
Ответ на: комментарий от anonymous

Кстати, сохранение в mht можно включить во флагах хромобраузеров. Opera 12 еще его понимает на импорт-экспорт (иногда только она сохраняет фоновые картинки, прописанные в css). IE, конечно. Firefox не поддерживает mht.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.