LINUX.ORG.RU

Выкачивание веб-сайтов

 , ,


0

2

Всем здравствуйте!

Недавно узнал про формат WARC, используемый для хранения резервных копий веб-сайтов (к примеру, его использует Wayback Machine) и про софт для «записи» и «воспроизведения» веб-сайта. Для «воспроизведения» нашёл PyWB (ставится через pip), он поднимает локальный веб-сервер, на котором можно посмотреть сайты из WARC-файлов, входящих в коллекцию (коллекция собирается перед запуском сервера). Тут у меня вопросов нет, есть вопросы по «записи». Нашёл три способа:

  • Сайт «Webrecorder». Можно указать ссылку, дождаться загрузки содержимого, и скачать файл.
  • Warcprox. Прокси-сервер, сохраняющий все посещённые страницы. Проблема в том, что HTTPS страницы сохраняются через MITM с сгенерированным сертификатом. Да и можно просто забыть посетить некоторые страницы. Годится для сохранения нескольких страниц.
  • wget. Умеет сохранять в WARC. Удобно, а в Tails его можно даже через Tor пустить, чтобы иметь возможность сохранить заблокированный сайт. Но возникла проблема на сайте TV Tropes – на сохранённой странице не показывался контент «под катом», хотя при просмотре той же страницы на Wayback Machine всё работало (то есть дело, скорее всего, не в WARC). Можно ли как-то исправить эту проблему? Или поискать другой краулер?

Если кто пользуется этим, прошу помочь советом.

Ответ на: комментарий от ShiningRiver

Не думаю, что это хорошая идея

В один поток долго очень, имхо.

перекрыли доступ к сайту

Перекроют, всегда можно сменить IP и выставить более щадящие настройки.

Смотреть-то их как?

Кликнуть в новой вкладке, на сайте ютуба.
В идеале просто нажать плей во встроенном видео. Но в этом случае остается зависимость от ютуба, то есть в случае недоступности видео, даже превью не останется (что также портит внешний вид).

лучше их просто отдельно скачать

Лучше и надо бы, хотя бы 360p. Но нужна какая-то привязка к страницам. Сейчас wget от видео вообще не оставляет следа на форуме.

anonymous ()
Ответ на: комментарий от anonymous

Лучше и надо бы, хотя бы 360p. Но нужна какая-то привязка к страницам. Сейчас wget от видео вообще не оставляет следа на форуме.

Ютуб вставляется через iframe. Если нет - ссзб.

anonymous ()