LINUX.ORG.RU

Массовое сохранение страниц из кеша

 , ,


0

1

Был до недавнего времени один хороший сайт. Его закрыли. Пока он есть в кеше гугла, хотел попытаться вытащить информацию.
Есть ли какие-то решения, чтобы массово сохранить результаты из кеша по запросу site:example.com ? Пробовал искать, но ничего вразумительного не нашёл.
Сейчас сохраняю по 50 штук из кеша яндекса (т.к. в гугле уже забанили) с помощью DownThemAll, но он сохранит только текст.

Попробуй какой-нибудь webarchive.org. Гугл точно сохраняет только текст, а прочие медиа-файлы игнорирует.

KivApple ★★★★★ ()
Ответ на: комментарий от KivApple

Да, точно. Попробуй-те web.archive.org. Он сохраняет страницы со ВСЕМ содержимым на них.

KivApple ★★★★★ ()
Ответ на: комментарий от KivApple

Да, есть. Но как дальше его оттуда вытащить?
Ссылки работают как будто всё нормально, но wget ведь по ссылкам не идёт, а пытается загрузить, что в каталоге; но там же меняется адрес в самом начале.

valentin_v13 ★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.