Есть сайт со статическим HTML и кучей рисунков. Например, http://ohbah.com/comicget/comics/ Интересно узнать, каков будет его объём на диске после скачивания wget-ом. В интернете нашёл совет:
wget2 --recursive -erobots=off --no-parent --spider --server-response http://example.com/folder/1/2/3/ 2>&1 | grep -i content-length | gawk '{sum+=$2}END{print sum/1e6}'
Но таким образом не выводится объём изображений, который там на порядки больше, чем HTML. Добавление ключа --page-requisites
ничего не меняет.
Если выводимый wget текст сохранить в файл, взять pcregrep -o1 'Adding URL: (.*)'
и скормить URL-ы curl -IL
, будут размеры изображений, но не будет размеров части HTML-файлов.
Существует ли менее костыльное решение?