LINUX.ORG.RU
ФорумTalks

Wget vs. Wget2

 , ,


1

3

Наконец дошли руки попробовать новый Wget.

Дано: сайт на сильно допиленном Wordpress. Большая часть текста — в виде фоновых изображений. API заблокирован. Оглавления нет. Писать скрипт-паук для curl лень.

wget -m качал сайт двое суток и не закончил. Как выяснилось, ходил кругами, комбинируя теги, режимы сортировки и таймстэмпы. Успел скачать 3 гигабайта страниц.

wget2 -m скачал 2500 сгенерированных страниц (28 мегабайт) за неполные 4 минуты и остановился. На 60 мегабайт картинок ушло менее 1 минуты из этих 4.

Если я правильно понял, при редиректах wget считает 2 страницы по разным адресам разными, а wget2 — одной, и повторно не скачивает.

Заодно проверил мой «любимый» баг фильтра -R. Wget2 не ходит по страницам из чёрного списка, wget скачивает их и сразу удаляет. Говорят, исправить это без переписывания с нуля было невозможно.

Как мне показалось, у wget2 заметно меньше паузы между скачиваемыми файлами, что в данном случае также дало кратное ускорение — старый wget скачал 4500 страниц (60 мегабайт) за 25 минут.

★★★★★

не знаю как сейчас, а раньше можно было получить бан от сервера даже за скачивание в более чем пару потоков или небраузерный юзерагент, т.е. неагрессивность вгета могла быть обусловлена этим фактом, а не убогостью

Syncro ★★★★★
()
Последнее исправление: Syncro (всего исправлений: 2)
Ответ на: комментарий от Syncro

В последнее время именно банов за небраузерный юзеркагент и тем более за скачивание в много потоков я не встречал. Но очень часто просто не отдают страницу вообще, если юзерагент небраузерный, и всё.

CrX ★★★
()

А теперь выкачай весь ЛОР по приколу

cocucka ★★★★☆
()

Зато wget2 не поддерживает FTP. В этом смысле curl универсальнее. Он поддерживает и FTP и gopher.

saahriktu ★★★★★
()
Ответ на: комментарий от Syncro

неагрессивность вгета

В его конфиге я много лет назад выставил паузу в 0. Поток в обоих всего один.

Хотя возможно, что старые алгоритмы писались под ограниченную память, а новые память не экономят.

question4 ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

Зато wget2 не поддерживает FTP.

Неоднократно об этом писал, и повторю ещё раз. Гады.

curl

Мне было интересно сравнить программы, требующие минимум усилий от пользователя.

question4 ★★★★★
() автор топика
Ответ на: комментарий от Gennadevich

Прям так вот в лоб, да, по-моему не умеет рекурсивно обходить, но умеет скачивать по заранее подготовленным спискам ссылок.

vvn_black ★★★★★
()
Ответ на: комментарий от Syncro

небраузерный юзерагент

Хромиумный юзерагент в конфиге качалок и поделок на webengine / blink - это по умолчанию вообще уже.

Suigintou ★★★★★
()
Ответ на: комментарий от Suigintou

Хромиумный юзерагент

Подавляющему большинству проверяющих сайтов хватает curl -e <корень сайта> -A Mozilla

Сейчас всё важнее становятся куки, которые приходится сохранять из браузера (спасибо Export cookies).

question4 ★★★★★
() автор топика
Ответ на: комментарий от greenman

Я про него вообще впервые слышу. В гуёвых качалках разочаровался во времена ReGet-а и Teleport-а. Может быть, когда-нибудь… Но не сейчас.

question4 ★★★★★
() автор топика
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)