LINUX.ORG.RU

wget. Докачка сайтов.


0

0

По всем докам нормально делать, как я понял, примерно так:

wget -r -nc -np -p --level={глубина} http://www.site.org/index.html

Возникает вопрос, как докачивать такие сайты. Ведь, если повторить команду, то он улыбнется увидев

файл index.html и скажет что типа файл есть и докачка не производится:

wget -r -nc -np -p --level=0 -R "*.gz" -R "*bz2" -R "*.exe" http://www.exit1.org/dvdrip/features.cipp

...

...

...

Файл `www.exit1.org/dvdrip/features.cipp' уже существует, получение не производится.

Тогда как за этим файлом могут стоять недокачанные файлы.

index.html конечно же можно удалить и заново запустить wget, но это "index.html".

А что если сайт, с которого я буду тащить файлы на php!?

Поди разберись, какие файлы нужно удалять, а какие нет.

Несколько раз читал и man и документацию в инете на gnu.or и так и не понял, что нужно делать в таких случаях. Ведь бывает нужно скачать немерянно файлов..

И еще вопрос: Как сделать, что бы он поддерживал многопоточную закачку? Почемуто я не встретил ни в одной программе в Linux этого. Этому в этой OS что-то мешает? Вроде как сетевая ОС. Странно даже.

К примеру нужно скачать сразу с тысяцу очень мелких файлов. Как работает wget, очень много времени тратит ,естесственно, на обращение к серваку, тогда как тот же Offline Explorer делает запрос "охапкой". То есть запрашивает сразу десять файлов, ну или сколько настроишь. Я не про многопоточную закачку одного файла, а именно про нити на каждый файл говорю. Это очень экономит время при скачивании.

-nc (noclobber) лишняя в данном случае опция. Из-за неё он и ругается н уже скачанные файлы. Лучне вместо неё указать -c (continue)

iliyap ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.