LINUX.ORG.RU

wget, curl: ненавижу кликать мышкой


0

0

Есть сайт:

http://site.com

он содержит ссылки к интересной мне документации,

посмотрев три ссылки и они выглядят так

http://site.com/downloads/docs/*.{pdf,dvi,ps}

Проблема в том что документ зачастую разбит на части,
для того чтобы скачать 10-20 частей одного документа надо просмотреть рекламу,
и всякую белиберду,
а директория downloads/docs не открыта на чтение,
хочется
а)пройтись по всему сайту,
б)ничего тяжелее html страниц не скачивая
в)вычленить ссылки ввида http://site.com/downloads/docs/*.{pdf,dvi,ps} и записать их в файл

"wget" as is такую возможность насколько я понял не дает,
т.е. он заодно и документы скачает и картинки и т.д.,

может curl с этим справиться или что-то еще подходит?
Помогите новичку в области internet ботов.

anonymous

Re: wget, curl: ненавижу кликать мышкой

Ну наверное так:
пишешь скрипт который в цикле:
1.вытягивает html - страницу
2. парсит ее на наличие ещё не пройденных html, заносит их в очередь для обработки (отследи, чтобы на другие домены не увело :))
3. парсит на наличие интересующих тебя ссылок, заносит в список на выкачку
4. повторять пока есть непройденные html

опосла натравливаешь на список интересующих файлов wget, и ждёшь :)

workerman ()

Re: wget, curl: ненавижу кликать мышкой

У wget есть ключи exclude - include как я понмю, говорят какие расширения обрабатывать а какие посылать найух....

vahvarh ★★★ ()
Ответ на: Re: wget, curl: ненавижу кликать мышкой от kpanic

Re: wget, curl: ненавижу кликать мышкой

>Попробуй ScrapBook extension для огнелиса.

что-то не вижу как он может рекурсивно сайты скачивать.

anonymous ()

Re: wget, curl: ненавижу кликать мышкой

Попробуй httrack.

AiLr ★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.