wget, curl: ненавижу кликать мышкой

0

0

Есть сайт:

http://site.com

он содержит ссылки к интересной мне документации,

посмотрев три ссылки и они выглядят так

http://site.com/downloads/docs/*.{pdf,dvi,ps}

Проблема в том что документ зачастую разбит на части,
для того чтобы скачать 10-20 частей одного документа надо просмотреть рекламу,
и всякую белиберду,
а директория downloads/docs не открыта на чтение,
хочется
а)пройтись по всему сайту,
б)ничего тяжелее html страниц не скачивая
в)вычленить ссылки ввида http://site.com/downloads/docs/*.{pdf,dvi,ps} и записать их в файл

"wget" as is такую возможность насколько я понял не дает,
т.е. он заодно и документы скачает и картинки и т.д.,

может curl с этим справиться или что-то еще подходит?
Помогите новичку в области internet ботов.

Ссылка

←

replace

OCaml module system problem

→

Ну наверное так:
пишешь скрипт который в цикле:
1.вытягивает html - страницу
2. парсит ее на наличие ещё не пройденных html, заносит их в очередь для обработки (отследи, чтобы на другие домены не увело :))
3. парсит на наличие интересующих тебя ссылок, заносит в список на выкачку
4. повторять пока есть непройденные html

опосла натравливаешь на список интересующих файлов wget, и ждёшь :)

workerman
(23.03.06 20:20:53 MSK)