LINUX.ORG.RU

wget, curl: ненавижу кликать мышкой


0

0

Есть сайт:

http://site.com

он содержит ссылки к интересной мне документации,

посмотрев три ссылки и они выглядят так

http://site.com/downloads/docs/*.{pdf,dvi,ps}

Проблема в том что документ зачастую разбит на части,
для того чтобы скачать 10-20 частей одного документа надо просмотреть рекламу,
и всякую белиберду,
а директория downloads/docs не открыта на чтение,
хочется
а)пройтись по всему сайту,
б)ничего тяжелее html страниц не скачивая
в)вычленить ссылки ввида http://site.com/downloads/docs/*.{pdf,dvi,ps} и записать их в файл

"wget" as is такую возможность насколько я понял не дает,
т.е. он заодно и документы скачает и картинки и т.д.,

может curl с этим справиться или что-то еще подходит?
Помогите новичку в области internet ботов.

anonymous

Ну наверное так:
пишешь скрипт который в цикле:
1.вытягивает html - страницу
2. парсит ее на наличие ещё не пройденных html, заносит их в очередь для обработки (отследи, чтобы на другие домены не увело :))
3. парсит на наличие интересующих тебя ссылок, заносит в список на выкачку
4. повторять пока есть непройденные html

опосла натравливаешь на список интересующих файлов wget, и ждёшь :)

workerman
()
Ответ на: комментарий от workerman

проблема не в алгоритме, а в выборе инструмента для написания,
который позволил бы с наименьшими трудозатратами это сделать

anonymous
()

У wget есть ключи exclude - include как я понмю, говорят какие расширения обрабатывать а какие посылать найух....

vahvarh ★★★
()
Ответ на: комментарий от kpanic

>Попробуй ScrapBook extension для огнелиса.

что-то не вижу как он может рекурсивно сайты скачивать.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.