LINUX.ORG.RU

Параметры wget для скачивания всех pdf файлов с подраздела сайта

 


0

1

Добрый день! Впервые в жизни понадобилось воспользоваться wget. Цель: скачать с подраздела сайта («www.адрес/library/author/») все содержащиеся там книги (pdf-файлы). При этом не подниматься к родительской директории, а вглубь идти на 2 шага (первый шаг - автор книги, второй шаг - сам файл). Выгрузить все файлы хочу плоско, без папок. Взял за основу вариант: wget -r -l2 -nd -np -robots=off -A ‘.pdf’ http://www.адрес/library/author

И меняю некоторые параметры. Но пока ни один вариант не принес успеха. Можете подсказать, какие параметры должны помочь?

Может помочь использование подходящего инструмента. Например, lftp.

anonymous
()

так попробуй:

wget -r -c -nd -np -l2 -A '*.pdf' http://www.адрес/library/

если я правильно понял суть вопроса, то тебе нужно указать адрес на то место где лежат папки author . Всё что не подпадает под шаблон будет проигнорировано вгетом, специально ему не надо говорить об этом.

например http://www.адрес/library/author/author.pdf

Gramozeka ★★
()
Последнее исправление: Gramozeka (всего исправлений: 1)
Ответ на: комментарий от Gramozeka

всем спасибо!

Благодарю, Gramozeka, чуть-чуть прояснилось, но критические вопросы еще остаются.

  1. Твой вариант работает почти как надо, если в адресе указать непосредственно сам адрес файла. Я так понимаю, в таком случае можно вообще все параметры убрать, файл все равно скачается.
  2. Если в твоем варианте ссылаться не на адрес файла, а на директорию, то происходит интересное - я вижу как файл скачивается, но по завершении он автоматически удаляется. Пока я решаю эту проблему добавлением к разрешенным форматам .tmp, но наверно есть более изящный способ?
  3. Самое важное - я по ходу допустил оплошность в самом первом своем сообщении: несмотря на то что к искомым файлам на сайте я попадаю через страницу с авторами, адресная строка открытого файла - существенно отличается, там другой набор директорий. Если вручную сократить этот адрес в браузере до общей для всех файлов директории (http://www.elbrusoid.org/upload/iblock/), то я ожидаемо получаю сообщение 403 Forbidden. И текущий набор параметров wget, к сожалению, тоже не позволяет получить туда доступ. В Гугле по этому вопросу пишут про referer и user agent, но я даже не знаю что все это такое.
  4. И наконец когда я оставляю только стартовую страницу (плюс -l inf), то: a). при параметрах pdf и tmp почему-то скачиваются разные jpg и gif, но ни одного pdf; b). при параметре pdf ничего не скачивается (или скачивается и удаляется). Остается только robots.txt (параметр -robots=off тоже не помогает).

Есть идеи что еще можно попробовать?

Ali_1990
() автор топика
Ответ на: всем спасибо! от Ali_1990

Есть идеи что еще можно попробовать?

изучить вопрос. Попытаться почитать про php на сайте и устройство самых распространённых фич.

То что тебе отдаёт этот сайт не совсем то, для чего нужен вгет(хотя наверно и на нём можно извратиться.). Ну и понять логику хозяев сайта:

Если просмотр списка запрещён, то он запрещён. И вообще, никакого каталога в реальности в файловой системе может не быть, URL может генерироваться независимо от неё.

Gramozeka ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.