Параметры wget для скачивания всех pdf файлов с подраздела сайта

0

1

Добрый день! Впервые в жизни понадобилось воспользоваться wget. Цель: скачать с подраздела сайта («www.адрес/library/author/») все содержащиеся там книги (pdf-файлы). При этом не подниматься к родительской директории, а вглубь идти на 2 шага (первый шаг - автор книги, второй шаг - сам файл). Выгрузить все файлы хочу плоско, без папок. Взял за основу вариант: wget -r -l2 -nd -np -robots=off -A ‘.pdf’ http://www.адрес/library/author

И меняю некоторые параметры. Но пока ни один вариант не принес успеха. Можете подсказать, какие параметры должны помочь?

Ссылка

←	qemu не видит мышь с passthrough видеокартой

Как переместить linuxmint в конец диска

→

Может помочь использование подходящего инструмента. Например, lftp.

anonymous
(18.11.20 17:18:49 MSK)

Ссылка

–content-disposition - не?

mumpster ★★★★★
(18.11.20 19:08:01 MSK)

Ссылка

так попробуй:

wget -r -c -nd -np -l2 -A '*.pdf' http://www.адрес/library/

если я правильно понял суть вопроса, то тебе нужно указать адрес на то место где лежат папки author . Всё что не подпадает под шаблон будет проигнорировано вгетом, специально ему не надо говорить об этом.

например http://www.адрес/library/author/author.pdf

Gramozeka ★★
(18.11.20 19:17:35 MSK)
Последнее исправление: Gramozeka 18.11.20 19:21:36 MSK (всего исправлений: 1)

Ответ на: комментарий от Gramozeka 18.11.20 19:17:35 MSK

всем спасибо!

Благодарю, Gramozeka, чуть-чуть прояснилось, но критические вопросы еще остаются.

Твой вариант работает почти как надо, если в адресе указать непосредственно сам адрес файла. Я так понимаю, в таком случае можно вообще все параметры убрать, файл все равно скачается.
Если в твоем варианте ссылаться не на адрес файла, а на директорию, то происходит интересное - я вижу как файл скачивается, но по завершении он автоматически удаляется. Пока я решаю эту проблему добавлением к разрешенным форматам .tmp, но наверно есть более изящный способ?
Самое важное - я по ходу допустил оплошность в самом первом своем сообщении: несмотря на то что к искомым файлам на сайте я попадаю через страницу с авторами, адресная строка открытого файла - существенно отличается, там другой набор директорий. Если вручную сократить этот адрес в браузере до общей для всех файлов директории (http://www.elbrusoid.org/upload/iblock/), то я ожидаемо получаю сообщение 403 Forbidden. И текущий набор параметров wget, к сожалению, тоже не позволяет получить туда доступ. В Гугле по этому вопросу пишут про referer и user agent, но я даже не знаю что все это такое.
И наконец когда я оставляю только стартовую страницу (плюс -l inf), то: a). при параметрах pdf и tmp почему-то скачиваются разные jpg и gif, но ни одного pdf; b). при параметре pdf ничего не скачивается (или скачивается и удаляется). Остается только robots.txt (параметр -robots=off тоже не помогает).

Есть идеи что еще можно попробовать?

Ali_1990
(20.11.20 01:07:38 MSK) автор топика

Ответ на: всем спасибо! от Ali_1990 20.11.20 01:07:38 MSK

Есть идеи что еще можно попробовать?

изучить вопрос. Попытаться почитать про php на сайте и устройство самых распространённых фич.

То что тебе отдаёт этот сайт не совсем то, для чего нужен вгет(хотя наверно и на нём можно извратиться.). Ну и понять логику хозяев сайта:

Если просмотр списка запрещён, то он запрещён. И вообще, никакого каталога в реальности в файловой системе может не быть, URL может генерироваться независимо от неё.

Gramozeka ★★
(20.11.20 02:15:31 MSK)