Как запретить wget -r некоторые страницы

0

2

Скачиваю сайт чтобы не пропал. Казалось бы тривиальная вещь, однако ж нет. Просто анекдот какой-то.

wget \
    -r -l inf \
    --convert-links \
    --page-requisites \
    --adjust-extension \
    --no-parent \
    --random-wait --wait=1 \
    --xattr \
    --reject '*/cart/*' \
    --reject-regex '/cart' \
    --exclude-directories='/cart' \
    https://example.com/

(на самом деле исключений больше, пробовал всеми методами задавать)

и вижу в логе:

...
--2022-07-12 23:24:46--  https://example.com/cart/
Повторное использование соединения с example.com:443.
HTTP-запрос отправлен. Ожидание ответа… 200 OK
Длина: нет данных [text/html]
Сохранение в: «example.com/cart/index.html»

example.com/cart/index.html     [ <=>                                       ] 206,36K  --.-KB/s    за 0,1s    

2022-07-12 23:24:47 (1,67 MB/s) - «example.com/cart/index.html» сохранён [211314]
...

Какого чёрта?

←	как зациклить yt-dlp на закачку.

Создавать поддомен «mail.» для Postfix-a - это просто рекомендация?

→

Кажется, я начинаю понимать. Опции --reject и --exclude-directories НЕ РАБОТАЮТ ВООБЩЕ, а --reject-regex можно задавать только один раз (а у меня кроме '/cart' было ещё несколько исключений типа 'my-account' и проч).

legolegs ★★★★★
(12.07.22 23:48:24 MSK) автор топика

Это во времена Web 1.0 скачивание сайта было тривиальной вещью. Сейчас уже давно не так.

Как-то скачивал себе некоторое количество ЖЖ, так пришлось самопальные скрипты говнокодить, одной команды бы не хватило.

Vsevolod-linuxoid ★★★★★
(13.07.22 00:00:41 MSK)

Ответ на: комментарий от Vsevolod-linuxoid 13.07.22 00:00:41 MSK

Там вордпресс, всё просто. Сложно только заставить wget делать то, что подразумевает его документация.

legolegs ★★★★★
(13.07.22 00:01:45 MSK) автор топика

←	как зациклить yt-dlp на закачку.

General

Создавать поддомен «mail.» для Postfix-a - это просто рекомендация?

→

Похожие темы