LINUX.ORG.RU

Как запретить wget -r некоторые страницы

 


0

2

Скачиваю сайт чтобы не пропал. Казалось бы тривиальная вещь, однако ж нет. Просто анекдот какой-то.

wget \
    -r -l inf \
    --convert-links \
    --page-requisites \
    --adjust-extension \
    --no-parent \
    --random-wait --wait=1 \
    --xattr \
    --reject '*/cart/*' \
    --reject-regex '/cart' \
    --exclude-directories='/cart' \
    https://example.com/

(на самом деле исключений больше, пробовал всеми методами задавать)

и вижу в логе:

...
--2022-07-12 23:24:46--  https://example.com/cart/
Повторное использование соединения с example.com:443.
HTTP-запрос отправлен. Ожидание ответа… 200 OK
Длина: нет данных [text/html]
Сохранение в: «example.com/cart/index.html»

example.com/cart/index.html     [ <=>                                       ] 206,36K  --.-KB/s    за 0,1s    

2022-07-12 23:24:47 (1,67 MB/s) - «example.com/cart/index.html» сохранён [211314]
...

Какого чёрта?

★★★★★

Кажется, я начинаю понимать. Опции --reject и --exclude-directories НЕ РАБОТАЮТ ВООБЩЕ, а --reject-regex можно задавать только один раз (а у меня кроме '/cart' было ещё несколько исключений типа 'my-account' и проч).

legolegs ★★★★★
() автор топика

Это во времена Web 1.0 скачивание сайта было тривиальной вещью. Сейчас уже давно не так.

Как-то скачивал себе некоторое количество ЖЖ, так пришлось самопальные скрипты говнокодить, одной команды бы не хватило.

Vsevolod-linuxoid ★★★★★
()