LINUX.ORG.RU

Wget как offline-browser


0

1

Решил заюзать wget в качестве offline-browser для закачки доски объявлений целиком (с обновлением по крону). Особенность тут в том, что почти все URL-ы выглядят как tralivali.php?post=3477453 (т.е. один пост на одну страницу). Естественно, ограничил макс. размер файлов до 500 КБ (с помощью quota), чтобы не тянулись всякие прикреплённые файлики. При этом аватарки и прочая мелочь пусть тянется.

Столкнулся со следующим:

  1. quota не работает на HTTP. Совсем. В сырцах нашёл упоминание квоты только для FTP.
  2. При включенном no-clobber (что естественно в данном случае) тип файла проверяется тупым сравнением его расширения с «htm*». Следовательно, ничего рекурсивно не качается (ибо все файлы PHP, а не HTML).

Оба несправедливых момента исправил самостоятельно. Первый - дописыванием условия quota в http.c, второй - указанием флага TEXTHTML для всех уже скачанных файлов. Вопрос: почему штатно так не сделано и можно ли отправить патч?

★★★

Ответ на: комментарий от sin_a

Хм. Тем не менее, раз у WGET есть такой режим, почему не сделать его удобным?

Sadler ★★★ ()

Шли патч, я думаю + форк на github - вдруг разрабы гну затупят

bk_ ★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.