LINUX.ORG.RU

А, блин, ключик -nv и лог сделают то, что нужно :)

KRoN73 ★★★★★
() автор топика

Впрочем, ещё интересно подумать над тем, как бы б конвертировать неюникодные страницы в юникод автоматом.

Не вижу у wget'а ничего похожего на хуки.

Можно, конечно, анализировать логи, но как-то это…

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от nu11

чем тебя пайп не устраивает?

Нелинейностью лога :)

...

Задачу решил тупо сохраняя лог и анализируя его после wget'а.

Есть, правда, бяка. Если набор символов в имени не ограничивать, то со всякими спецсимволами ссылки не корректно конвертировать. Ограничивать ascii — начинается кошмар с русскими ссылками. В смысле, они превращаются в urlencoded, да ещё и кодированные wget'ом. Используешь resctrict windows — русский в массе своей ок, но некоторые буквы в кашу превращаются и тоже ссылки не работают.

Приходится пока с acsii...

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от record

Иногда пользуюсь webhttrack

Забыл уточнить — речь идёт о cli.

Делаю кеширование страниц, на которые ссылаются с форума :)

А то кошмар. Ссылки 10-летней давности почти никакие недоступны :-/ Среднее время доступности ресурса по ссылке просто удручает.

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от KRoN73

речь идёт о cli.

Посмотри, пожалуйста, man httrack. Там внизу примеры есть. Может, заинтересует.

В простом случае

httrack my.site.com

record ★★★★★
()
Ответ на: комментарий от record

Плюсую, пользовался им, давно правда, настроек у него много, задачи поставленные решал.

ollowtf ★★★
()
Ответ на: комментарий от record

Пощупал. Блин, нет в жизни счастья.

1. Так и не понял, как добавлять новый файл в уже имеющуюся структуру. То есть скачиваю одну страницу, потом в том же каталоге пытаюсь скачивать другую — вся структура пересоздаётся, старая страница убивается.

2. Не нашёл простого монолитного лога — откуда, во что сохранилось, какой сервер возвращал заголовок (для ручного перекодирования, а то само оно не умеет :-/)

3. Не нашёл возможности добавить mime-характерное расширение к файлам с невменяемыми именами. А то как браузеру отличить .php, в котором CSS от .php, в котором JS?

Зато с юникодом в именах всё в порядке, да…

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от KRoN73

Так и не понял, как добавлять новый файл в уже имеющуюся структуру. То есть скачиваю одну страницу, потом в том же каталоге пытаюсь скачивать другую — вся структура пересоздаётся, старая страница убивается.

по-моему, update к целому или более общему...

httrack --update http://www.my.site.com

Старые файлы оставит, новые обновит и добавит.

Не нашёл простого монолитного лога — откуда, во что сохранилось, какой сервер возвращал заголовок (для ручного перекодирования, а то само оно не умеет :-/)

httrack --update --extra-log http://www.my.site.com

В файле hts-log.txt и в каталоге hts-cache собираются логи.

record ★★★★★
()
Ответ на: комментарий от KRoN73

Посмотреть, что вообще происходит в каталоге, можно запустить что-то типа того:

inotifywait -m -r -e create -e modify -e delete -e move /home/user @/home/user/.mozilla @/home/user/.gconfd @/home/user/.gconf @/home/user/.xsession-errors

где @что-то - исключенные из рассмотрения файлы.

У меня постоянно такое запущено.

record ★★★★★
()
Ответ на: комментарий от record

по-моему, update к целому или более общему...

Ага, работает. Меня смутило, что в man'е он был в примере без параметров, типа, обновить текущий проект.

Но не годится. Он начинает обновлять и весь уже имеющийся архив. Когда страниц будут тысячи, это будут кранты :)

В файле hts-log.txt и в каталоге hts-cache собираются логи.

В принципе, вся информация есть, но собрать её трудно. Раскидана по файлам, формат неудобный.

В общем, я, походу, wget добил, вроде, до вида, который мне нужен. Будет, таки, на форуме постраничный кеш :)

Только надо добить давно назревшую отложенную компиляцию постингов (чтобы при постинге лепились простые данные, а тяжеловесные операции потом в фоне шли) и будет лепота :)

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от record

inotifywait

А вот это полезно, спасибо. Не для этой задачи, но вообще :)

KRoN73 ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.