LINUX.ORG.RU

ЗАСТАВЬ КОМПЬЮТЕР ПОЛИВАТЬ ОГОРОД

автоматизация своими руками: электроприборы под контролем компьютера
beware of programmers who carry screwdrivers!
http://www.unicontrollers.com/products/unc01x

[#]  
KRoN73

Впрочем, ещё интересно подумать над тем, как бы б конвертировать неюникодные страницы в юникод автоматом.

Не вижу у wget'а ничего похожего на хуки.

Можно, конечно, анализировать логи, но как-то это…

***** ()
[#] Ответ на: комментарий от nu11 26.01.2012 12:16:14  
KRoN73
>>-----Цитата---->>

чем тебя пайп не устраивает?

<<-----Цитата----<<

Нелинейностью лога :)

...

Задачу решил тупо сохраняя лог и анализируя его после wget'а.

Есть, правда, бяка. Если набор символов в имени не ограничивать, то со всякими спецсимволами ссылки не корректно конвертировать. Ограничивать ascii — начинается кошмар с русскими ссылками. В смысле, они превращаются в urlencoded, да ещё и кодированные wget'ом. Используешь resctrict windows — русский в массе своей ок, но некоторые буквы в кашу превращаются и тоже ссылки не работают.

Приходится пока с acsii...

***** ()
[#] Ответ на: комментарий от record 26.01.2012 12:43:41  
KRoN73
>>-----Цитата---->>

Иногда пользуюсь webhttrack

<<-----Цитата----<<

Забыл уточнить — речь идёт о cli.

Делаю кеширование страниц, на которые ссылаются с форума :)

А то кошмар. Ссылки 10-летней давности почти никакие недоступны :-/ Среднее время доступности ресурса по ссылке просто удручает.

***** ()
[#] Ответ на: комментарий от KRoN73 26.01.2012 13:13:33  
record
>>-----Цитата---->>

речь идёт о cli.

<<-----Цитата----<<

Посмотри, пожалуйста, man httrack. Там внизу примеры есть. Может, заинтересует.

В простом случае

httrack my.site.com

**** ()
[#] Ответ на: комментарий от record 26.01.2012 13:27:53  
KRoN73

Пощупал. Блин, нет в жизни счастья.

1. Так и не понял, как добавлять новый файл в уже имеющуюся структуру. То есть скачиваю одну страницу, потом в том же каталоге пытаюсь скачивать другую — вся структура пересоздаётся, старая страница убивается.

2. Не нашёл простого монолитного лога — откуда, во что сохранилось, какой сервер возвращал заголовок (для ручного перекодирования, а то само оно не умеет :-/)

3. Не нашёл возможности добавить mime-характерное расширение к файлам с невменяемыми именами. А то как браузеру отличить .php, в котором CSS от .php, в котором JS?

Зато с юникодом в именах всё в порядке, да…

***** ()
[#] Ответ на: комментарий от KRoN73 27.01.2012 2:33:20  
record
>>-----Цитата---->>

Так и не понял, как добавлять новый файл в уже имеющуюся структуру. То есть скачиваю одну страницу, потом в том же каталоге пытаюсь скачивать другую — вся структура пересоздаётся, старая страница убивается.

<<-----Цитата----<<

по-моему, update к целому или более общему...

httrack --update http://www.my.site.com

Старые файлы оставит, новые обновит и добавит.

>>-----Цитата---->>

Не нашёл простого монолитного лога — откуда, во что сохранилось, какой сервер возвращал заголовок (для ручного перекодирования, а то само оно не умеет :-/)

<<-----Цитата----<<

httrack --update --extra-log http://www.my.site.com

В файле hts-log.txt и в каталоге hts-cache собираются логи.

**** ()
[#] Ответ на: комментарий от KRoN73 27.01.2012 2:33:20  
record

Посмотреть, что вообще происходит в каталоге, можно запустить что-то типа того:

inotifywait -m -r -e create -e modify -e delete -e move /home/user @/home/user/.mozilla @/home/user/.gconfd @/home/user/.gconf @/home/user/.xsession-errors

где @что-то - исключенные из рассмотрения файлы.

У меня постоянно такое запущено.

**** ()
[#] Ответ на: комментарий от record 27.01.2012 4:27:23  
KRoN73
>>-----Цитата---->>

по-моему, update к целому или более общему...

<<-----Цитата----<<

Ага, работает. Меня смутило, что в man'е он был в примере без параметров, типа, обновить текущий проект.

Но не годится. Он начинает обновлять и весь уже имеющийся архив. Когда страниц будут тысячи, это будут кранты :)

>>-----Цитата---->>

В файле hts-log.txt и в каталоге hts-cache собираются логи.

<<-----Цитата----<<

В принципе, вся информация есть, но собрать её трудно. Раскидана по файлам, формат неудобный.

В общем, я, походу, wget добил, вроде, до вида, который мне нужен. Будет, таки, на форуме постраничный кеш :)

Только надо добить давно назревшую отложенную компиляцию постингов (чтобы при постинге лепились простые данные, а тяжеловесные операции потом в фоне шли) и будет лепота :)

***** ()