LINUX.ORG.RU

Домашний web-archive: есть ли софт?

 , , , ,


0

3

Все знают про web-archive (их тысячи, на самом деле, всяких разных).

А есть ли возможность поднять такой на своем сервере/десктопе? Т.е. запускаешь, указываешь список URL и он их раз в день/неделю/месяц сканит и архивирует, чтобы потом можно было смотреть разные версии и диффы между ними? Я понимаю, что несложно запилить самому такой через cron + wget/curl + git/hg, но может есть готовые решения?

★★

Последнее исправление: maverik (всего исправлений: 1)

несложно запилить самому такой через cron + wget/curl + git/hg

Интересная идея.

есть готовые решения?

Нет. Разработки, работающие с WARC в стадии experiment. И большинство на python-е.

Так что «велосипед»: cron + wget/curl + git/hg - не очень то и «велосипед», а вполне себе адекватный «реал».

Deleted
()
Ответ на: комментарий от Deleted

вполне себе адекватный «реал».

Тут надо понимать, что

1. VCS будет показывать diff в сыром формате. А хотелось бы, чтобы в отрендеренной html показывался diff (подсвечивались измененные части, например).

2. VCS log такой себе таймлайн - не очень удобный (дело привычки, я согласен).

Я надеялся, что готовый софт решает эти проблемы (и многие другие), но раз нет, то придется делать самому, видимо.

maverik ★★
() автор топика
Последнее исправление: maverik (всего исправлений: 1)

А может какой-нибудь PhantomJS для этого юзать?
Это позволит более полноценно сохранять современные страницы.
Хранить снимок страницы после работы скрипта и исходные данные.
Только надо как-то хукнуть загрузку каждого элемента и забрать состояние после обработки

mittorn ★★★★★
()

httrack уже назвали. Только надо иметь в виду, что сайты с ним борются. Например, lj просто так фиг скачаешь

И плюс это хомячий синдром, утащить всё в надежде что когда-нибудь пригодится. Плюшкин из мёртвых душ в чистом виде

Для доступа в нормальный интернет есть известные технологии. Против отмирания сайтов есть собственно archive.org

А если хочется сохранить конкретную страницу, посмотри в сторону wallabag

router ★★★★★
()

Наверное глупость скажу, но я бы подключил по fuse на постоянной основе и написал бы скрипт в 3 строки для systemd, для синхронизации хроном.

macroc
()
Ответ на: комментарий от router

с другой стороны это можеть быть полезно если собираешься оказаться на какое-то время где-то где нет интернета(в море/горах и тп)

LiBer ★★★
()
Ответ на: комментарий от router

известные технологии

Кабели через границу? Или почтовые голуби? А если ближайшая граница за пару тыщ километров и добираться до неё лесами-буераками?

Против отмирания сайтов есть собственно archive.org

Угу, не насобирают однажды донатов — и привет, или с датацентрами какая фигня случится. Вон давеча arhivach.org загнулся, хотя ничто не предвещало. Я уж молчу о том, что оно сохраняет только публичный контент, то есть всякие форумы, где для скачки вложений требуется регистрация — превращаются в тыкву.

bodqhrohro_promo
()
Ответ на: комментарий от bodqhrohro_promo

Кабели через границу? Или почтовые голуби? А если ближайшая граница за пару тыщ километров и добираться до неё лесами-буераками?

Первое правило бойцовского клуба - никому не рассказывать о бойцовском клубе

Второе правило бойцовского клуба - никому не рассказывать о бойцовском клубе

За фотку с абибасом и гладильной доской респект, но откуда я знаю, что ты не из роскомпозора

Угу, не насобирают однажды донатов — и привет, или с датацентрами какая фигня случится

Вот только решаться это должно зеркалированием самого архив орк. Если удастся договориться с ними. Или запуском параллельного проекта. А не 15 анонимусами, каждый из которых тихо тащит на домашний комп сайты, которые никогда не прочитает и уж тем более не собирается предоставлять другим доступ своему архиву

ИМХО

Я копирую себе в wallabag те статьи, которые меня заинтересовали. Чтобы не пропали. Но выкачивать автоматом что попало пока винт не забьёшь - это имхо бред

router ★★★★★
()
Ответ на: комментарий от LiBer

с другой стороны это можеть быть полезно если собираешься оказаться на какое-то время где-то где нет интернета(в море/горах и тп)

«В рюкзаке моём сало и спички
И Тургенева восемь томов»

:) Тут опять же нужно знать что ты это будешь читать. Да, httrack в т.ч. для этого и предназначен. И ИМХО лучше кинуть на телефон несколько книг в fb2, чем оффлайн зеркало лора

router ★★★★★
()
Ответ на: комментарий от bodqhrohro_promo

Если речь о контененте, то rss решит все твои проблемы. Если где-то нету rss, то предложи им добавить (на двух нужных мне источниках, где не было rss он появился) через обратную связь, например. В Kontakt'е есть замечательный обработчик rss с кучей настроек.

anonymous
()
Ответ на: комментарий от anonymous

Иногда у меня очень долго нет инета, частично забираю информацию таким вот образом.

anonymous
()
Ответ на: комментарий от anonymous

Ты лучше скажи, как из ВК получить RSS если я там не зарегистрирован? Только selfhosted, только хардкор.

ptah_alexs ★★★★★
()
Последнее исправление: ptah_alexs (всего исправлений: 1)
Ответ на: комментарий от router

я сильно сомневаюсь, что зеркало расширенного дерева сайтов которые я посещаю, будет больше 2тб, и если я на лодке посреди океана/на побережье нигерии, в жопе мира наслаждаюсь природой, удобней иметь и зеркало и библиотеку всех книг(ну или хотя бы весь список на чтение)

LiBer ★★★
()
Ответ на: комментарий от router

Про «цифру» хомячий синдром не очень подходит - интернеты долго не живут, очень часто что-то теряется навсегда (ну остается, конечно, в виде дорогущих изданий в коробочках, но это не наш метод).

anonymous
()
Ответ на: комментарий от router

никому не рассказывать о бойцовском клубе

Бесполезно, накроют всех. А в единичном порядке это ничем принципиально не отличается от интернетов только для госилитки.

откуда я знаю, что ты не из роскомпозора

А с чего ты вообще взял, что я не оттуда?

не собирается предоставлять другим доступ своему архиву

Ну не факт, взять хоть ту же ретрошару. На торрент-трекерах тоже можно встретить раздачи с архивами сайтов.

Или запуском параллельного проекта

Такие масштабные проекты разве что какой-то богатенький волонтёр может поднять. Если донатить на несколько проектов сразу — получается распыление усилий.

bodqhrohro_promo
()
Ответ на: комментарий от anonymous

Жирноконтент в RSS, бухехе, теллмимоар. Он наоборот, рассчитан на частодёргаемость и потому должен быть легковесен. Вот ссылки на контент в RSS, допустим, другое дело, но на фига, если там только последние N записей и проще скраулить весь сайт?

bodqhrohro_promo
()
Ответ на: комментарий от bodqhrohro_promo

Есть такая интересная вещь, как AMP. Насколько я понимаю, именно эти версии страниц выдают мессенджеры встроенным браузером

router ★★★★★
()
Ответ на: комментарий от bodqhrohro_promo

Насколько я знаю, это формат, удобный для разбора роботами. Т.е. если сайт его поддерживает, проще вытащить саму информацию, без рекламы и навигации

router ★★★★★
()
Ответ на: комментарий от bodqhrohro_promo

Относительно, угу. Опять визги неосиляторов парсинга HTML, уже который год зачем-то реквестирующих LOR API

Ну вообщет парсинг html занятие неблагодарное. И считать его заменой api - это колхозный мазохизм. ИМХО

router ★★★★★
()
Ответ на: комментарий от router

С таким пуризмом чуть менее чем весь девелопмент — колхозный мазохизм.

// Чуть не написал «консольный», Фрейд, поди, перевернулся.

bodqhrohro_promo
()
Ответ на: комментарий от bodqhrohro_promo

Писать скрипт, который через месяц может перестать работать по внешним причинам - да, это мазохизм

router ★★★★★
()
Ответ на: комментарий от router

Будто с API он не перестанет работать. А ещё бывает, что ни API нету, ни HTML, только какое-то обфусцированное дерьмецо. Сравнил, блин.

bodqhrohro_promo
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.