Продолжая старую тему p2p-соцсети.
Поскольку мы делаем систему, которая ориентируется на длительное хранение данных, возникает вопрос сохранения ссылок. Ибо уже всего лет через пять нередко не выживает и половина сайтов. Десятилетний интервал преодолевает процентов 10.
Сейчас этот вопрос у меня решается только отчасти — я храню в базе данных снипет (заголовок, описание, оконка/превью) и показываю в сообщении. Но давно стоит вопрос архивирования страниц по ссылкам. Раньше я думал больше о тупом сохранении в архив страницы со всем содержимым, скажем, через wget, но в общем случае задача шире и сложнее.
Раз уже мы всё храним в p2p (на самом деле сейчас — только аттачи, и только в конкретной IPFS, но хранение в p2p и целиком топиков/блогов/комментариев и в других хранилищах — совсем не вопрос) хочется хранить в p2p и архивы чужих страниц.
И вот тут у меня нет готового хорошего решения. Интернет так и не родил единый стандарт на хранение целиком страницы одним файлом.
MAF так и остался неподдерживаемым форматом Мозиллы.
MHTML, хотя и является RFC-стандартом, никто кроме Оперы его реально не поддерживал... Хм. А вот дальше интересно. Пока писал сообщение, решил проверить поддержку его в браузерах. Да, Опера его уже не сохраняет, как раньше, но показывает. Как и IE с Хромом. Не показывает только Firefox. Это, конечно, минус, но уже терпимый. Firefox стремительно теряет позиции, так что удобством остатков его пользователей можно пренебречь — в конце концов, придумают расширение :) Зато, всё же, стандарт.
Третьим вариантом я видел HTML, переписанный на встраивание всех используемых им ресурсов (картинки, стили) во встроенной форме (src=«data:image/png;base64...»). Это самый геморройный вариант, ибо тонны подводных камней, начиная от ограничений по размерам ресурсов, кончая встраиванием JS и CSS.
Четвёртый вариант ужасен — это хранение всех HTML-ресурсов в p2p раздельно с конвертацией ссылок на них.
В общем, самый интересный вариант, как вижу теперь, это MHTML. Тоже будут проблемы, нужно реализовать сохранение в этот формат своими библиотеками, но это решаемо.
Это далеко не первый раз, когда я нахожу решение в процессе написания вопроса на ЛОР, обычно в таких случаях вопрос не отправляю, но сейчас решил, фиг с ним, пусть будет. Может, кто-то предложит что-то более интересное.
...
P.S. А рабочее название проекта пока я оставляю всё равно Infonesy. Сам вижу недостатки, но ничего лучшего так пока и не нашёл :)
P.P.S. Текущий статус системы — однонаправленная гетерогенная репликация форума, поток сообщений/информации через BTSync по ключу, аттачи — в IPFS. В принципе, включение двунаправленой связи дело одного часа работы, но пока откладываю, так как придётся до срока отвлекаться на реализацию идеологии одностороннего ограничения на свободу постингов и т.п. Скорее всего, раньше продолжу развитие гетерогенности, подключив несколько концептуально разных источников (LiveStreet, Wordpress, Twitter).
Ответ на:
комментарий
от fang90
Ответ на:
комментарий
от Legioner
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.
Похожие темы
- Форум Распределёные форумы/блоги. Продолжаем разговор. Нужен совет. (2014)
- Форум ZeroNet — p2p платформа хостинга сайтов и соцсеть (2021)
- Форум Неинформативное сохранение страниц форума. (2015)
- Форум Сохранение страниц в Opera (2005)
- Форум Mozilla и сохранение страниц... (2002)
- Форум Соцсети (2013)
- Форум Ссылки на страницы треда (2013)
- Форум Бегущие ссылки на страницах (2007)
- Форум Массовое сохранение страниц из кеша (2012)
- Форум Сохранение страниц проходящих через squid (2013)