LINUX.ORG.RU
ФорумTalks

Заархивировать интернет

 


1

2

Я вот тут подумал, был такой персонаж, который предлагал заархивировать весь интернет на флешку. А ведь сбылось! Нынешние БЯМ в общем-то это сделали. Что думаете по этому поводу, сочатнеки?



Последнее исправление: CrX (всего исправлений: 1)

Как сказал один сотрудник местного поисковика: «Мы скачали весь интернет. Два раза».

rechnick ★★★
()
Ответ на: комментарий от sabacs

Ты не можешь восстановить содержимое, только сгенерировать подобное

no-dashi-v2 ★★★★
()
Ответ на: комментарий от sabacs

Ну восстанови мне, скажем, 18-й пост из знаменитого ЛОРовского треда «Русские физики выбирают Slackware» (я сам не смотрел, какой там 18-й, число от балды). Пусть LLM скажет, кто там автор, что он написал, какого числа.

Можешь использовать любую LLM, только без возможности непосредственно открыть сайт и посмотреть.

CrX ★★★★★
()
Ответ на: комментарий от sabacs

Нет. И я сомневаюсь, что проигнорировали. Просто это действительно не архив, и восстановить из него ничего нельзя. Точно так же, как нельзя восстановить текст книги «Война и Мир» из изложения по нему, написанного самым гениальным школьником и без ошибок.

CrX ★★★★★
()
Ответ на: комментарий от CrX

По jpeg тоже не восстановить исходник… большая часть «информации» в Интернет — информационный шум, его отбрасывание не приводит к потере информации.

sabacs
() автор топика

Что думаете по этому поводу, сочатнеки?

Что БЯМ – сжатие с огромными потерями.

dataman ★★★★★
()
Ответ на: комментарий от sabacs

По jpeg тоже не восстановить исходник…

Ну так это и не архивация, а сжатие с потерями.

Только при LLM это не сжатие с потерями даже, это, как совершенно верно сказали выше — базовые вектора. Ничего даже близкого к исходнику оттуда восстановить не возможно. Какие-то самые базовые факты энцеклопедические — да, но не более того.

Если приводить аналогию, то можно сказать, что это «сжатие» с гигантскими потерями. Не как у jpeg даже при самом низком качестве. Скорее как вместо файла изображения с картиной «Тайная вечеря» сохранить текстовый файл с содержимым «Длинный стол, в центре Иисус, слева 6 апостолов, справа 6 опостолов, у одного нож». Вот такого уровня «сжатие», а не уровня JPEG.

большая часть «информации» в Интернет — информационный шум, его отбрасывание не приводит к потере информации.

Это уже субъективщина и к глупости, высказанной в сабже не имеет никакого отношения.

CrX ★★★★★
()
Последнее исправление: CrX (всего исправлений: 2)
Ответ на: комментарий от CrX

Это уже субъективщина и к глупости, высказанной в сабже не имеет никакого отношения.

Не согласен. Гигабайты «срачей» можно свести буквально к одному абзацу, а иногда и к одному предложению текста. Без потери смысла.

sabacs
() автор топика
Ответ на: комментарий от dataman

потерями

Это покрывается приобритениями в виде галлюцинаций

mamina_radost
()
Ответ на: комментарий от sabacs

Не согласен. Гигабайты «срачей» можно свести буквально к одному абзацу, а иногда и к одному предложению текста. Без потери смысла.

Это попросту не так — нельзя. Точнее, это субъективная оценка ценности информации. Я понимаю, что ты имеешь в виду, и даже неважно, согласен я с этой оценкой или нет, суть ведь не в этом, а в том, что это НЕ архивирование и тем более не архивирование «всего интернета».

CrX ★★★★★
()

archive.org всё уже заархивировано до нас.

futurama ★★★★★
()
Ответ на: комментарий от dataman

объём хранимых данных в 2016 году можно оценить на уровне 1,96 х 10^22 бит = 2,45 зеттабайта

Скорее всего за эти 10 лет объём вырос раз в 10+

CrX ★★★★★
()

заархивировать весь интернет на флешку. А ведь сбылось! Нынешние БЯМ в общем-то это сделали.

Далеко не весь. По недавним исследованиям, всё большая доля выдаваемой LLM информации происходит с Reddit. Большая часть оставшегося — со Stack Overflow. Остальное использовалось в обучении, но на итоговый результат почти не влияет.

И это «сжатие» с очень большими потерями.

question4 ★★★★★
()
Ответ на: комментарий от sabacs

Настолько не нужно, что даже БЯМ проигнорировали?

Если ты не в курсе, ЛЛМ не содержат копию всех данных, использованных в обучении. Вот этот их лядр параметров (по сути чисел) - вся их память. Естественно помнить будут они не все.

goingUp ★★★★★
()

Здравая мысль. Вся история и достижения цивилизации в 500 ГБ уместилось. Так и живём, 8 миллиардов балластов.

foror ★★★★★
()
Последнее исправление: foror (всего исправлений: 1)
Ответ на: комментарий от CrX

«Длинный стол, в центре Иисус, слева 6 апостолов, справа 6 опостолов, у одного нож»

Ну, попроси тебе нейронка отрисует в различных вариациях и стилях. А тебе, что ещё надо? Попиксельную сходимость, ты не из этих, кто для колонок кабели из золота покупает?

foror ★★★★★
()
Последнее исправление: foror (всего исправлений: 1)
Ответ на: комментарий от sabacs

Ну посчитай степень сжатия жпега и архиваторов и примени к объему интернета) К тому же не вся память нейронки будет отведена под факты, много нужно будет просто чтобы она могла функционировать и что-то делать.

goingUp ★★★★★
()
Ответ на: комментарий от goingUp

Давай рассмотрим простой пример — сортировку вставками, например. Представляешь сколько её реализаций на различных языках можно найти в Интернет? А сколько копий или небольших вариаций одной и той же реализации? При этом сеть способна обобщить всё это до крайне компактной формы, там сжатие будет в миллионы, если не миллиарды раз.

sabacs
() автор топика
Ответ на: комментарий от CrX

за шо купил за то продал:

восстанови мне, 18-й пост из знаменитого треда «Русские физики выбирают Slackware» на linux.org.ru


К сожалению, на оригинальном сайте LOR многие старые треды были удалены, заархивированы или потеряны при переездах движка. Однако благодаря архивам и «копипастам», содержание 18-го сообщения сохранилось.

Содержание 18-го сообщения
Вот восстановленный текст 18-го поста:

---
18. bga (*) (20.02.2002 12:44:56)

А еще Slackware позволяет физику не отвлекаться на суету. Когда ты ставишь пакет в Slackware, ты чувствуешь энтропию. Ты понимаешь, что каждый installpkg — это малый термодинамический цикл. В RedHat ты — потребитель, в Slackware ты — экспериментатор, стоящий у вакуумной установки.

Настоящий физик знает: зависимостей не существует. Существует только нехватка библиотек в фазовом пространстве системы.
---

Почему этот тред стал легендой?
Этот тред (созданный в феврале 2002 года) высмеивал стереотип о том, что суровые ученые-ядерщики и теоретики используют только самые аскетичные инструменты.

Дух эпохи: В то время Slackware считался дистрибутивом для «настоящих мужчин», так как в нём не было автоматического разрешения зависимостей.

Терминология: Авторы постов виртуозно смешивали физические термины (энтропия, фазовое пространство, спин, гамильтониан) с процессом настройки Линукса.

Абсурдизм: Участники всерьез обсуждали, как Slackware помогает в вычислении сечения рассеяния или почему KDE противоречит принципу неопределенности Гейзенберга.

Интересный факт
Тред был настолько популярен, что породил множество подражаний (например, «Русские биологи выбирают Gentoo»), но оригинал про физиков так и остался непревзойденным образцом сетевого юмора начала 2000-х.

Хотите, чтобы я нашел другие знаменитые цитаты из этого обсуждения или объяснил какой-то из физических каламбуров в тексте?```
flant ★★★★
()
Ответ на: комментарий от flant

Забавно, что он даже дату не догадался сделать такую, чтобы она была вскоре после, а не до создания самого треда :)

CrX ★★★★★
()
Ответ на: комментарий от sabacs

Это другое (с). Я тоже могу написать сортировку вставками и разные ее вариации под требования, но это не значит, что я имею копию интернета и читал все эти реализации.

goingUp ★★★★★
()
Ответ на: комментарий от goingUp

Ну так Вы тоже какую-то часть знаний «за архивировали» в своей голове, потому и можете воспроизвести.

sabacs
() автор топика
Ответ на: комментарий от sabacs

В общем, понятно. Вся тема сводится к банальному «у sabacs очень особое понимание слова „заархивировать“».

CrX ★★★★★
()

БЯМ действительно можно использовать для «архивирования интернета», но не напрямую, а для дедупликации — то есть чтоб отфильтровать контент вида «скриншот ехидного комментария к скриншоту репоста». Как голограмма, позволяющая восстановить целое из малой части оно не сработает.

sn4il
()

Берешь уголек из печки и пишешь на заборе слово из трех букв.
( Мелом тоже можно)
Всё! Поздравляю! Интернет заархивирован!
Процентов на 99. Порно, например, не вошло. Но это можно сделать и потом, энтузиасты подтянутся.

olelookoe ★★★★
()
Ответ на: комментарий от sabacs

Это сжатие с потерями. Нельзя восстановить точную копию каждой страницы, только приблизительное содержимое.

KivApple ★★★★★
()
Ответ на: комментарий от KivApple

Это просто никому и не нужно. Как не нужно хранить мельчайшие колебания яркости на фотографиях.

sabacs
() автор топика

БЯМ не является архиватором. Хотя есть архиваторы, так или иначе использующие нейронные сети для архивирования и сжатия информации. Но обычно это делают иначе, можешь почитать про алгоритмы группы PAQ, там часть архиваторов относящихся к вышеуказанному семейству используют простейшие нейронки для предсказаний, что значительно замедляет скорость архивации, повышает требования к потреблению оперативной памяти и замедляет скорость раскодирования. Однако, PAQ в безусловных лидерах по уровню сжатия, это правда.

peregrine ★★★★★
()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)