10 петабайт — это много или мало?

hpc

https://www.infowatch.ru/analytics/utechki-informatsii/krazha-konfidentsialnoy-informatsii-iz-tsentra-superkompyuterov
https://www.gazeta.ru/tech/news/2026/04/08/28229191.shtml
https://substackcdn.com/image/fetch/$s_!LwlW!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb4a18e63-ccb6-4e02-9b19-7f9a031b805e_1424x746.jpeg

Неизвестный, пишущий по-английски с ошибками, утверждает, что влез в Национальный Центр Суперкомпьютеров Китая (в Тянцзине) через дырявый VPN и за полгода скачал 10 петабайт данных. Говорит, что там — секретные результаты моделирования пробития бронированных целей, ядерного синтеза, что-то аэрокосмическое и биоинформационное, и т.п. Выставил на продажу в середине марта. За просмотр оглавления берёт 10 монеро (~$3000).

И я подумал: если моделировать сплавы клеточными автоматами, каждое зерно 25 мкм³ сделать отдельным автоматом, выделить на него 1 байт, то для моделирования столкновения танка (10 м³ стали) со стеной понадобится 10/(25e-18)=4e17 байт для каждого состояния. То есть 400 петабайт.

Каковы типичные объёмы данных при моделировании сплошных сред на суперкомпьютерах?

Ссылка

← А что будет если сервера альтлинукс заменить на дебиан?

Цифровое выгорание (правильно или нет?) →

Мало. В Церн еще 4 года назад дисковый сторадж перевалил за эксабайт.

Lusine
(09.04.26 19:10:17 MSK)

Ссылка

Скачать-то он может и скачал, если лить 5 гигабит не переставая. А вот куда хоронил? В /dev/null ?

imul ★★★★★
(09.04.26 19:15:42 MSK)

Прикиньте, чувак покупает всю эту байду. А там нейрослоп сгенереный нейронкой

karton1 ★★★★★
(09.04.26 19:16:50 MSK)

Ответ на: комментарий от karton1 09.04.26 19:16:50 MSK

Лох не мамонт. Лох не вымрет.

mikhalich ★★
(09.04.26 19:18:03 MSK)

Ссылка

Ответ на: комментарий от imul 09.04.26 19:15:42 MSK

куда хоронил?

Если он качал ботнетом, не исключено, что и хранит на протрояненых чужих машинах. Поэтому надо покупать быстрее, пока не потёрли.

question4 ★★★★★
(09.04.26 19:29:03 MSK) автор топика

для моделирования столкновения танка со стеной

Танк-то обычно сталкивают не со стеной, а с высокоэнергетическими боеприпасами. Там фазовое состояние вещества меняется в ходе взаимодействий, а бронеплита к тому же сделана не из монолитного чугуния, а из композита из разнородных (с существенно разными свойствами) материалов. Влоб насыпанием петабайтов оно не особо-то решится, кмк.

Manhunt ★★★★★
(09.04.26 19:36:09 MSK)
Последнее исправление: Manhunt 09.04.26 19:38:10 MSK (всего исправлений: 1)

Полгода качал со средней скоростью почти мегабит? Много это или мало?

lenin386 ★★★★★
(09.04.26 19:36:13 MSK)

Ссылка

Ответ на: комментарий от question4 09.04.26 19:29:03 MSK

Самое ж интересное, что успел ознакомиться с содержанием. И текст наверняка ж на китайском.

imul ★★★★★
(09.04.26 19:44:21 MSK)

Ссылка

Ответ на: комментарий от Manhunt 09.04.26 19:36:09 MSK

Ага, вот и любители танчиков подтянулись.

Lusine
(09.04.26 19:44:21 MSK)

Ссылка

И я подумал: если моделировать сплавы клеточными автоматами, каждое зерно 25 мкм³ сделать отдельным автоматом, выделить на него 1 байт, то для моделирования столкновения танка (10 м³ стали) со стеной понадобится 10/(25e-18)=4e17 байт для каждого состояния. То есть 400 петабайт.

Во-первых, обычно когда речь идёт о масштабе 25 мкм, тебя не интересует поведение всего танка, тебе достаточно симулировать поведение участка брони, в который попал снаряд. Процессы, которые происходят при столкновении снаряда и брони, в любом случае превышают скорость звука в металле, поэтому нагрузка не может нормально распределиться по всему корпусу. Плюс если ты достаточно хорошо пробил броню в одном месте, то танк в любом случае выведен из строя, тебе не принципиально, что там происходит на другом конце танка. А для симуляции столкновения танка со стеной не нужна такая точность симуляции, там совсем другие процессы.

Во-вторых, хранить твои 400 петабайт нужно только во время непосредственно проведения эксперимента. А потом результаты можно агрегировать. Тебе не нужно знать диаметр входного и выходного отверстия с точностью до микрометра (тем более что оно будет разное каждый выстрел из-за кучи переменных факторов), тем нужно знать сколько миллиметров брони прошёл твой снаряд, какой был всплеск давления за бронёй и т. д. Результаты можно пересемплировать с потерей точности в несколько раз и ты даже выиграешь (потому что уберёшь часть шумов симуляции).

В-третьих, есть банальное сжатие.

Китайцы скорее всего проводили эксперименты в правильных масштабах соответствующим целям, а не гоняли симулятор на максимальных параметрах для всего подряд. И в долгосрочное хранилище клали агрегированые результаты, чтобы потом с этим можно было вменяемо работать (даже если где-то хранятся оригиналы для большинства задач достаточно результатов меньшего объёма, которые будут быстрее обрабатываться).

Так что 10 петабайт скорее всего как раз самое интересное.

KivApple ★★★★★
(09.04.26 19:47:33 MSK)
Последнее исправление: KivApple 09.04.26 19:52:46 MSK (всего исправлений: 2)

Ответ на: комментарий от Manhunt 09.04.26 19:36:09 MSK

Танк-то обычно сталкивают не со стеной, а с высокоэнергетическими боеприпасами.

Да, но там можно моделировать не все 80-100 тонн, а только область вблизи места попадания.

Я просто хотел быстро найти среди перечисленных задач что-нибудь правдоподобное, простое, поддающееся быстрой оценке размера, но громоздкое.

а бронеплита к тому же сделана не из монолитного чугуния, а из композита из разнородных (с существенно разными свойствами) материалов.

Разумеется. Но можно при моделировании учесть, что клетки из разных материалов.

Влоб насыпанием петабайтов оно не особо-то решится, кмк.

Разнородный композит — вполне решится. С фазовыми переходами — уже сложнее. Да и к самим клеточным автоматам претензии есть.

question4 ★★★★★
(09.04.26 19:50:10 MSK) автор топика

Ответ на: комментарий от KivApple 09.04.26 19:47:33 MSK

в долгосрочное хранилище клали агрегированые результаты, чтобы потом с этим можно было вменяемо работать

Да, исследователи должны делать именно так. Но я не уверен, что взломщик качал данные из хранилища, а не промежуточные результаты :)

question4 ★★★★★
(09.04.26 19:53:46 MSK) автор топика

Ссылка

Ответ на: комментарий от question4 09.04.26 19:50:10 MSK

Даже несколько мегабайт данных может быть интересным, если правильно агрегировать. Например, если это PDF с отчётом, где описаны все результаты эксперимента :-)

Более того, это может быть даже интереснее, чем сырые данные, потому что за тебя из симуляции и все шумы подчистили, и ты знаешь не только про саму симуляцию, но и какие выводы китайцы из неё сделали.

KivApple ★★★★★
(09.04.26 20:01:46 MSK)

Ответ на: комментарий от question4 09.04.26 19:50:10 MSK

Разнородный композит — вполне решится.

Граница сред, даже если она возникла не в результате фазового перехода, а была изначально, - штука сложная.

Manhunt ★★★★★
(09.04.26 20:07:37 MSK)
Последнее исправление: Manhunt 09.04.26 20:10:38 MSK (всего исправлений: 1)

Ответ на: комментарий от KivApple 09.04.26 20:01:46 MSK

PDF с отчётом … даже интереснее, чем сырые данные

Разумеется. Но смотревшие на образцы говорят, что видели именно сырые бинарные данные. Поэтому и возник вопрос, сколько таких данных порождает современный эксперимент по моделированию.

Имхо, если бы злоумышленник нашёл отчёты, он бы продавал их отдельно. Или продавал бы только их. А раз вывалил всё, значит сам найти не может. Если что-то там есть, это найдёт уже не он.

question4 ★★★★★
(09.04.26 20:35:02 MSK) автор топика
Последнее исправление: question4 09.04.26 20:41:33 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Manhunt 09.04.26 20:07:37 MSK

Граница сред … - штука сложная.

Да. И это сложная проблема — как её моделировать. Вполне можно заложить в модель какие-то обоснованные приближения взаимодействия разнородных клеток с ограниченной применимостью, и надеяться, что их хватит.

question4 ★★★★★
(09.04.26 20:39:31 MSK) автор топика
Последнее исправление: question4 09.04.26 20:42:28 MSK (всего исправлений: 1)

Ответ на: комментарий от question4 09.04.26 20:39:31 MSK

Ну вот в адекватной модели и сложность, а не в петабайтах, кмк

Manhunt ★★★★★
(09.04.26 21:30:10 MSK)

там — секретные результаты моделирования пробития бронированных целей

Деды не моделировали, а стреляли и меряли «условие обстрела отечественных танков и артсамоходов в боевых операциях 1942, 1943 и 1944 годов» © (topwar.ru).
Сейчас тоже сначала стреляют, а потом считают, например: «Действие бронебойно-фугасных снарядов танка «Чифтен» по броне» © (topwar.ru).

quickquest ★★★★★
(09.04.26 22:00:49 MSK)

Ответ на: комментарий от Manhunt 09.04.26 21:30:10 MSK

Вот я и спрашиваю, каковы сейчас типичные размеры. Потому что тупо в лоб техника всё ещё не позволяет, но если ресурсов стало доступно больше, таким образом облегчат себе жизнь.

question4 ★★★★★
(09.04.26 22:01:54 MSK) автор топика

Ответ на: комментарий от question4 09.04.26 22:01:54 MSK

Кто даст правильный ответ - тот получит 10 лет.

Manhunt ★★★★★
(09.04.26 22:03:06 MSK)

Ссылка

Ответ на: комментарий от quickquest 09.04.26 22:00:49 MSK

У дедов не было таких мощных компьютеров. И у британцев их нет, похоже. А китайцы построили. И попробовали посчитать.

question4 ★★★★★
(09.04.26 22:04:28 MSK) автор топика

Ответ на: комментарий от question4 09.04.26 22:04:28 MSK

Каковы типичные объёмы данных при моделировании сплошных сред на суперкомпьютерах?

Обычно используют итеративный подход (с увеличением детальности и объёма данных) для решения уравнений Навье — Стокса © (wikipedia.org) методом конечных элементов © (turbopages.org).
Количество итераций и элементов ограничены имеющейся вычислительной мощностью, временем и деньгами.

А китайцы построили. И попробовали посчитать.

Ну, пущай посчитают динамику плазмы в своём китайском токамаке пока ихний супер-пупер-компьютер не задымится :)

quickquest ★★★★★
(09.04.26 22:51:33 MSK)

Ответ на: комментарий от quickquest 09.04.26 22:51:33 MSK

Количество итераций и элементов ограничены имеющейся вычислительной мощностью, временем и деньгами.

И каков порядок цен, если считать на Tianhe-1 и хранить в дата-центре в Тяньцзине?

пущай посчитают динамику плазмы

Эти данные тоже могут быть в числе украденных :)

question4 ★★★★★
(09.04.26 23:16:08 MSK) автор топика

Ответ на: комментарий от question4 09.04.26 23:16:08 MSK

И каков порядок цен, если считать на Tianhe-1 и хранить в дата-центре в Тяньцзине?

Сие мне неведомо, ибо выходит за границы массива моих понятий о ценах :)

quickquest ★★★★★
(09.04.26 23:41:38 MSK)

Ссылка

Каковы типичные объёмы данных при моделировании сплошных сред на суперкомпьютерах?

100-200 TB.

Самое большое космологическое моделировние завершено в прошлом месяце. Общий объём данных порядка 13 PB.

VIT ★★
(09.04.26 23:55:19 MSK)

Ссылка

ну так напиши что ломанул одновременно ЦРУ, ФБР, пачку нарко-картелей, воспоминания Фрейда и дневник соседки Маши. Всё объёмом 30 петабайт, одно оглавление 1 тер. И продавай бред ИИ как оглавление и /dev/random как содержание. По 30 монер. 10 идиотов окупят всё начинание

MKuznetsov ★★★★★
(10.04.26 00:28:11 MSK)

Ответ на: комментарий от MKuznetsov 10.04.26 00:28:11 MSK

А потом кто-нибудь недовольный его деанонимизирует ледорубом.

question4 ★★★★★
(10.04.26 00:50:37 MSK) автор топика

Ссылка

Каковы типичные объёмы данных при моделировании сплошных сред на суперкомпьютерах?

Объемы во многом зависят от характера моделирования и необходимой точности вычислений.

Для экономии этого самого объема модель упрощают до одной единицы, наделенной теми или иными свойствами всей структуры. Аналог молекулы из реального мира.

Тебе не нужно моделировать все 10 м³ стали. Тебе достаточно смоделировать 1 см³, потом завернуть полученные результаты в функцию, и экстраполировать ее 10 млн раз.

Само собой, эти объемы нигде не хранятся, как например не хранятся инструкции шейдеров. Выполнил, получил, забыл.

Собственно половину вычислительных мощностей занимают такие вот преобразования функций. Тут как и у нас - либо сожмем быстро но слабо, либо медленно но сильно.

~~windows10~~ ★★★★★
(10.04.26 02:28:39 MSK)

Ссылка

10 петабайт за полгода это 5 Гбит/с, у них там никакого экрана мониторящего не стояло что ли? Как-то слабо верится.

Norgat ★★★★★
(10.04.26 03:04:08 MSK)

Ответ на: комментарий от Norgat 10.04.26 03:04:08 MSK

10 петабайт за полгода это 5 Гбит/с, у них там никакого экрана мониторящего не стояло что ли?

Использовал ботнет из большого числа компьютеров. Надо думать, по обе стороны, чтобы всё не в одно место шло. Вроде, где-то промелькнуло, что их было полторы тысячи. Сколько за секунду прокачивается при типичном сеансе RDP или VNC? 7 мегабит на этом фоне будут сильно заметны?

question4 ★★★★★
(10.04.26 05:50:50 MSK) автор топика

И всё для того, чтобы танк потом отъехал от дрона, встреча с которым не было смоделирована

buddhist ★★★★★
(10.04.26 10:42:18 MSK)

Ответ на: комментарий от buddhist 10.04.26 10:42:18 MSK

От дронов нужны роботизированные турели со шрапнелью
Удивительно, что ни одна из сторон до сих пор не клепает такие модули серийно

Manhunt ★★★★★
(10.04.26 11:06:39 MSK)
Последнее исправление: Manhunt 10.04.26 11:11:15 MSK (всего исправлений: 2)

Ответ на: комментарий от Manhunt 10.04.26 11:06:39 MSK

От дронов нужны роботизированные турели

Самоделки есть, но для серии они сырые, например © (iz.ru). Их роботизация требует специализированных систем наведения, сопровождения, распознавания, … И проблемы механики: чем легче турель, тем сложнее её стабилизировать при выстрелах и компенсировать изменение моментов инерции, влияющих на точность. Поэтому дешевле увеличить количество стволов и скорострельность.

со шрапнелью

Радиус поражения шрапнели невелик, но ежели очень хочется сделать, то возьми за основу проверенную ЗУ-23-2 © (armystandard.ru)
и прикрути к ней ардуину :)

quickquest ★★★★★
(10.04.26 12:50:39 MSK)

Ответ на: комментарий от quickquest 10.04.26 12:50:39 MSK

возьми и прикрути

Нереально в одно лицо это провернуть. А вот почему пво-шные нии, у которых все необходимые наработки есть, этого до сих пор не проделали - я не понимаю. Условно, что-то вроде «шилки», но на современной компонентной базе, и миниатюрной (чтобы можно было выпускать как модуль, который крепится на те же танки). https://www.opennet.ru/opennews/art.shtml?num=64999

Manhunt ★★★★★
(10.04.26 14:52:35 MSK)
Последнее исправление: Manhunt 10.04.26 14:56:12 MSK (всего исправлений: 2)

Ответ на: комментарий от Manhunt 10.04.26 14:52:35 MSK

А вот почему пво-шные нии этого до сих пор не проделали - я не понимаю.

Потому, что активная РЛС долго не живёт, она удобная мишень для ракет противо-РЛС © (missilery.info).
Сейчас более живучи пассивные ИК системы, но они зависимы от погоды.

Нереально в одно лицо это провернуть.

Реально, автомобильные радары, с диапазоном дальностей и скоростей аналогичным дронам, самодельщики собирают из готовых модулей типа HLK-LD2415H © (aliexpress.ru).

quickquest ★★★★★
(10.04.26 15:07:27 MSK)
Последнее исправление: quickquest 10.04.26 15:24:17 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от quickquest 10.04.26 12:50:39 MSK

Радиус поражения шрапнели невелик

Это скорее плюс, чем минус. Чтобы у тупой турели было меньше шансов покрошить свою же пехоту, которую пытались поддержать огнём этого танка.

Manhunt ★★★★★
(10.04.26 15:32:24 MSK)

Ссылка

10 петабайт это 500 дисков по 20 гигабайт. Много.

Psilocybe ★★★★★
(10.04.26 15:36:46 MSK)

Ответ на: комментарий от Psilocybe 10.04.26 15:36:46 MSK

Умножить на три для отказаустойчивости.

VIT ★★
(10.04.26 15:57:57 MSK)

Ссылка

Ответ на: комментарий от karton1 09.04.26 19:16:50 MSK

Plot twist: нейрослоп оказался рабочим

kaldeon ★★
(10.04.26 16:40:47 MSK)

Ссылка

Ответ на: комментарий от Psilocybe 10.04.26 15:36:46 MSK

В смысле, по 20 терабайт, я как то сразу не смекнул, что три нолика потерялись.

VIT ★★
(10.04.26 17:08:33 MSK)

Ответ на: комментарий от question4 10.04.26 05:50:50 MSK

То есть на vpn ноду прилетает 1.5к сессий и 5 Гбит трафика, пусть даже и плавно по времени и никто не задаётся вопросом кто все эти люди?

cobold ★★★★★
(10.04.26 17:28:17 MSK)

Ответ на: комментарий от cobold 10.04.26 17:28:17 MSK

То есть на vpn ноду прилетает 1.5к сессий и 5 Гбит трафика, пусть даже и плавно по времени и никто не задаётся вопросом кто все эти люди?

Чтобы не привлекало внимания, через эту ноду должны ежедневно ходить в несколько раз больше.

question4 ★★★★★
(10.04.26 17:47:34 MSK) автор топика

Ссылка

Ответ на: комментарий от VIT 10.04.26 17:08:33 MSK

В смысле, по 20 терабайт,

Оговорился конечно.

А так, обычный такой хакер, для которого 500 hdd по 20T не проблема. Мунуточку, но при стоимости одного такого диска около 60 т.р. все это удовольствие потянет на 30 миллионов рублей! Хорошо быть хакером нынче.

Psilocybe ★★★★★
(11.04.26 03:55:53 MSK)

Ответ на: комментарий от Psilocybe 11.04.26 03:55:53 MSK

при стоимости одного такого диска около 60 т.р.

В РФ можно найти вдвое дешевле. Думаю, в Китае можно найти ещё дешевле.

Если по $200 за 20Т, как подсказывает ИИ Гугла, получается $100 000. Отобьёт на 33 предпросмотрах. Думаю, это не первое дело данного взломщика.

Или, как я предположил выше, это хранится на чьих-то угнанных облачных учётках.

question4 ★★★★★
(11.04.26 04:59:28 MSK) автор топика

Ссылка

Ответ на: комментарий от Psilocybe 11.04.26 03:55:53 MSK

А чё, меня тут грязью облили, когда я сказал, что мы 7 PB данных насчитали и не бэкапили. Типа сейчас каждый бомж может позволить себе 10-20 PB дополнительных дисков в кармане держать. На крайняк, говорили, на клауд залей.

А здесь целый хакер!

VIT ★★
(11.04.26 06:08:30 MSK)