Вопрос про «узкое горлышко» фон-Неймановской архитектуры — Development

Ответ на: комментарий от cobold 22.10.25 02:29:31 MSK

Да, поэтому разницы для современных машин увешанных костылями не будет. Да и вообще, непонятно насколько вообще корректно современные машины с конвейерами, предсказаниями, кэшами и пр. называть фон-неймановскими.

Но ТС-то вроде не про это спрашивал, судя про вопросу.

Stanson ★★★★★
(22.10.25 02:41:44 MSK)

Насколько я знаю у современных процессоров разные кэши для данных и инструкций. Кэш инструкций может хранить дополнительную информацию вроде внутреннего представления, частоты переходов и т.п..

X512 ★★★★★
(22.10.25 02:48:17 MSK)

Ответ на: комментарий от madcore 21.10.25 21:58:15 MSK

Спасибо, хорошее объяснение.

не даром же на тех же х86 начиная с первопней кэши кода и данных раздельные, т.е. внутри они фоннеймовские

Может быть внутри они НЕ фоннеймовские, или я потерял нить

blex ★★★★
(22.10.25 09:26:00 MSK)

Ответ на: комментарий от Saakx 22.10.25 00:18:06 MSK

нет - канал обмена с памятью один :) точнее возможно несколько каналов памяти.
но все равно пропускать внутри канала обмена данными одновременно два потока не возможно (можно последовательно). це физика.

а вот работа с кешами в проце уже организована по отдельности.
есть отдельно кеш команд, который намертво прикручен к конвейеру команд, при этом очень сложно прикручен ибо идет декодирование и обработка нескольких команд одновременно.
и есть отдельно кеш данных, который прикручен к вычислительным модулям процессора.

pfg ★★★★★
(22.10.25 09:30:12 MSK)
Последнее исправление: pfg 22.10.25 09:38:56 MSK (всего исправлений: 1)

времена 8080 уже давно прошли

ckotctvo
(22.10.25 10:09:14 MSK)

Ответ на: комментарий от pfg 22.10.25 09:30:12 MSK

возможно несколько каналов памяти

Я так и написал. На моей конкретной машине четыре.

пропускать внутри канала обмена данными одновременно два потока не возможно

Я и не собирался. Раз каналов несколько, то возможны потоки каждый по своему каналу. Но не больше одного потока на канал. Но каналов несколько. Значит потоков несколько.

нет

Что «нет»? Читать научись?

Saakx
(22.10.25 11:28:24 MSK)

Ответ на: комментарий от Saakx 22.10.25 11:28:24 MSK

для проца с кешами данных и команд разделение внешних каналов памяти не даст никаких плюсов.
все мудренности и оптимизации сделаны в соответствующих кешах.

pfg ★★★★★
(22.10.25 11:37:59 MSK)

Ответ на: комментарий от pfg 22.10.25 11:37:59 MSK

для проца с кешами данных и команд разделение внешних каналов памяти не даст никаких плюсов

Какие ваши доказательства? Тем более, что кеши разделены, значит считывание в них происходит раздельно. Ещё и каналы раздельны. Это может дать ускорение.

все мудренности и оптимизации сделаны в соответствующих кешах

Ну и что? Это другое!

Saakx
(22.10.25 12:08:23 MSK)

Ответ на: комментарий от blex 22.10.25 09:26:00 MSK

Может быть внутри они НЕ фоннеймовские, или я потерял нить

да, гарвардские, заговариваюсь

madcore ★★★★★
(22.10.25 12:14:37 MSK)

Ответ на: комментарий от Stanson 22.10.25 02:22:56 MSK

Какими костылями? Z80 с остальными одноклассниками машет ногой M1, передавая привет )
Пожалуйста, привязывайся к ноге и декодируй её в память, как хочешь.

GAMer ★★★★★
(22.10.25 13:04:37 MSK)

Ответ на: комментарий от Saakx 22.10.25 12:08:23 MSK

м-м-м, любая книжка по работе процесоров…
считывание происходит раздельно, а считывается все равно из общей памяти.
разделение общей памяти на память данных и память программ не даст ускорения, ибо там все едино - байтики в своих ячейках.

pfg ★★★★★
(22.10.25 13:59:35 MSK)

Если ты в контексте нейросетей то основная проблема это наличие некого толстого проца к которому нужно гонять данные из хранища. Хотя удобнее было бы иметь намного менее толстые процы, но чтобы они сидели прямо рядом с хранилищем данных и могли доставать данные каждый себе без того чтобы гонять их через общую шину.

Если ты про "вообще", то этот тезис уже не настолько актуален.

ya-betmen ★★★★★
(22.10.25 14:05:52 MSK)

Ответ на: комментарий от pfg 22.10.25 13:59:35 MSK

считывается все равно из общей памяти

Да нет же. По факту каналы разные. И «общесть» у этой памяти логическая (адресами куски друг к другу приставлены).

Saakx
(22.10.25 16:45:59 MSK)

Ответ на: комментарий от Saakx 22.10.25 16:45:59 MSK

ты про NUMA, «это другое» :)
общность у всей памяти в одном, для неё всё ~~есть файл~~ лишь байтики, лежащие в своих ячейках.
разделение байтиков на инструкции и данные в современном проце имеется лишь в соответствующих кешах.

pfg ★★★★★
(22.10.25 17:13:58 MSK)

Ответ на: комментарий от pfg 22.10.25 17:13:58 MSK

Нет, я не про NUMA.

Saakx
(22.10.25 17:14:43 MSK)

Ответ на: комментарий от GAMer 22.10.25 13:04:37 MSK

а для инструкций типа ld a,n - при чтении n m1 тоже будет активен?
тогда прикольно, можно было б напрямую адресовать 64к+64к

madcore ★★★★★
(22.10.25 18:13:11 MSK)

Ответ на: комментарий от cobold 21.10.25 23:32:54 MSK

так инструкция-то одна. как ты в параллели будешь выполнять две последовательные инструкции и что при этом станет с логикой программы. а так, предварительное вычисление реализовано в многоядерных процах при ветвлении, например, и в некоторых случаях, когда предыдущий результат не используется в операции и можно распараллелить. но это далеко не всегда. и да, выше написали про кэши. данные засунут в кэш и будут фигачить оттуда.

и да, чем больше подобных вывертов, тем сложнее отлаживать проц. тут с одной-то шиной умудряются насажать багов, которые потом патчат с провалами производительности. с двумя будет в квадрате больше багов.

Iron_Bug ★★★★★
(22.10.25 18:36:22 MSK)

Ответ на: комментарий от Iron_Bug 22.10.25 18:36:22 MSK

так инструкция-то одна. как ты в параллели будешь выполнять две последовательные инструкции

также, как и на пресловутых х86 начиная с первопней

madcore ★★★★★
(22.10.25 19:24:51 MSK)

Намешано. Ещё как может, есть к примеру векторные инструкции, и это не имеет никакого отношения к фоннеймановской или гарвардской архитектуре.

neumond ★★
(22.10.25 19:49:24 MSK)

Ответ на: комментарий от madcore 22.10.25 18:13:11 MSK

Ну я не электронщик, но судя по мануалу, M1 длится всего ~первые два такта, так что если использовать M1-ногу для чипселекта, то n будет выбираться уже из памяти данных, что логично, однако )
И да, подробностей не помню, но кажется это кто-то использовал в начале 80х, когда пытался делать то ли «рабочие станции», то ли довольно умные терминалы на Z80, но чем это закончилось - очевидно...

GAMer ★★★★★
(22.10.25 19:53:18 MSK)

Ответ на: комментарий от no2700 21.10.25 23:15:36 MSK

каким образом общая память программ и данных должна препятствовать быстродейсвию процессора

Очень просто. Больше данных гонять по общей шине. В гарвардской для кода выделенная шина. Не факт что это обязательно эффективно, скорее всего лучше банально добавить каналов в общую шину. В видеокартах похожие процессы были, закончилось унификацией шейдеров, они теперь могут работать на любом ядре, а не только своего типа, так эффективнее можно использовать железо.

Короче говоря, гарвардская довольно условно быстрее фоннеймановской, очень уж много разных если нужно добавлять.

neumond ★★
(22.10.25 19:55:37 MSK)

Ответ на: комментарий от Iron_Bug 22.10.25 18:36:22 MSK

так инструкция-то одна…

Тут не стоит уходить в суперскалярность и прочие навороты. фоннеймановская и гарвардская архитектуры были созданы много лет назад, можно сказать на заре развития вычислительной техники. То что используется сейчас в производительных системах они описывают весьма условно.

cobold ★★★★★
(22.10.25 20:07:11 MSK)

Ответ на: комментарий от Iron_Bug 22.10.25 18:36:22 MSK

все давно придумано :) Hyperthreading - одновременое выполнение двух, а то четырех инструкций на одном аппаратном проце, если онные инструкции используют разные функциональные модули процессора.

pfg ★★★★★
(22.10.25 20:38:11 MSK)

Источники пишут, что, якобы узкое место в том, что память и программы используют одну шину. Я не совсем это понимаю, ведь за один такт процессор все равно не может обрабатывать больше чем установленная разрядность (8, 32, 64), каким образом разделение программ и данных может «расширить» это значение?

Это всё устарело 40 лет назад. В настоящее время уже нет никакой там «фоннеймановской архитектуры», современная реализация такого устройства как «компьютер x86» в виде какого-нибудь ноутбука или сервера - это уже давно франкенштейн из кучи разных архитектур, применённых в неописуемой сложности комбинации таким образом, чтобы БЫЛО БЫСТРО. Там, где было медленно - там везде тупо взяли и ускорили, расширили шину, запрефетчили и прочее. Во что железо стоит, то и ускоряют. Это уже никакая там не «архитектура», это «как получилось, так получилось».

А что там может или не может сделать современный процессор за один такт можно вообще не заикаться, это уже давно всё закрытая инфа и что он там за такт делает можно понять только проведя 100500 исследований коллективом народу. А потом в новом микрокоде всё поменяют.

lesopilorama
(22.10.25 20:44:24 MSK)
Последнее исправление: lesopilorama 22.10.25 20:46:48 MSK (всего исправлений: 1)

Ответ на: комментарий от ya-betmen 22.10.25 14:05:52 MSK

удобнее было бы иметь намного менее толстые процы, но чтобы они сидели прямо рядом с хранилищем данных и могли доставать данные каждый себе без того чтобы гонять их через общую шину.

«Видеокарта» называют этот кусок железа щас.

lesopilorama
(22.10.25 20:45:42 MSK)

Ответ на: комментарий от Stanson 21.10.25 23:00:58 MSK

Гарвардская архитектура может одновременно записывать результат предудущей команды в память данных и читать следующую команду из памяти команд.

Как и любой современный проц с горы. И срал он на то, как эта архитектура называется. Он просто это делает, потому что «так можно было».

lesopilorama
(22.10.25 20:49:01 MSK)

Ответ на: комментарий от pfg 22.10.25 20:38:11 MSK

это-то понятно. вопрос с тем, как ты будешь разруливать доступы к памяти (fences) в процессе работы разных инструкций. в итоге, ты мало что выиграешь, на самом деле.

а так, компиляторы и так пытаются параллелить все части кода, которые можно распараллелить. и ещё есть parallel primitives от разных производителей процов, которые пытаются разработчикам в этом помочь.

Iron_Bug ★★★★★
(22.10.25 20:50:44 MSK)

Ответ на: комментарий от no2700 21.10.25 23:09:41 MSK

Главный концепт - это совместное хранение данных и программ, однотипная обработка данных и программ

Никто не понял, зачем разделять их физически, когда можно нарулить прав на сегменты памяти логически - этот кусок можно исполнять, сюда можно записывать, а это исполнять нельзя и можно только читать. Сделано в i80386 и зачатки были в 286. Ноги к процессору лишние припаивать ради такой тупой идеи, которая разруливается программно желающих психов не находится уже.

lesopilorama
(22.10.25 20:52:24 MSK)

Ответ на: комментарий от lesopilorama 22.10.25 20:45:42 MSK

Да, но на то чтобы засунуть данные в видимокарту их сначала нужно вынуть из хранилища и прогнать всё по той же шине.

ya-betmen ★★★★★
(22.10.25 20:53:48 MSK)
Последнее исправление: ya-betmen 22.10.25 20:53:56 MSK (всего исправлений: 1)

Ответ на: комментарий от pfg 22.10.25 20:38:11 MSK

все давно придумано :) Hyperthreading - одновременое выполнение двух, а то четырех инструкций на одном аппаратном проце, если онные инструкции используют разные функциональные модули процессора.

HT - это вроде бы просто маркетинговое название некой аппаратной реализации проца, когда догадались сделать побольше «фронтендов», выглядящих как отдельный проц, имеющих свой набор РЕГИСТРОВ и свой конвейер. Фронтенд декодировал инструкции, предсказывал переходы, планировал к исполнению на реальных исполнительных внутренних блоках ядра проца, разделяемых между несколькими фронтендами. Идея была нужна, потому что был длинный конвеер (31 шаг) в pentium 4 и когда проц ошибался в предсказании переходов, этот конвейер приходилось чистить и всё выкидывать и проц простаивал. Тогда прикрутили второй такой же конвейер - вероятность что будут ошибаться сразу два ниже, поэтому ядро проца удавалось загрузить сильнее. Но если НЕ ошибались оба, то была жопа. Но производительность одного ядра такой хрени проигрывала иногда даже Pentium-3 и AMD Athlon XP. Чтобы оно не проигрывало, надо было ещё наращивать частоту Pentium 4 (длинный конвейер был плох на низких частотах). А если растить частоту, оно начинало так греться как треш и угар. В итоге выкинули, пойдя по пути увеличения числа нормальных, но более медленных ядер - фича оказалась более профитной, чем HT.

lesopilorama
(22.10.25 21:01:16 MSK)
Последнее исправление: lesopilorama 22.10.25 21:04:44 MSK (всего исправлений: 2)

Ответ на: комментарий от ya-betmen 22.10.25 20:53:48 MSK

Да, но на то чтобы засунуть данные в видимокарту их сначала нужно вынуть из хранилища и прогнать всё по той же шине.

Ну линий PCI express может быть много заведено в видеокарту, можно достаточн обыстро в неё залить 128 гигов какого-то мяса. А дальше оно там лежит и новое лить долго не нужно. Кому нужно ещё жощще, у тех есть отдельные решения, про которые никто никогда не слышал из-за цены, редкости и специфичности. К ним туда даже оптический сигнал в ядро прямо заводят иногда.

lesopilorama
(22.10.25 21:03:06 MSK)
Последнее исправление: lesopilorama 22.10.25 21:20:53 MSK (всего исправлений: 1)

Ответ на: комментарий от GAMer 22.10.25 19:53:18 MSK

но кажется это кто-то использовал в начале 80х,

а как именно это можно использовать тогда?

madcore ★★★★★
(22.10.25 22:18:42 MSK)

Архитектура фон Неймана и «узкое горлышко» фон Неймана – это два не связанных друг с другом понятия. «Узкое горло» существует в любом компьютере, построенном по схеме «процессоры» - «шины» - «память», где за одну единицу времени по любой шине передаётся фиксированный объём данных, в подобных системах не имеет смысла делать процессор, который может обрабатывать за такт больше данных, чем может прийти. Кроме этого термин относится также к мышлению в терминах (абстрактных) компьютеров, которые умеют передавать только фиксированный объём данных в единицу времени.

buddhist ★★★★★
(23.10.25 01:49:04 MSK)

Ответ на: комментарий от lesopilorama 22.10.25 21:01:16 MSK

Причина появления ht не в ошибках предсказания ветвления, а в более широком желании более полно утилизировать имеющиеся в ядре исполнительные механизмы. Например один порт ожидает данных из кэша и следующие по потоку исполнения инструкции зависят от результата этого чтения, но другие порты могут чего-то полезного делать, например складывать

cobold ★★★★★
(23.10.25 02:53:11 MSK)

как по мне на вики сея проблема описана очень хорошо — прям так как и есть.

safocl ★★
(23.10.25 07:00:37 MSK)

Ответ на: комментарий от madcore 22.10.25 22:18:42 MSK

Разумно, в общем случае наверное никак, там же получается вся память в дырах, что код, что данные. И работать с этим неудобно, плюс, нужно будет городить менеджер памяти, чтобы как-то загружать код.

GAMer ★★★★★
(23.10.25 08:58:42 MSK)

Ответ на: комментарий от lesopilorama 22.10.25 21:03:06 MSK

Так у тебя всё равно выходят 2 копии данных, одна полезна одна бесполезная.

ya-betmen ★★★★★
(23.10.25 10:07:43 MSK)

Представь, что у тебя простая архитектура, где большинство инструкций занимает один такт. Ты считал инструкцию чтения/записи памяти и чтобы её исполнить тебе нужно ждать следующего такта для доступа памяти. Значит на следующем такте нельзя прочитать следующую инструкцию, значит любая инструкция доступа к памяти теперь реально требует двух тактов.

А если бы код и данные были на разных шинах, можно было бы инструкции доступа к памяти исполнять за один такт.

С современной конвейерной архитектурой ситуация не становится лучше, потому что ты не можешь подгружать новую инструкцию каждый такт даже если все остальные стадии конвейера справляются за один такт и предсказатель переходов не ошибается. Так как каждая инструкция доступа к памяти будет вызывать простой декодера инструкций, который является первой стадией любой инструкции (не получится распараллелить разные инструкции даже если они исполняются на независимых блоках), а также, как правило, без проблем реализуется за один такт.

При этом инструкции доступа к памяти одни из самых популярных в программах в отличии от какого-нибудь деления, с многотактовостью которого проще смириться.

KivApple ★★★★★
(23.10.25 13:07:27 MSK)
Последнее исправление: KivApple 23.10.25 13:14:17 MSK (всего исправлений: 4)

Ответ на: комментарий от cobold 23.10.25 02:53:11 MSK

Причина появления ht не в ошибках предсказания ветвления, а в более широком желании более полно утилизировать имеющиеся в ядре исполнительные механизмы.

В ошибках причина. А точнее, в ошибках на ДЛИННОМ конвейере, который был а P4. Именно в ошибках причина - когда была ошибка, конвейер чистили, а он был слишком длинный чтобы его чистить невозбранно. Хотелось чистить возбранно - так появился HT.

lesopilorama
(23.10.25 14:33:22 MSK)

Ответ на: комментарий от ya-betmen 23.10.25 10:07:43 MSK

Так у тебя всё равно выходят 2 копии данных, одна полезна одна бесполезная.

Одна долговременная, вторая кратковременная. А сколько копий всем вообще похрен, чем больше тем лучше - бекапчики все любят.

lesopilorama
(23.10.25 14:34:11 MSK)

Ответ на: комментарий от lesopilorama 23.10.25 14:34:11 MSK

Это не бакап, это именно бесполезная копия.

ya-betmen ★★★★★
(23.10.25 15:01:31 MSK)

Ответ на: комментарий от ya-betmen 23.10.25 15:01:31 MSK

Это не бакап, это именно бесполезная копия.

Бекап это. Полезная при отключении питания теряется.

lesopilorama
(23.10.25 20:30:39 MSK)

Я не совсем это понимаю, ведь за один такт процессор все равно не может обрабатывать больше чем установленная разрядность (8, 32, 64), каким образом разделение программ и данных может «расширить» это значение?

Чистый фон нейман и этого никогда не сможет.

sabacs
(25.10.25 10:36:53 MSK)

Ответ на: комментарий от lesopilorama 23.10.25 14:33:22 MSK

и да и нет :)
просто есть Одновременная многопоточность где аккурат нагружается несколько разных физических модулей процессора за один такт.
а есть Временная многопоточность когда при ошибках и задержках кеша происходит переход на другой ht-поток исполнения.
и чтото еще мудренннее :)

но к теме это не относится вааааще никагъ

кстати тут подумкалось а микроконтроллеры с прошивкой, подключенной снаружи через SPI, можно ли считать правоверно гарвардскими ?? :)
тут аккурат «шина программ» вытащена наружу, отдельно от памяти данных и прочего внутреннего бардака.

pfg ★★★★★
(26.10.25 21:57:38 MSK)
Последнее исправление: pfg 26.10.25 22:05:40 MSK (всего исправлений: 3)

Ответ на: комментарий от pfg 26.10.25 21:57:38 MSK

Всё так, «одновременная многопоточность» и «временная многопоточность». Просто когда у тебя для «одновременной многопоточности» уже надекодировалось много инструкций спекулятивно, а потом ты не угадал ветвление, то тебе жопа наступает, потому что ты делал бесполезное.

lesopilorama
(26.10.25 22:35:24 MSK)

Ответ на: комментарий от lesopilorama 26.10.25 22:35:24 MSK

ну «баш на баш» «повезло не повезло» :)
зато если повезло и ветвление удачно подгрузилось, то ускорение получаешь как пинком под зад !!

pfg ★★★★★
(26.10.25 23:26:08 MSK)

Ответ на: комментарий от pfg 26.10.25 23:26:08 MSK

Ну об этом и речь, но когда не повезло они грустили и думали как перестать грустить - и вот додумались до HT. Одна «голова» напредсказывает плохо, так может быть вторая хорошо напредсказывала…

lesopilorama
(27.10.25 00:30:36 MSK)

Похожие темы