Персональные компьютеры Эльбрус-401 готовы к серийному производству

Ответ на: комментарий от uin 07.01.17 15:57:12 MSK

Просто атом тормозной, у всех рейтинг ядра (1CPU MIPS) соответствует их частоте, а у атома он при частоте 1600мгц 1000MIPS, у эльбруса просто 4 ядра а у атома 2 поэтому он его и обогнал. Будь там ILP обогнал бы как на шифровании

Нет всё же я прав. Посмотри на рейтинг ядра, Э-4С остал от D2500 на ~18% при разнице в тактовой частоте более чем в 2 раза. Доступом в память можно пренебречь, т. к. оба последовательные. Что означает, что ILP почти в два раза больше, чем то что может показать D2500.

numas13 ★
(07.01.17 16:05:50 MSK)

Ответ на: комментарий от Dark_SavanT 07.01.17 16:00:21 MSK

А вот кстати вопрос чисто из любопытства: как будут чувствовать себя байткод с JIT на VLIW? как я по-нубски понимаю, им несколько проще в работе набивать маш.слово командами, поскольку есть известная статистика по вероятности ветвлений. Типа сначала долго греемся, набираем информацию для планировщика, потом более-менее полно можем набивать маш. слово командами.

JIT хорошо подойдёт для любой архитектуры, хотя его влияние на VLIW будет заметнее, чем на ООО.

numas13 ★
(07.01.17 16:07:19 MSK)

Ссылка

Ответ на: комментарий от numas13 07.01.17 15:53:09 MSK

64 Кб хватит всем? (:

640КБ. И увеличивается с каждым новым процессором - прогресс никто не отменял.

Если их делать code-driven то в чём разница между обычным процессором?

В цене. Меньше кэша, нет MMU, нет ОС общего назначения (как на микроконтроллере - в плотном цикле крутится небольшая программа).

tailgunner ★★★★★
(07.01.17 16:08:10 MSK)

Ответ на: комментарий от Dark_SavanT 07.01.17 16:02:48 MSK

Но пока DSP на оптических элементах не видел.

Попытки есть.

quickquest ★★★★★
(07.01.17 16:10:53 MSK)

Ответ на: комментарий от tailgunner 07.01.17 16:08:10 MSK

640КБ.

А да, прошу прощения.

И увеличивается с каждым новым процессором - прогресс никто не отменял.

Но что ты будешь делать с МК, в котором 10 ALU, а для решения поставленной задачи надо 20 ALU? У тебя нет возможности изменить МК, он уже на рынке.

В цене. Меньше кэша, нет MMU, нет ОС общего назначения (как на микроконтроллере - в плотном цикле крутится небольшая программа).

А теперь нам для решения задачи, понадобилось больше памяти, чем есть в МК. Ваши действия? Это тупик.

numas13 ★
(07.01.17 16:12:39 MSK)

Ответ на: комментарий от rechnick 07.01.17 15:59:54 MSK

Просто VLIW позволяет делать дешёвые быстрые вычисление
Это почти определение DSP.
Я не специалист, но мне кажется, что это полная чушь. Любой спор превращается в спор о терминах.
DSP = Цифровой сигнальный процессор

Да. Они отличаются большой производительностью на узком классе задач и при этом дешевизной относительно процессоров общего назначения, выдающих аналогичную производительность. Т.е. дешево и быстро, но дешевизна за счет меньшей универсальности.

По-вашему, если процессор может за один такт вычислить точку кривой безье, то его можно назвать DSP?

Не знаю. С кривыми Безье мне сталкиваться не приходилось.

tailgunner ★★★★★
(07.01.17 16:14:56 MSK)

Ответ на: комментарий от quickquest 07.01.17 16:10:53 MSK

Круто.

Dark_SavanT ★★★★★
(07.01.17 16:15:56 MSK)

Ссылка

Ответ на: комментарий от numas13 07.01.17 16:12:39 MSK

Но что ты будешь делать с МК, в котором 10 ALU, а для решения поставленной задачи надо 20 ALU? У тебя нет возможности изменить МК, он уже на рынке.

А теперь нам для решения задачи, понадобилось больше памяти, чем есть в МК. Ваши действия?

Minion core имеет доступ к памяти хоста. И у меня несколько minion cores (десяток-два) с быстрым интерконнектом, поэтому первое, что я сделаю - попробую организовать поточную обработку. Если производительности не хватит - значит, задачу невозможно решить на данных аппаратных средствах.

Это тупик.

Серебряной пули не существует. Точно так я могу сказать «а если у тебя прошивка не умещается в FPGA - что ты будешь делать? FPGA уже на рынке».

tailgunner ★★★★★
(07.01.17 16:26:12 MSK)
Последнее исправление: tailgunner 07.01.17 16:26:31 MSK (всего исправлений: 1)

Ответ на: комментарий от tailgunner 07.01.17 15:46:33 MSK

Такой ситуации не будет. И для музыки, и для видео уже сейчас достаточно мощности ЦП.

4k 8k ?

uin ★★★★
(07.01.17 16:36:08 MSK)

Ответ на: комментарий от uin 07.01.17 16:36:08 MSK

И для музыки, и для видео уже сейчас достаточно мощности ЦП.
4k 8k ?

256k? 1024k?

tailgunner ★★★★★
(07.01.17 16:38:08 MSK)

Ссылка

Ответ на: комментарий от tailgunner 07.01.17 16:26:12 MSK

Minion core имеет доступ к памяти хоста. И у меня несколько minion cores (десяток-два) с быстрым интерконнектом, поэтому первое, что я сделаю - попробую организовать поточную обработку. Если производительности не хватит - значит, задачу невозможно решить на данных аппаратных средствах.

Но мы говорим про CPU + довесок разные специализированных устройств.

Проблема заключается в фрагментации производительности по разным устройствам. Кто будет решать, сколько бюджета выделить каждому из устройств? Что если суммарная мощность достаточна, но из-за фрагментации это всё на разных устройствах? Нам писать десяток программ которые будут сообща решать проблему? В случае относительно универсального CPU такой проблемы могло бы не стоять, мы могли бы задействовать доп. ядро, или если этот бюджет потрачен на это ядро, то вся производительность и так имеется, а не размазана по МК. По-этому я и считаю данное направление тупиком.

Серебряной пули не существует. Точно так я могу сказать «а если у тебя прошивка не умещается в FPGA - что ты будешь делать? FPGA уже на рынке».

Серебряной пули нет, я не питаю на этот счёт никаких иллюзий. Но я однозначно вижу очевидный факт, что двигаться необходимо в сторону относительно универсальных вычислителей, таких как ООО или VLIW. Просто у ООО предел ниже чем у VLIW. Но VLIW тоже, рано или поздно, а может даже и без воплощения (сразу перескочим) уйдёт в прошлое.

numas13 ★
(07.01.17 16:38:29 MSK)

Ответ на: комментарий от numas13 07.01.17 16:38:29 MSK

Но мы говорим про CPU + довесок разные специализированных устройств.

Я привел ссылку на то, о чем говорю.

Кто будет решать, сколько бюджета выделить каждому из устройств? Что если суммарная мощность достаточна, но из-за фрагментации это всё на разных устройствах?

Не вижу, как VLIW избавляет тебя от необходимости отвечать на этот вопрос.

я однозначно вижу очевидный факт, что двигаться необходимо в сторону относительно универсальных вычислителей, таких как ООО или VLIW

Ну, значит, ты визионер. Потому что я этого факта не вижу (и не знаю, кто еще его видит).

tailgunner ★★★★★
(07.01.17 16:45:37 MSK)

Ответ на: комментарий от numas13 07.01.17 16:38:29 MSK

Есть еще аналоговые «вычислительные системы». Например, точка кривой Безье, да и вся кривая, за один такт вообще не проблема :)

vada ★★★★★
(07.01.17 16:48:36 MSK)

Ссылка

Ответ на: комментарий от tailgunner 07.01.17 16:14:56 MSK

Кривая безье это лишь пример. Суть сообщения в другом – с какой стати вы любое сложное вычисление называете DSP?

rechnick ★★★
(07.01.17 16:52:32 MSK)

Ответ на: комментарий от tailgunner 07.01.17 16:45:37 MSK

tailgunner
Я привел ссылку на то, о чем говорю.

Значит ты, как и Нитро, ведёшь монолог.

numas13
Раньше так и делали, привело это к чрезмерному усложнению аппаратуры, а потом был предложен MIPS. Проблема такого подхода, заключается в том, что в итоге у нас будет такая ситуация. Хочешь музыку полушать, купи такой процессор, хочешь видео посмотреть, купи этот процессор. Обновлять такие процессоры вообще нельзя, их прийдёться выкидывать, т. к. они морально устареют. Это тоже тупик.

------

Не вижу, как VLIW избавляет тебя от необходимости отвечать на этот вопрос.

Всё очень просто. VLIW может быть неограниченно (в разумных пределах) широким, ООО не может (падает производительность при низком ILP, из-за падения тактовых частот), для обеспечения хорошей работы при высоком ILP. Из-за простоты реализации, проще чем ООО, он может быть хорош в вычислениях при низком ILP, т. к. в этом случае в основном решает тактовая частота. Про память я уже не однократно говорил. В итоге, ширина VLIW определяется необходимой тактовой частотой, мы имеем все плюсы.

numas13 ★
(07.01.17 16:53:31 MSK)

Ответ на: комментарий от rechnick 07.01.17 16:52:32 MSK

с какой стати вы любое сложное вычисление называете DSP?

Я не могу ответить на этот вопрос, потому что я не называю DSP любое сложное вычисление.

«A digital signal processor (DSP) is a specialized microprocessor (or a SIP block), with its architecture optimized for the operational needs of digital signal processing

...

The architecture of a digital signal processor is optimized specifically for digital signal processing. Most also support some of the features as an applications processor or microcontroller, since signal processing is rarely the only task of a system.»

Не знаю, где в моих словах ты нашел «любое сложное».

tailgunner ★★★★★
(07.01.17 16:57:42 MSK)

Ответ на: комментарий от numas13 07.01.17 16:53:31 MSK

Значит ты, как и Нитро, ведёшь монолог.

А мне кажется, монолог вел ты.

VLIW может быть неограниченно (в разумных пределах) широким

Ну, хотя бы ты понимаешь, что и у VLIW есть пределы.

tailgunner ★★★★★
(07.01.17 16:59:12 MSK)

Ответ на: комментарий от tailgunner 07.01.17 16:59:12 MSK

А мне кажется, монолог вел ты.

Но ведь я предложил об этом поговорить, а ты ушел от темы?

Ну, хотя бы ты понимаешь, что и у VLIW есть пределы.

Как и у всего в этом мире. (:

numas13 ★
(07.01.17 17:01:28 MSK)

Ответ на: комментарий от tailgunner 07.01.17 16:57:42 MSK

Зачем тогда называть сабж DSP? Ради красного словца?

rechnick ★★★
(07.01.17 17:03:08 MSK)

Ответ на: комментарий от numas13 07.01.17 17:01:28 MSK

Но ведь я предложил об этом поговорить, а ты ушел от темы?

После

numas13> мы говорим про CPU + довесок разные специализированных устройств.

можно уверенно сказать, что ты говоришь только о своем.

tailgunner ★★★★★
(07.01.17 17:05:55 MSK)

Ответ на: комментарий от rechnick 07.01.17 17:03:08 MSK

Зачем тогда называть сабж DSP?

Покажи, пожалуйста, где я назвал сабж «DSP». Я подозреваю, что там будет еще кое-что.

tailgunner ★★★★★
(07.01.17 17:07:31 MSK)

Ссылка

Ответ на: комментарий от tailgunner 07.01.17 17:05:55 MSK

После того, как ты начал уходить от предложенной темы.

numas13 ★
(07.01.17 17:08:31 MSK)

Ответ на: комментарий от numas13 07.01.17 17:08:31 MSK

ты начал уходить от предложенной темы.

Извини, что я не поддержал выступление на тему «Нас спасет VLIW. Может быть.».

tailgunner ★★★★★
(07.01.17 17:12:47 MSK)

Ссылка

Ответ на: комментарий от numas13 07.01.17 15:24:34 MSK

Потому, что нужна ШИРИНА. In-order такой же тупик, как и ООО. Раньше мы передвигались на телегах, но потом они устарели. Понимаешь аналогию?

ну дык по вашей логике примитивный широкий декодер без ООО должен же быть лучше более узкого сложного декодера с ООО? а никто почему-то такое не применяет...

NiTr0 ★★★★★
(07.01.17 17:15:40 MSK)

Ответ на: комментарий от torvn77 07.01.17 15:39:54 MSK

да потому, что в современных процах 8МБ кеша занимают больше транзисторов, чем 4 сложных ядра.

не, можно конечно огораживаться костылями, но в итоге получится все тот же эльбрус - вроде как и с 100500 попугаев в синтетике, но на реальных задачах тормозной из-за низких частот и ущербной архитектуры.

NiTr0 ★★★★★
(07.01.17 17:17:45 MSK)

Ссылка

Ответ на: комментарий от Dark_SavanT 07.01.17 15:51:17 MSK

дык никому умному такой онанизм не нужен. потому и не выпускают.

NiTr0 ★★★★★
(07.01.17 17:18:27 MSK)

Ответ на: комментарий от NiTr0 07.01.17 17:18:27 MSK

А вот на hexagon есть порт Linux.

tailgunner ★★★★★
(07.01.17 17:19:47 MSK)

Ответ на: комментарий от NiTr0 07.01.17 17:15:40 MSK

ну дык по вашей логике примитивный широкий декодер без ООО должен же быть лучше более узкого сложного декодера с ООО?

Да. Вот смотри, ООО на каждом такте делает работу, которую в VLIW компилятор делает 1 раз. Да мы теряем в динамике, но приобретаем в ширине, может производитель больше вычислений. У нас нет сложной логики планировщика, мы либо экономим на тепловыделении, либо добавляем АЛУ. У нас нет критических путей планировщика, проще разгонять тактовую частоту. Пока скажи, почему Intel не делает процессы с 8 оп/такт? Почему во время работы SMT, поток получает половину ядра? Это свидетельство ограничений планировщика. Опять же, какой сложности планировщик можно сделать, если у нас ограничение на 200 пикосекунд? Мы можем увеличить конвейер, тогда возрастает стоимость промахов, что мы и наблюдаем в x86, стоимость промахов в Skylake от 16-20 тактов. В довесок нам достался сложный CISC, Skylake может декодировать до 16 байт в такт. Intel очень дорожит обратной совместимостью, именно по этому мы имеем CISC x86, который внутри RISC.

а никто почему-то такое не применяет...

Потому, что эта отрасль очень дорогая. Что если ты ошибёшься как Intel с Itanium? Ты будешь банкротом. Intel гигант в этой отрасли, они один раз рискнули, и прогорели, но они могут себе это позволить.

numas13 ★
(07.01.17 17:28:31 MSK)

Ответ на: комментарий от numas13 07.01.17 16:53:31 MSK

Всё очень просто. VLIW может быть неограниченно (в разумных пределах) широким, ООО не может (падает производительность при низком ILP, из-за падения тактовых частот)

а что, у широкого VLIW будут высокие частоты? пока что история таких примеров не знает.

и да, вон те же пайлдрайверы вполне себе 8+ГГц дуют при разгоне, при том что у них 4-wide ООО декодер. на 28нм, да. к тому же у свежих интелов по мере роста вширь исполнительных блоков и декодере той же ширины понижается макс.частота, не смотря на техпроцесс (скайлейк до частот сэнди бриджа навряд погонится, при том что сэнди был 32нм, а скайлейк - 14нм).

Из-за простоты реализации, проще чем ООО, он может быть хорош в вычислениях при низком ILP, т. к. в этом случае в основном решает тактовая частота.

вот только это будут 2 разных проца - один широкий, но тормозной, второй - узкий, но быстрый. а тактовая частота опять же упирается в ширину VLIW...

NiTr0 ★★★★★
(07.01.17 17:30:25 MSK)

Ответ на: комментарий от tailgunner 07.01.17 17:19:47 MSK

порты-то есть. на с64х тоже есть. но никто не использует как ЦП. ибо ненужно.

NiTr0 ★★★★★
(07.01.17 17:31:17 MSK)

Ответ на: комментарий от NiTr0 07.01.17 17:31:17 MSK

Если кто-то сделал порт, если Qualcomm выпустил в открытый доступ гипервизор - наверное, это всё же нужно. Я даже понимаю, зачем.

tailgunner ★★★★★
(07.01.17 17:34:34 MSK)

Ответ на: комментарий от numas13 07.01.17 17:28:31 MSK

Да мы теряем в динамике, но приобретаем в ширине, может производитель больше вычислений.

угу, и теряем в частоте...

Потому, что эта отрасль очень дорогая. Что если ты ошибёшься как Intel с Itanium? Ты будешь банкротом. Intel гигант в этой отрасли, они один раз рискнули, и прогорели, но они могут себе это позволить.

ок, возьмем ARM. почему не-ООО там только младшие бюджетные/экономичные ядра? при том, что ООО внедрили не так давно - каких-то лет 5-6 назад. наверное, поняли же, что тупая in-order молотилка бесполезна?

NiTr0 ★★★★★
(07.01.17 17:35:51 MSK)

Ответ на: комментарий от NiTr0 07.01.17 17:30:25 MSK

а что, у широкого VLIW будут высокие частоты? пока что история таких примеров не знает.

Всё зависит от конкретной реализации, к примеру можно делать кластерный VLIW (но не тот, что в Эльбрус, на уровне архитектуры он без кластера). Но к сожалению, как ты сказал, история не видела таких процессоров, вся надежда на будущее. Но, повторю, не на Эльбрус, тот ещё фрукт.

и да, вон те же пайлдрайверы вполне себе 8+ГГц дуют при разгоне, при том что у них 4-wide ООО декодер. на 28нм, да. к тому же у свежих интелов по мере роста вширь исполнительных блоков и декодере той же ширины понижается макс.частота, не смотря на техпроцесс (скайлейк до частот сэнди бриджа навряд погонится, при том что сэнди был 32нм, а скайлейк - 14нм).

Опять же, ООО тоже может быть кластерный, но ты не сделаешь кластерный планировщик, эту задачу не решить в рантайме.

Даже на фоне Эльбруса, что такое 4 против 11 (16-18 смотря как считать). Опять таки, Эльбрус не самый удачный пример VLIW. Itanium тоже, он ближе к ООО, чем к классическому VLIW.

вот только это будут 2 разных проца - один широкий, но тормозной, второй - узкий, но быстрый. а тактовая частота опять же упирается в ширину VLIW...

Как я выше написал, VLIW даёт больше пространства для манёвра. При кластерной реализации его ширина больше выглядит как ядра в ядре, с интерконнектом в пару тактов.

numas13 ★
(07.01.17 17:37:48 MSK)

Ответ на: комментарий от tailgunner 07.01.17 17:34:34 MSK

ну разве что в какой-то камере/фотике, чтобы не ставить отдельно ЦП и отдельно DSP, и не нанимать дорогих кодеров (все же связать DSP + CPU кодом сложнее, чем наговнякать на универсальный DSP-CPU варь на линуксе).

NiTr0 ★★★★★
(07.01.17 17:38:11 MSK)

Ссылка

Ответ на: комментарий от numas13 07.01.17 17:37:48 MSK

Даже на фоне Эльбруса, что такое 4 против 11 (16-18 смотря как считать). Опять таки, Эльбрус не самый удачный пример VLIW. Itanium тоже, он ближе к ООО, чем к классическому VLIW.

Нет всё же в ООО тоже можно сделать кластерным, но с классическим ограничением кластера 2-8 оп/такт.

numas13 ★
(07.01.17 17:40:54 MSK)

Ссылка

Ответ на: комментарий от NiTr0 07.01.17 17:35:51 MSK

ок, возьмем ARM. почему не-ООО там только младшие бюджетные/экономичные ядра? при том, что ООО внедрили не так давно - каких-то лет 5-6 назад. наверное, поняли же, что тупая in-order молотилка бесполезна?

Потому, что RISC != VLIW. Последовательный RISC делает 1 оп/такт. VLIW делает 2+ оп/такт, он по-умолчанию суперскаляр, такой же как ООО, только планировщик в компиляторе.

numas13 ★
(07.01.17 18:48:04 MSK)

Ответ на: комментарий от numas13 07.01.17 16:05:50 MSK

Посмотри на рейтинг ядра

Но ведь million instructions per second же

Как бы там нибыло но для атома почему то преведены показатели 1000 mips для одного ядра и 1823 mips для двух ядер, что говорит о том что атом в этом тесте в среднем меньше одной инструкций за такт делает (много тактов стоит ждет, слабая подсистема памяти может), либо в таблице какие то неправельные цифры, например в той самой статье с CNews у Core i7-2600 другие цифры и рейтинг ядра например так же соответствует частоте:
http://filearchive.cnews.ru/img/zoom/2014/05/21/i4_7z.jpg

(Э4C тут 700mhz)
http://filearchive.cnews.ru/img/zoom/2014/05/21/l16_7z.jpg

Либо у автора с хабра i7-2600 работает на пониженной частоте, либо он его точно с гипертредингом гонял, хотя прироста это похоже не так много дало, особенно при сжатии.

uin ★★★★
(07.01.17 20:07:05 MSK)
Последнее исправление: uin 07.01.17 20:07:47 MSK (всего исправлений: 1)

Ответ на: комментарий от anc 07.01.17 06:29:21 MSK

Вы простите из какого поколения? Ядреный щит был в СССР, его пролюбил на радость сшп еще «пятнистый». И только ненадо тут опять рассуждать на тему «какая охренительная тополь с буквой М».

Посмеялась =)

totik ★
(07.01.17 20:18:58 MSK)

Ссылка

Ответ на: комментарий от uin 07.01.17 20:07:05 MSK

Как бы там нибыло но для атома почему то преведены показатели 1000 mips для одного ядра и 1823 mips для двух ядер, что говорит о том что атом в этом тесте в среднем меньше одной инструкций за такт делает

Это нормально, когда задача связана с доступом в память. При кеш промахе D2500 и Эльбрус простаивает, пока не прийдут данные. i7 же в этот момент может выполнить что-то, что рядом с местом промаха.

1000 MIPS означает (далее мы будет пренебрегать тем, что он суперскаляр), что почти половину времени он провёл в ожидании данных из памяти, ошибках ветвления, или прочего. Естественно в многопоточном режиме ты не получишь линейный рост производительности, что и видно из результата.

Эльбрус показывает 800 MIPS, но он работает на том же алгоритме. Кеш промахов у него такое же кол-во, то есть он проставает так же примерно половину времени (1: и опять же, пренебрегаем разницей в скорости доступа) (2: так же это задача сводится к стримингу памяти, что не критично к алгоритму вытеснения кеш лайнов) (3: работа со словарём, если словарь большой, то метод вытеснения может повлиять, если тут есть какие-то замечания, по уточнению, буду рад принять их к сведению). Но из-за широты и/или подготовленных переходов (одним словом из-за лучшей архитектуры) он быстро нагоняет D2500. Вот и получается, что Эльбрус почти в 2 раза эффективней (на ядро, архитектура) на этой задаче, т.к. тактовая частота ниже более чем в 2 раза. Можно предположить, что на двое большей частоте он будет показывать почти в двое больший результат. С ростом тактовой частоты, всё сильнее влияние стоимости доступа в память. Представь абстрактный процессор, который выполняет любое кол-во операций за 1 такт, этот процессор будет работать со скоростью доступа к памяти. Ты же знаешь известное, процессор работает со скоростью самого медленного компонента? Вот когда задержки в других компонентах уменьшаются, то процент от общей времени медленного компонента растёт.

numas13 ★
(07.01.17 20:43:43 MSK)

Ссылка

Ответ на: комментарий от mbivanyuk 07.01.17 14:13:44 MSK

Что ставит под сомнение возможность применения этих ПК даже в качестве офисных печатных машинок...

На видео можно убедиться, что как офисный комп он вполне работает.

frost_ii ★★★★★
(07.01.17 20:46:49 MSK)

Ответ на: комментарий от Dark_SavanT 07.01.17 13:47:22 MSK

...нормальных тестов, типа linpack, openssl

Речь шла про офисное применение. Тесты линпак и прочее проскакивали ещё в древние времена здесь же, на ЛОРе. Учитывая, что они реализованы на прилагаемой либе, результат получается высокий. Но это не офисное применение - МЦСТ производит 1U серваки в стоку, для счётных нужд.

Хотя для счёта матлибы стоило бы ещё расширить. Счёт не вся жизнь, но ниша бы оказалась шире.

frost_ii ★★★★★
(07.01.17 20:54:05 MSK)

Ответ на: комментарий от numas13 07.01.17 13:29:42 MSK

тут сложно придумать что-то более эффективное.

В своё время из-за разных алгоритмов работы с памятью у Интела и Амд наблюдалась чувствительность производительности системы к разным характеристикам памяти. Предположу, что в данном случае хотя бы из-за недостатка опыта дела обстоят ещё хуже. Поэтому вариант ограничения по работе с памятью рассматривал как возможный.

Кроме того. При переходе 2-4 наблюдался прирост частоты 60% (500-800), 4-8 опять 60% (800-1300). а вот для 8-16 как-то застопорился. Будто в потолок упёрлись.

получился каким-то жирным

Да, им бы не помешало разобраться в транзисторах - выход годных чипов увеличился бы в разы, что тоже очень на руку компании. Спасибо за наводку ;-)

frost_ii ★★★★★
(07.01.17 21:05:07 MSK)
Последнее исправление: frost_ii 07.01.17 21:06:10 MSK (всего исправлений: 3)

Ссылка

Ответ на: комментарий от numas13 07.01.17 18:48:04 MSK

Потому, что RISC != VLIW. Последовательный RISC делает 1 оп/такт.

ARM ядра вообще-то давно уже суперскалярные... начиная с cortex a7.

VLIW делает 2+ оп/такт, он по-умолчанию суперскаляр, такой же как ООО, только планировщик в компиляторе.

угу, пентиум 1 тогда был тоже ООО только планировищк в компиляторе...

NiTr0 ★★★★★
(07.01.17 21:36:48 MSK)

Ответ на: комментарий от atrus 07.01.17 13:53:52 MSK

Клоны, не клоны, но микрухи усе наши были и схемы наши. И производство наше.
А вообще на эту тему я уже ответил Персональные компьютеры Эльбрус-401 готовы к серийному производству (комментарий)

anc ★★★★★
(07.01.17 21:39:24 MSK)

Ответ на: комментарий от tailgunner 06.01.17 14:24:24 MSK

Да. Или ты предсказуемо решил...

За отстутсвием представления о реальном положении дел ты строишь свой вымышленный мир.

Итак. По послднему годовому финансовому отчёту Алмаз-Антей занял 51 место по объёму экспорта среди всех компаний РФ. За исключением Казахстана и Белоруссии поставки произведены в 9 стран (как и в предыдущем году), причём выручка возросла на 344,6%. Как минимум известно, что 400-е поставляются в Индию и Китай.

Сделка с Ираном была оплачена ещё при первопутине, а поставка произведена из неведомо откуда добытого старья. Поэтому в отчёт она не попала.

Притом не я завёл разговор об этой военной истории, которая мне лично неинтересна чуть более чем полностью. Хотя бы можно было увидеть что-то для себя новое или в крайнем случае соответствующее действительности.

Не знаю. Там может быть и Э-3М1...

А как же «интел продадут»? Может с того и стоило начинать, что «не знаю» и «возможно»?

По мне так успешная компания, давно кооперирующаяся с МЦСТ, выдвинула требования для своего круга задач и получила изделие. Откуда берутся деньги на финансирование проекта - привёл выше, и это уже не вполне «бюджет и налоги». Как известно - кто платит, тот и заказывает. Офис в Эльбрусе получился на сдачу. «Кризиса» нам и вовсе не видать ИМХО. Как минимум до тех времён, пока какая-то из отечественных ИТ компаний не займёт хотя бы 52 строчку среди экспортёров. Не уверен, что это случится при моей жизни. Видимо у нас оборонщики всё же получше программистов.

Посему я предполагаю, что и дальнейшее развитие Эльбрусов как направления будет идти в основном для удовлетворения специфических требований основного платящего заказчика. Также возможно, что публике когда-нибудь достанутся в оптимизированных либах функции моделирования нейросетей, эволюционных алгоритмов, реализации МКР/МКЭ и прочих вычислительных задач, что опять же важно, но очень далеко от запросов офисных масс.

frost_ii ★★★★★
(07.01.17 22:01:49 MSK)
Последнее исправление: frost_ii 07.01.17 22:05:13 MSK (всего исправлений: 3)

Ответ на: комментарий от anc 07.01.17 21:39:24 MSK

А вообще на эту тему я уже ответил

Фиговый это ответ. Благодаря давности лет мы уже знаем что там было на самом деле. Не «скопировали и пошли развивать дальше», а «скопировали и пошли копировать новое по новой». Свои разработки заворачивали, потому что их развивать надо, а западное - просто копируй, да копируй.

atrus ★★★★★
(07.01.17 22:26:03 MSK)

Ответ на: комментарий от frost_ii 07.01.17 22:01:49 MSK

У тебя с памятью совсем плохо?

Не знаю. Там может быть и Э-3М1...
А как же «интел продадут»?

Интел продадут для моделирования ЯО.

Может с того и стоило начинать, что «не знаю» и «возможно»?

Ты начал вот с этого:

frost_ii> они болезные не в курсе. Эльбрусы какие-то лажовые закупают. А потом перепродают всяким иностранцам

А сейчас ты снова пытаешься перевести разговор на С-500, которая только в разработке и никуда не продается.

Откуда берутся деньги на финансирование проекта - привёл выше, и это уже не вполне «бюджет и налоги»

И этот источник - мифические продажи С-500. Окей.

Посему я предполагаю, что и дальнейшее развитие Эльбрусов как направления будет идти в основном для удовлетворения специфических требований основного платящего заказчика.

А я предполагаю, что этот заказчик останется единственным. И своих денег у него нет - только государственные.

Также возможно, что публике когда-нибудь достанутся в оптимизированных либах функции моделирования нейросетей, эволюционных алгоритмов, реализации МКР/МКЭ и прочих вычислительных задач

«Возможно» - в смысле «не противоречит законам физики».

tailgunner ★★★★★
(07.01.17 22:45:19 MSK)

Ссылка

Ответ на: комментарий от atrus 07.01.17 22:26:03 MSK

Похоже вы меня не поняли, я писал про любые области и не только про 20-й век. И если уж уходить за грань электроники, то как не крути и у нас западом тоже много натырено было во второй половине 20-го века.
А так да, все эти шпионские схемы (промышленный шпионаж) та еще тема, была есть и будет есть. Я еще от деда слышал (он с гостелерадио тогда работал), там достаточно забавные истории были, как через кучу стран и подставных фирм изделие привозят, а в коробке благодарственное письмо на имя министра что-то типа «спасибо что выбрали продукцию нашей фирмы»

anc ★★★★★
(07.01.17 22:49:20 MSK)

Ссылка

Ответ на: комментарий от NiTr0 07.01.17 21:36:48 MSK

ARM ядра вообще-то давно уже суперскалярные... начиная с cortex a7.
угу, пентиум 1 тогда был тоже ООО только планировищк в компиляторе...

Так, ладно, давай попробуем с другой стороны.

Представь себе альтернативную вселенную.

Intel выпускает Skylake, но это не обычный Skylake.

Загрузчик кода расширен, чтобы загружать ШК. L1i расширен, чтобы хранить больше кода.
Вместо сложного x86 декодера, у него декодер ШК. Проще из-за более простого кодирования инструкций чем в CISC. Стадий конвейера стало меньше. Так же мы избавились от буфера декодированных инструкций и буфера циклов.
Планировщик вынесен в компилятор. Мы избавились от логики планировщика и буфера внеочерёдного исполнения. Конвейер стал короче, ошибки предсказателя стали дешевле.
Наши 8 портов исполнения превратились в 4 кластера. Мы просто раскидали доступные в Skylake исполнители, по характеру работы, критические пути стали короче.
- Кластер целочисленных операций. Теперь у нас есть доступ ко всем 180 регистрам, которые раньше были скрыты от нас. К примеру, теперь мы можем эффективно реализовать SHA-3, и нам не надо заниматься порнографией с xmm/ymm регистрами для хранения состояния. В этом кластере у нас 4 порта, которые могут выполнять арифметико-логические операции. 2 порта могут выполнять переходы.
- Кластер доступа в память. Состоит из 3 портов, 2 из них чтение, 1 запись. Адреса считываются из целочисленного регистрового файла, результат в зависимости от назначения.
- Кластер векторных операций. По аналогии с целочисленным кластером, мы получили доступ ко всем скрытым 168 векторным регистрам (можно изменить это число, для сокращения сохраняемого состояния). Состоит из 3 портов, которые выполняют операции над FP и векторами. 2 из них могут выполнять операции операндами которых являются регистры из целочисленного кластера, для этого потребовалось добавить 2 порта чтение в целочисленный RF.
- Кластер предикатных операций, он новый в нашем процессоре. 4 канала (операции над bool). Этот кластер обладает регистровым файлов на 32 предиката. Предикаты используются для условного исполнения.
Была добавлена аппаратная поддержка программной конвейеризации циклов. Это незначительное улучшение позволяет избавится от вставки пролога/эпилога для циклов. Незначительно затронуло конвейер кластеров.
Предсказатель ветвлений остался.
Предзагрузчик данных тоже остался.
К сожалению мы избавились от SMT.
Тактовая частота понизилась, теперь процессор не может работать на 8 ГГц, предел 6 ГГц.
Мы избавились от legacy!
Микрокод не трогали.

После проведения всех изменений IPC вырос с 4 до 14 (операций куда больше). При сохранении, а может даже снижении сложности схемы.

Можно было бы оставить 8 портов, но я решил гнать до конца. Так же хочу заметить, я не занимался проектированием ISA и вообще я угораю.

numas13 ★
(07.01.17 22:56:37 MSK)

Ответ на: комментарий от atrus 07.01.17 22:26:03 MSK

А сегодня предлагают еще лучше - купить ARM, Cortex-A57... а потом снова купить но уже Cortex-A75, а через еще 3 года купить следующий.
Или купить лицензии на armv7 vfp4 neon2 и сделать процессор самим, изготовить маски под него, а потом купить лицензии на armv8 vfp5 neon3, перелопатить/доработать и снова изготовить маски, а потом...

uin ★★★★
(07.01.17 22:59:56 MSK)

Похожие темы