Понимание широкой команды, VLIW

4

2

Лорчик, у меня тут вопрос возник, чисто теоретический.

Есть VLIW, архитектура e2k. Если посмотреть ассемблерный код, то команда там будет в фигурных скобках. Это и есть одна широкая команда.

Пример:

{
  nop 2
  istofd,3    %g17, %g18
}
{
  nop 7
  sdivs,5     %g17, %g16, %g16
}

В документации сказано, что одна такая широкая команда выполняется процессором за 1 такт. Справедливости ради, нужно заметить, что здесь ни слова про ядра. Просто сказано, что за один такт.

Дальше отсебятина, точнее «отменятина». Как бы суть-то широкой команды именно в том, чтобы распределить мелкие команды внутри этой широкой между ядрами процессора. Т.е. смысл фразы «за один такт» - это просто распараллеливание по ядрам.

Поскольку e2k не содержит жуткого блока предсказаний, как на обычном х86_64 и не умеет распаралеливать команды сам. За него это делает компилятор. Вот для этого и нужна эта широкая команда - компилятор распаралелил, перетасовал команды и сказал как их надо выполнить.

А теперь вот вопрсик в связи с этим. Получается, что прогу для e2k придется пересобирать для разных e2k процессоров с разным числом ядер?

Допустим прога собрана для Эльбрус 8С, у которого 8 ядер. Значит в фигурных скобках будет много команд. Т.е. широкая команда будет ну очень широкой, широчайшей прям! А запустится ли этот получившийся бинарник, скажем на 4С, у которого только 4 ядра? А на 1С? В смысле без пересборки.

Ссылка

← Как починить конфликт libicu на Ubuntu 18.04?

по разработке на Gtk+, с ютуба обучающие ролики посоветуйте, пожалуйста →

← 1 2 3 4 5 6 →

ответ с дивана

суть-то широкой команды именно в том, чтобы распределить мелкие команды внутри этой широкой между ядрами процессора

Не думаю что суть в этом. Не обязательно между ядрами распараллеливание будет.
Может между разными 'блоками'(ну там типа АЛУ, SSE и т.д.) процессора.

Bad_ptr ★★★★★
(31.07.20 07:31:16 MSK)

Ссылка

чтобы распределить мелкие команды внутри этой широкой между ядрами процессора

Нет, суть в том, чтобы распределить операции по модулям ядра. Это же суперскаляр, там несколько АЛУ.

no-such-file ★★★★★
(31.07.20 07:32:24 MSK)

Ответ на: комментарий от no-such-file 31.07.20 07:32:24 MSK

Окей, но на вопрос, по-моему, это не отвечает. Или внутри одного ядра всегда фиксированное число АПУ, что на 1С, что на 8С?

hibou ★★★★★
(31.07.20 07:57:57 MSK) автор топика

Ответ на: комментарий от hibou 31.07.20 07:57:57 MSK

Это, кстати, рождает больше вопросов, чем ответов. Получается, изменив число АПУ в будущем внутри одного ядра, они весь софт превратят в тыкву.

И тогда получается ещё больше непоняток, если командам нужны общие данные и они зависят друг от друга, как в этом случае их делят по именно по ядрам. Конкуренция за кэш и так далее. Короче, получается огромная ответственность лежит на компиляторе.

hibou ★★★★★
(31.07.20 08:08:09 MSK) автор топика

Ответ на: комментарий от hibou 31.07.20 07:57:57 MSK

внутри одного ядра всегда фиксированное число АПУ, что на 1С, что на 8С?

Разное. Но как на обычном х86_64 и не умеет распаралеливать команды сам - неверно. Обычный x86 хоть и имеет распараллеливатель, но он тупой. Компилятор всё равно должен тасовать команды под конкретный проц.

Суть идеи именно в том и заключается, что раз компилятор всё равно должен быть умным, то давайте ему дадим всю власть, а из проца эту затычку-шедулер выкинем.

no-such-file ★★★★★
(31.07.20 08:08:11 MSK)
Последнее исправление: no-such-file 31.07.20 08:17:22 MSK (всего исправлений: 2)

Ответ на: комментарий от hibou 31.07.20 08:08:09 MSK

если командам нужны общие данные и они зависят друг от друга, как в этом случае их делят по именно по ядрам

Ещё раз - по ядрам их не делят. Но да, есть такая проблема, что если нельзя загрузить все модули (зависимые вычисления и т.п.), то команда получается на 90% «пустая», плотность кода очень страдает.

Короче, получается огромная ответственность лежит на компиляторе

Именно. Я бы даже сказал, что нужно обязательно компилять с предварительным профилированием, иначе компилятору будет трудно на лету предсказывать переходы и т.п. статически. Ещё для jit тоже вкусные возможности открываются в теории.

no-such-file ★★★★★
(31.07.20 08:16:22 MSK)

Как бы суть-то широкой команды именно в том, чтобы распределить мелкие команды внутри этой широкой между ядрами процессора

В смысле? Пакет команд vliw - это про задействование разных исполнительных блоков внутри одного ядра.

devl547 ★★★★★
(31.07.20 08:20:20 MSK)

Ответ на: комментарий от devl547 31.07.20 08:20:20 MSK

Это мы поняли, выше объяснили. Осталось понять число исполнительных блоков внутри ядра одинаково или нет? Что будет если программа откомпилирована для большего числа блоков, запустится ли она на меньшем?

hibou ★★★★★
(31.07.20 08:34:41 MSK) автор топика

Ответ на: комментарий от hibou 31.07.20 08:08:09 MSK

Получается, изменив число АПУ в будущем внутри одного ядра, они весь софт превратят в тыкву.

Да.

если командам нужны общие данные и они зависят друг от друга, как в этом случае их делят по именно по ядрам

Не понял. Если речь про команды одного процесса, которые выполняются на одном ядре, то, очевидно, что распаралеллить их на разные EU не получится, откуда и берутся nop'ы в стартопосте, EU оказываются незадействованы, производительность далека от теоретического пика (который они везде гордо указывают). И то, что в фигурных скобках — это одна команда, и в кэше она целиком лежит. поэтому и конкуренции за кэш между EU нету.

gremlin_the_red ★★★★★
(31.07.20 08:40:52 MSK)

Ответ на: комментарий от hibou 31.07.20 08:34:41 MSK

число исполнительных блоков внутри ядра одинаково

В рамках одной микроархитектуры - да.
Но никто не гарантирует, что в следующей модели процессора число устройств не изменится в любую сторону.

Что будет

Если код скомпилен под большее число устройств, чем есть на проце - то не взлетит с invalid instruction.

Если под меньшее - есть варианты.

devl547 ★★★★★
(31.07.20 08:46:23 MSK)
Последнее исправление: devl547 31.07.20 08:47:24 MSK (всего исправлений: 1)

Ответ на: комментарий от devl547 31.07.20 08:46:23 MSK

Благодарю за ответ! Еще бы подкрепить ссылками на документацию. И было бы совсем хорошо. :-)

hibou ★★★★★
(31.07.20 08:54:55 MSK) автор топика

Ответ на: комментарий от hibou 31.07.20 08:54:55 MSK

ссылками на документацию

https://www.intel.ru/content/www/ru/ru/products/docs/processors/itanium/itani...

gremlin_the_red ★★★★★
(31.07.20 09:10:55 MSK)

Ссылка

Ответ на: комментарий от hibou 31.07.20 08:34:41 MSK

Что будет если программа откомпилирована для большего числа блоков, запустится ли она на меньшем?

Встречный вопрос, а если программа откомпилирована для большего числа регистров, запустится ли она на меньшем?

gremlin_the_red ★★★★★
(31.07.20 09:12:25 MSK)

Ссылка

Ответ на: комментарий от gremlin_the_red 31.07.20 08:40:52 MSK

производительность далека от теоретического пика (который они везде гордо указывают).

Почему бы им не указывать? Про интель недавно на эту тему было обсуждение. Так там вообще кровавый SIMD, а тут типа любые инструкции.

no-such-file ★★★★★
(31.07.20 09:12:36 MSK)

Ссылка

Ответ на: комментарий от hibou 31.07.20 07:57:57 MSK

Или внутри одного ядра всегда фиксированное число АПУ, что на 1С, что на 8С?

Во 1-х, это за такт на 1 ядре, ты прикинь синхронизировать между ядрами, какая будет частоты при этом

В новых моделях число исполнительных блоков всё больше, хотя некоторые сохраняют их число

I-Love-Microsoft ★★★★★
(31.07.20 09:51:18 MSK)

Ссылка

И еще другая тема. Компилятор видимо еще не совсем доработан под Эльбрус.

Поскольку в ассемблерных листингах, которые генерирует lcc, внутри широкой команды обычно по 2-3 инструкции. Это означает, что блоки внутри ядра недогружены. Так, например, Эльбрус 1С за один такт может выполнить 25 команд. Ключевое слово «может». А исполняет 2-3.

Какое же здесь быстродействие?

hibou ★★★★★
(31.07.20 09:56:25 MSK) автор топика

Ответ на: комментарий от hibou 31.07.20 09:56:25 MSK

Какое же здесь быстродействие?

«Ещё один всё понял»©®™

gremlin_the_red ★★★★★
(31.07.20 09:57:41 MSK)

Ответ на: комментарий от hibou 31.07.20 09:56:25 MSK

может выполнить 25 команд

В циклах, но только 9 идут в АЛК и кодируются 6 инструкциями, то есть если ты видишь 2-3 инструкции с АЛК на линейном коде, то это 33-50% загрузка ядра. Эльбрус не такой широкий как его рекламируют.

Современные x86 шире (Zen2 — 11 портов), но загрузить их возможно только кратковременно, когда reservation station заполнен разнообразными независимыми операциями (шлём привет SMT) ожидающими результатов длительных операций с одинаковым временем готовности.

anonymous
(31.07.20 10:44:00 MSK)

Ответ на: комментарий от gremlin_the_red 31.07.20 09:57:41 MSK

Это не твой вирт? Мне кааца вы оба нихрена не поняли ))) Но я не защищаю компилятор

В листинге отображается обычно не только команды, но и строки исходного кода. Вот на это бы посмотреть

Выше аноним верно указал, видно разбирается, я конечно мало что понимаю, но то что блоки разных типов существуют - это нужно понимать (прежде чем критиковать), и если действие требует не FPU а какого то иного, то загружены быть могут только блоки нужных типов. А другие только если у них есть задания

I-Love-Microsoft ★★★★★
(31.07.20 10:52:26 MSK)
Последнее исправление: I-Love-Microsoft 31.07.20 10:57:20 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от anonymous 31.07.20 10:44:00 MSK

9 идут в АЛК

Поправочка. 10 включительно до Э4С и 12 для Э8С.

anonymous
(31.07.20 11:11:40 MSK)

Ответ на: комментарий от anonymous 31.07.20 11:11:40 MSK

Спасибо! А где об этом можно почитать?

hibou ★★★★★
(31.07.20 11:13:15 MSK) автор топика

Ответ на: комментарий от hibou 31.07.20 11:13:15 MSK

В книге 3 глава и приложения 3-6.

anonymous
(31.07.20 11:26:22 MSK)

Ссылка

можно вынести следующее: на таких процессорах очень полезно иметь JIT.

max_lapshin ★★★★★
(31.07.20 12:42:21 MSK)

Там не по количеству ядер, а по количеству АЛУ в ядре. С ненулевой вероятностью придётся.

Dark_SavanT ★★★★★
(31.07.20 15:31:21 MSK)

Ссылка

Ответ на: комментарий от max_lapshin 31.07.20 12:42:21 MSK

Но написать этот jit будет очень больно и сложно.

Dark_SavanT ★★★★★
(31.07.20 15:31:53 MSK)

Ссылка

Ответ на: комментарий от hibou 31.07.20 09:56:25 MSK

cast @alexanius

Dark_SavanT ★★★★★
(31.07.20 15:35:08 MSK)

Не придётся. Есть ISA, и на её основе строится процессор. Тот код, который ты написал - это не последовательность команд в высокоуровневом языке, это ассемблер, однозначно транслируемый в машинный код. Варианты построения команды в машинном коде строго ограничены архитектурой, которая одинакова у обоих процессоров (несмотря на возможные внутрение различия).

Puzan ★★★★★
(31.07.20 16:36:25 MSK)

Ссылка

По E2K лучше спрашивать тут https://t.me/e2k_chat

anonymous
(31.07.20 17:37:19 MSK)

Ссылка

Ответ на: комментарий от Dark_SavanT 31.07.20 15:35:08 MSK

В ответе будет и повторение того что написано выше, но всё-же.

В документации сказано, что одна такая широкая команда выполняется процессором за 1 такт.

А можно ссылочку на эту фразу? Потому что это просто не так - команда запускается на конвейер за один такт, а вот результат каждой инструкции в ШК будет готов за другое время (иначе в инструкциях nop не было бы смысла).

Как бы суть-то широкой команды именно в том, чтобы распределить мелкие команды внутри этой широкой между ядрами процессора.

В ШК нельзя указывать ядро процессора (даже при желании штука неосуществимая). В ней указывается только номер исполняющего устройства на ядре.

Получается, что прогу для e2k придется пересобирать для разных e2k процессоров с разным числом ядер?

Нет, т.к. см. выше.

Если попытаться угадать суть вопроса, то ситуация будет следующая. Каждый процессор реализует конкретную версию СК (системы команд). С течением времени в ней может меняться количество исполняющих устройств и добавляться новые инструкции, что может вызвать некоторые трудности. Тем не менее все изменения проделываются так чтобы сохранялась прямая бинарная совместимость. Например, коды, собранные для Эльбрус-4С будут работать и на Эльбрус-8С и на Эльбрус-8СВ. Но при этом коды собранные для Эльбрус-8СВ на Эльбрус-4С уже не заработают по понятным причинам - обратная совместимость не поддерживается.

При желании можно собирать всё в generic режиме, и почти наверняка такой код заработает на любой эльбрусовской машине, но при этом он не будет задействовать потенциал конкретной машины. Например, дистрибутив собирается под каждую конкретную архитектуру.

Окей, но на вопрос, по-моему, это не отвечает. Или внутри одного ядра всегда фиксированное число АПУ, что на 1С, что на 8С?

В конкретном примере - да, но в общем случае см. выше.

Благодарю за ответ! Еще бы подкрепить ссылками на документацию. И было бы совсем хорошо. :-)

Совсем недавно выложили хорошую документацию, рекомендую. Старую книгу указали в комментах выше.

И еще другая тема. Компилятор видимо еще не совсем доработан под Эльбрус.

Компилятор разрабатывается только под Эльбрус (ну и немного под Спарк).

Поскольку в ассемблерных листингах, которые генерирует lcc, внутри широкой команды обычно по 2-3 инструкции. Это означает, что блоки внутри ядра недогружены. Так, например, Эльбрус 1С за один такт может выполнить 25 команд. Ключевое слово «может». А исполняет 2-3.

В циклах, но только 9 идут в АЛК и кодируются 6 инструкциями, то есть если ты видишь 2-3 инструкции с АЛК на линейном коде, то это 33-50% загрузка ядра. Эльбрус не такой широкий как его рекламируют.

Эльбрус гораздо шире чем пытается представить комментатор. Во-первых Эльбрус содержит 6 универсальных АЛУ, но они нужны только для обычных вычислений (арифметика, обращения в память). Помимо этого в отдельных устройствах вычисляются логические значения, производится асинхронная подкачка массивов и подготовка передачи управления. Подробнее можно почитать тут.

У ТС код получился довольно разреженный, но это очень зависит от характера задачи, т.к. просто далеко не все задачи можно раскидать на параллельные вычисления. Но тут ко всему прочему неплохо бы посмотреть на сам исходник и опции сборки, т.к. это оказывает сильное влияние

можно вынести следующее: на таких процессорах очень полезно иметь JIT.

Да, это довольно актуальная задача, но пока что никем не решённая (были наработки для Итаниума, но их результат не особо впечатляет)

alexanius ★★
(31.07.20 22:42:11 MSK)

Ответ на: комментарий от alexanius 31.07.20 22:42:11 MSK

Пользуясь случаем. На вики для Э16С написано следующее:

Аппаратная поддержка динамической оптимизации

Счётчики для JIT? JIT для машкода/C/C++ или только для Java/JS/etc?

Это вы (МЦСТ) заполняете страниц на вики?

anonymous
(31.07.20 23:10:18 MSK)

Ответ на: комментарий от hibou 31.07.20 09:56:25 MSK

Зависит от задачи, если взять серьёзную задачу с малым количеством зависимостей между командами, то загруз будет достойный, то же матричное умножение или какое-нибудь декодирование может быть весьма приятно развёрнуто, то же касается банальной развёртки циклов и прочих, но если алгоритм будет очень последовательным или ветвистым, то к сожалению будет по сути тоже, что и на x86 который начнёт кушать по одной инструкции с сбросом конвеера.

AKonia ★★★
(31.07.20 23:44:47 MSK)

nop 2

nop 7

провал vliw-а уже в первом посте, неплохо

anonymous
(01.08.20 00:40:38 MSK)

Ссылка

Ответ на: комментарий от AKonia 31.07.20 23:44:47 MSK

взять серьёзную задачу с малым количеством зависимостей между командами, то загруз будет достойный, то же матричное умножение или какое-нибудь декодирование

так и запишем, серьёзные задачи это только шейдеры из игрушек

anonymous
(01.08.20 00:53:27 MSK)

Ответ на: комментарий от anonymous 31.07.20 23:10:18 MSK

Счётчики для JIT? JIT для машкода/C/C++ или только для Java/JS/etc?

Для любого машкода, т.е. с прицелом на C/C++. В Java это и так давно реализовано.

Это вы (МЦСТ) заполняете страниц на вики?

Нет (возможно отдельные сотрудники по личной инициативе)

alexanius ★★
(01.08.20 01:09:30 MSK)

Ответ на: комментарий от alexanius 31.07.20 22:42:11 MSK

Благодарю за развёрнутый ответ!

Скажите пожалуйста, а опкоды (opcode) команд под Эльбрус можно где-то взять?

hibou ★★★★★
(01.08.20 10:37:32 MSK) автор топика

Ответ на: комментарий от hibou 01.08.20 10:37:32 MSK

Скажите пожалуйста, а опкоды (opcode) команд под Эльбрус можно где-то взять?

Уже где-то обсуждали. Пока что только брать lcc и реверсить выхлоп. В открытом доступе нет и видимо не предвидится.

Dark_SavanT ★★★★★
(01.08.20 11:10:30 MSK)

Ссылка

Ответ на: комментарий от alexanius 01.08.20 01:09:30 MSK

с прицелом на C/C++

На какой это стадии? Есть замеры?

Пожалуйста дай развёрнутый ответ «JIT для произвольного машкода». Как собираете статистику? Как решаете, что надо перепланировать/переоптимизировать? Кешируете ли результаты работы JIT? Помимо счётчиков, если ли ещё что-то для облегчения/ускорения работы JIT? Может какие-то спец. прерывания?

anonymous
(01.08.20 12:07:34 MSK)

Ссылка

Ответ на: комментарий от anonymous 01.08.20 00:53:27 MSK

это только шейдеры из игрушек

Так они даже там зафейлились, после чего AMD сначала понизили ширину с VLIW5 до VLIW4, а потом от собственно чистого VLIW отказались.

devl547 ★★★★★
(01.08.20 12:11:42 MSK)

Ссылка

Ответ на: комментарий от max_lapshin 31.07.20 12:42:21 MSK

на таких процессорах очень полезно иметь JIT.

Трансмета машет рукой из гроба)

devl547 ★★★★★
(01.08.20 12:12:20 MSK)

Ответ на: комментарий от devl547 01.08.20 12:12:20 MSK

Трансмета машет рукой из гроба)

И Nvidia Denver/Denver2/Carmel c их DCO.

anonymous
(01.08.20 12:18:52 MSK)

Ссылка

Ответ на: комментарий от no-such-file 31.07.20 08:08:11 MSK

Обычный x86 хоть и имеет распараллеливатель, но он тупой. Компилятор всё равно должен тасовать команды под конкретный проц.

Продай свой пентиум ммх в музей и купи уже пентиум 2. Или АМД к6. Или cortex a9. Будет уметь тасовать команды сам, без помощи компилятора. Говорят, современные процессоры до нескольких сотен инструкций в очереди держат, а ты о расстановке команд компилятором под нагрузку АЛУ. Что толку их расставлять, если первый же доступ к памяти, который промахнется мимо кэша первого уровня, должен либо остановить всё исполнение до готовности данных (случай процессора без ooo), либо собьёт весь хитрый порядок команд?

Собственно поэтому Эльбрус и мертворожденный проект, VLIW тупо не подходит под систему с непредсказуемыми задержками.

khrundel ★★★★
(01.08.20 12:51:32 MSK)

Ответ на: комментарий от devl547 01.08.20 12:12:20 MSK

мне вот даже жаль, что я когда-то продал свой безвентиляторный ноут на трансмете.

max_lapshin ★★★★★
(01.08.20 13:24:37 MSK)

Ответ на: комментарий от khrundel 01.08.20 12:51:32 MSK

Собственно поэтому Эльбрус и мертворожденный проект, VLIW тупо не подходит под систему с непредсказуемыми задержками.

Плюс нет ресурсов, чтобы создать под него нормальный компилятор. Что бы там человек с квадратными колёсами ни говорил.

anonymous
(01.08.20 14:42:19 MSK)

Ответ на: комментарий от max_lapshin 01.08.20 13:24:37 MSK

мне вот даже жаль

С исторической точки зрения - да.
С практической - девайсы были уж очень никакими по производительности. Жаль, что с софтовой частью и апдейтами CMS было не очень. Заопенсорсили бы - сообщество бы выжало всё что можно из JITа)

devl547 ★★★★★
(01.08.20 14:48:28 MSK)

Ответ на: комментарий от devl547 01.08.20 14:48:28 MSK

А нативного онтопика под трансмету не было?

greenman ★★★★★
(01.08.20 16:23:10 MSK)

Ответ на: комментарий от khrundel 01.08.20 12:51:32 MSK

Будет уметь тасовать команды сам

Не будет. Конвеер не резиновый. Компилятор же видит весь код.

no-such-file ★★★★★
(01.08.20 16:41:27 MSK)

Ответ на: комментарий от anonymous 01.08.20 14:42:19 MSK

Плюс нет ресурсов, чтобы создать под него нормальный компилятор. Что бы там человек с квадратными колёсами ни говорил.

Тактически все верно. У «нас» опыта разработки процессоров нет, зато куча кодеров. Наверное на это и был расчет, упросить логику в кремнии и пытаться выжать максимум силами программистов.

Aber ★★★★★
(01.08.20 16:46:05 MSK)

Ответ на: комментарий от Aber 01.08.20 16:46:05 MSK

Ну как бы да, но есть один побочный эффект. Если тупо взять и перекомпилять условный «ffmpeg» обмазанный SIMD интрисниками, то результат будет такой себе. Т.о. нужно оптимизировать специально под Эльбрус. И так чего не коснись. Т.е. конкретные задачи, если очень надо, то решать можно и даже вполне эффективно, но весь мир всё-таки не перепишешь.

no-such-file ★★★★★
(01.08.20 16:53:24 MSK)
Последнее исправление: no-such-file 01.08.20 16:53:35 MSK (всего исправлений: 1)

Ответ на: комментарий от no-such-file 01.08.20 16:53:24 MSK

Т.е. конкретные задачи, если очень надо, то решать можно и даже вполне эффективно, но весь мир всё-таки не перепишешь.

Да там даже boost coroutine2 не смогли портировать.

anonymous
(01.08.20 17:27:40 MSK)

Ответ на: комментарий от anonymous 01.08.20 17:27:40 MSK

Поскольку нет реализаций jump_fcontext() и make_fcontext(), без которых оно не работает.

anonymous
(01.08.20 17:29:06 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 5 6 →

← Как починить конфликт libicu на Ubuntu 18.04?

Development

по разработке на Gtk+, с ютуба обучающие ролики посоветуйте, пожалуйста →

ответ с дивана

Похожие темы