Производительность сигнальных процессоров

0

1

Часто вижу в описаниях сигнальных процессоров такие характеристики как 64 MAC за такт, даже 256 MAC за такт для разных форматов операндов. Объясните, как достигается такая производительность, хочу понять насколько это может заменить мне ПЛИС, к которым я прирос, и быть может уже неадекватно оцениваю возможности DSP

В то же время я вижу что ширина команды она небольшая, ну там 32-64 бита, как оно может запланировать выполнение 256 MAC за такт?

Я правильно понимаю что DSP обладает широченным интерфейсом к своей встроенной статической памяти, и может по типа SIMD, одним махом взять данные для всех 256 входов пары операндов, выполнить умножение и положить обратно 256 результатов? Вся суть именно в выполнении такого рода действий, которые будут разбавлены медленными относительно одиночными операциями типа переходы по циклам и так далее?

Просто много однообразных действий, одинаковых, над данными, лежащими в ряд? Всё верно понимаю?

Ссылка

← jq создать массив json из отдельных строк

Реверс -инжиниринг и поиск метаданных PDF в бинарнике →

Просто много однообразных действий, одинаковых, над данными, лежащими в ряд? Всё верно понимаю?

Там комплекс факторов, влияющих на производительность, начиная с классических архитектур © (wikipedia.org)
с улучшайзерами типа DSM © (wikipedia.org)
и до пока ещё экзотических optical computing © (wikipedia.org).

quickquest ★★★★★
(04.08.21 13:09:10 MSK)

Ссылка

В принципе верно понимаешь. Это ведь верно в целом и для ПЛИС и для видеокарт - вешание «на такт» всё бОльшего и бОльшего количества «приборов», срабатывающих за этот такт.

~~kilokolyan~~
(04.08.21 15:21:18 MSK)

Ответ на: комментарий от kilokolyan 04.08.21 15:21:18 MSK

Говорится что это делается за 1 такт. Мое предположение, что это действительно делается за 1 такт только лишь потому что приняв в очередь на исполнение, оно потом готово принять новые данные. За 1 такт, но latency будет например 5-10 тактов

Примерно как в ПЛИС FFT ядро готов принимать всё новый и новый семпл на каждый такт, но данные будут получены через сотни тактов, ибо latency конвейера

I-Love-Microsoft ★★★★★
(04.08.21 20:32:24 MSK) автор топика

Ответ на: комментарий от I-Love-Microsoft 04.08.21 20:32:24 MSK

Примерно как в ПЛИС FFT ядро готов принимать всё новый и новый семпл на каждый такт, но данные будут получены через сотни тактов, ибо latency конвейера

В некоторых случаях latency конвейера можно уменьшить впихнув в 1 такт несколько слоёв жёсткой логики , при условии, что переходные процессы мультислоя меньше 1 такта.

Такой финт работает, например, в однородных сетях типа © (myshared.ru): мультислой – логические кружочки между тактируемыми регистрами-квадратиками © (wordpress.com).

quickquest ★★★★★
(05.08.21 12:50:50 MSK)