LINUX.ORG.RU

Первое ознакомительное видео про ноутбук на Арм64 из андроид-тв приставки.

 


5

2

http://sega007.ddns.net:7021/files/noute.mp4

https://youtu.be/MCzPjtTRyMk

Как работает загрузчик в следующих сериях.

>>> Просмотр (4032x2780, 1762 Kb)

★★★★

Проверено: Harald ()

Ответ на: комментарий от devl547

У амд был один банальный маркетинговый развод.

FPU ненужОн

Скорее gpu не нужен, а fpu вместо него. Для такого нужна гораздо более тесная интеграция гетерогенных ядер и низкоуровневый доступ к ним, а не opencl.

общая память

Тормозная даже для их кукурузного фуфыкса, не то, что для видоядер. Общая-не общая это уже на этом фоне особо не важно.

Есть маааааленькая такая проблема - все эти широкие AVX жрут как ни в себя

В видеокартах так и сделано - risc simd. Так что жрёт как должно, просто видеокарты не кукурузят на 5ггц, чтоб офигеть, какой там жор будет.

Zyy ()
Последнее исправление: Zyy (всего исправлений: 3)
Ответ на: комментарий от Zyy

У амд был один банальный маркетинговый развод.

Нет, они вполне реально добились качественной работы в общей памяти и показывали великолепные результаты в собственной синтетике. амд-оптимизированные игрушки (DA:I, других не слышал) на apu шли примерно так же, как на десктопной игровой нвидии с тепловыделением в 3-5 раз больше.

Вот только никому не упёрлось переписывать всё под новую задумку не-интела и все эти apu так и остались работать в режиме эмуляции pci видеокарты.

Тормозная даже для их кукурузного фуфыкса

В видеокартах не память принципиально быстрее, там каналов дохрена больше. Они так и пишут, «у нас эквивалент частоты 5Ггц», а не «частота 5Ггц».

kirill_rrr ★★★★★ ()
Ответ на: комментарий от kirill_rrr

Нет, они вполне реально добились качественной работы в общей памяти

Что у тебя значит «качественной работы в общей памяти»? У любой встройки и так общая память с процессором. Память дискретных карт тоже напрямую доступна процессору, пусть и через медленную шину. Что амд нового сделало, кроме маркетинговых заявлений?

показывали великолепные результаты в собственной синтетике

Я щас в своей синтетике тоже что угодно нарисую))) Как там другой регистрант писал, «заменить fpu» opencl не выйдет, fpu это интегрированный сопроцессор, задействуется напрямую из основного потока команд, а отдельное ядро с шаренной памятью это принципиально тормознее и более ограничено, тем более там нужно дёргать драйвер на каждый чих.

амд-оптимизированные игрушки (DA:I

Там mantle был. Да и в любом случае это ничего не доказывает, из достаточно большой выборки игр +-половина быстрее на амд, половина на нвидии.

в режиме эмуляции pci видеокарты

Что-что, простите?

В видеокартах не память принципиально быстрее, там каналов дохрена больше. Они так и пишут, «у нас эквивалент частоты 5Ггц», а не «частота 5Ггц».

Что-то ты фигню сморозил. Количество каналов само по себе ничего не даёт. Они дают повышение пропускной способности, то есть, скорости памяти.

Zyy ()
Последнее исправление: Zyy (всего исправлений: 2)
Ответ на: комментарий от Zyy

Что амд нового сделало, кроме маркетинговых заявлений?

Вот хотя бы то, как mantle показала себя на моём ноуте в DA:I. Мягко говоря непривычно когда встройка на ноуте перестаёт уступать дискретной nvidia 560ti, уходящей на взлёт и охлаждаемой аэрозольным распылителем.

И вообще, за счёт чего бы если не за счёт оптимального доступа к памяти, 3 низкочастотных ядра встройки могли на равных соперничать с 6 ядрами дискретки с большей частотой, большим теплопакетом и своей собственной выделенной видеопамятью в примерно каждой второй игре на DX или OpenGL? А вот в майнинге всё резко менялось, 6 ядер были ровно в 2,5 раза быстрее чем 3.

Но… Не прижилось. Вскоре появился вулкан и об технологиях не от нвидии или интела все забыли.

kirill_rrr ★★★★★ ()
Ответ на: комментарий от Zyy

а отдельное ядро с шаренной памятью это принципиально тормознее и более ограничено, тем более там нужно дёргать драйвер на каждый чих.

Вот не обязательно. Если всё считать на одном ядре, пусть даже с низкой задержкой, то 1 команду оно конечно сделает быстрее, а вот если собрать пакет из 1000 команд и отдать их одной транзакцией на исполнение сопроцессору, а в это время продолжить выполнять что то другое… Тут результат совершенно очевиден. Главное не забывать, что эта штука требует оптимизации и внимательного отношения.

+-половина быстрее на амд, половина на нвидии.

На проценты, максимум треть. А тут был просто нереальный рывок. Даже 3 года и 1 ступень по техпроцессу в пользу моего ноута даже близко не сопоставлялись с ростом эффективности. Можно конечно предположить, что амд убедило сделать игру с настолько хреновой оптимизацией для всех кроме кучки амдшников…

Что-что, простите?

А общая память apu никак не вписывалась в классические api графики. В том и проблема, что получить доступ надо было каким то хитрым специальным способом.

Количество каналов само по себе ничего не даёт. Они дают повышение пропускной способности, то есть, скорости памяти.

Так всётаки ничего не даёт или повышает пропускную способность памяти? Просто мне кажется очевидным, что через 2 канала можно пропихнуть в 2 раза больше данных чем через 1.

kirill_rrr ★★★★★ ()
Ответ на: комментарий от kirill_rrr

Вот хотя бы то, как mantle показала себя на моём ноуте

за счёт чего бы если не за счёт оптимального доступа к памяти

Да у тебя там процессорная часть кукурузная являлась боттлнеком, а mantle снижало процессорный оверхед. Интел проц+амд дискретка были бы быстрее и без mantle небось.

560ti

Это же ферми, мемный позор нвидии уровня пня4 и фуфыкса.

Вскоре появился вулкан

Вулкан это и есть mantle с доработками. Mantle до прям настоящей низкоуровневости далеко всё равно.

1 команду

Одну команду в реальных задачах и процессорах никто не выполняет.

а вот если собрать пакет из 1000 команд и отдать их одной транзакцией на исполнение сопроцессору, а в это время продолжить выполнять что то другое… Тут результат совершенно очевиден

Не очень понял, что тебе очевидно, но когда ядро нагружено, оно как раз и исполняет «бесконечный» пакет инструкций, и ему в общем-то насрать одно там этими инструкциями делается, или другое(если не считать кэшмиссов). Если для обращения к fpu на уровне отдельных инструкций нужно было бы обращаться к другому ядру - синхронизация заняла бы больше времени, чем сами вычисления, ядра бы тупо простаивали. Так что на практике как раз вычисляют длинные «пакеты» инструкций и стараются синхронизировать ядра как можно меньше. Если в ядре нет fpu - таких крупных пакетов бы не вышло.

А общая память apu никак не вписывалась в классические api графики.

И каким же образом? На тот момент в опенгл давно можно было мапить память и задавать хинты её использования.

Так всётаки ничего не даёт или

Это ты сам определись, ты же писал что память не быстрее, а каналов больше. Можно подумать, сама циферка количества каналов что-то там даёт, а не повышение пропускной способности.

Zyy ()
Последнее исправление: Zyy (всего исправлений: 1)
Ответ на: комментарий от Zyy

Да у тебя там процессорная часть кукурузная являлась боттлнеком, а mantle снижало процессорный оверхед.

Именно! Интел наверное был бы быстрее, особенно имея 14нм против 32 или 28 в лучшем случае.

синхронизация заняла бы больше времени, чем сами вычисления, ядра бы тупо простаивали.

И тем не менее, пытаться исполнить работу пары сотен сопроцессоров на цпу, да ещё и в одном потоке чтобы не дёргать все эти синхронизации и задержки, почему то давным давно никому в голову не приходят. Почему то всем очевидно, что даже близко не получится.

сама циферка количества каналов что-то там даёт

Сама циферка даёт почти линейный множитель на проопускную способность. Так что уже давно выгодней наращивать число каналов а не гнать частоту. Это настолько очевидно, что никто уже не заявляет что их видеопамять это 8 каналоа по 625Мгц, они указывают эквивалени 5Ггц.

kirill_rrr ★★★★★ ()
Ответ на: комментарий от kirill_rrr

работу пары сотен сопроцессоров … почему то давным давно никому в голову не приходят

Не знаю-не знаю, что там у тебя за сотня сопроцессоров, но на практике даже всякие aes, sha, RDRAND вcтраивают прямо в ядро на уровне команд.

Это настолько очевидно

Не знаю-не знаю, на дешёвых видеокартах как раз 1-2канала, и память там быстрее только благодаря QDR и частоте.

Zyy ()
Ответ на: комментарий от Zyy

но на практике даже всякие aes, sha, RDRAND вcтраивают прямо в ядро на уровне команд.

А графические сопроцессоры, число ядер которых уже давно считается сотнями и которые именно что дёргаются с цпу и получают команды на некие операции? Почему никто не считает графику этими замечательными векторными инструкциями на современных цпу прямо в общем непрерывном потоке команд?

на дешёвых видеокартах как раз 1-2канала, и память там быстрее только благодаря QDR и частоте.

В затычках, кторые обычно 1/8 или 1/16 от старшей видеокарты? Да, вероятно так и есть. Ну так они обычно и работают на уровне интеграшки, ограниченной двухканальной оперативкой.

kirill_rrr ★★★★★ ()
Ответ на: комментарий от kirill_rrr

число ядер которых уже давно считается сотнями

Да это махинации с подсчётом ядер.

Почему никто не считает графику

Считают, разумеется. Но для каждой задачи свой инструмент. Для отрисовки рабочего стола, например, и проц сойдёт.

они обычно и работают на уровне интеграшки

Да не, и в тех, которые побыстрее интеграшки бывает то же самое.

Zyy ()
Последнее исправление: Zyy (всего исправлений: 2)
Ответ на: комментарий от Zyy

Для отрисовки рабочего стола, например, и проц сойдёт.

Разработчики современного десктопа с вами не согласны. Правда у них чего то обычно тормозит…

Но это не меняет факта: если объём работ чуть возрастает, то уже выгодней выпихнуть их из потока цпу куда нибудь. И если работы много тем лучьше, если этобудет вообще не цпу.

Да не, и в тех, которые побыстрее интеграшки бывает то же самое.

Так не намного побыстрее. А так да, пусть те же 2 канала, зато свои, выделенные и оптимизированные. Ну и частоты можно приподнять чтобы карта выглядела приличней.

kirill_rrr ★★★★★ ()
Последнее исправление: kirill_rrr (всего исправлений: 1)
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)