Свободная графика для RISC-V

Ответ на: комментарий от anonymous 07.02.21 12:43:37 MSK

Не в фуджитсе разработали дополнительный набор инструкций, а ARM в рамках ARMv8-A

сколько кто в процентах разрабатывал не знаю

In addition, we worked on the specification of Scalable Vector Extension (SVE) as a lead partner of Arm Limited, the result of which has been adopted

Кроме того предлагаю попробовать ответить на вопрос засчет чего в топ500 набиваются основные флопсы. Я бы предположил, что голые флопсы там идут из ГПУ, а вовсе не от ЦПУ.

Fugaku на первом месте и у него нет никаких дополнительных GPU

anonymous
(07.02.21 12:56:30 MSK)

Ответ на: комментарий от anonymous 07.02.21 12:56:30 MSK

Fugaku на первом месте и у него нет никаких дополнительных GPU

А вот тут будут:
- https://arstechnica.com/gadgets/2019/05/cray-amd-to-build-1-5-exaflops-superc...
- https://venturebeat.com/2019/03/18/intel-claims-aurora-will-be-the-first-u-s-... (если таки выпустят)

anonymous
(07.02.21 12:59:36 MSK)

Ответ на: комментарий от anonymous 07.02.21 12:43:37 MSK

но проигрывают по энергоэффективности

В том-то и дело, что x86 *выигрывает* по энергоэффективности. И при этом рвет в клочья кукурузный арм.

anonymous
(07.02.21 12:59:48 MSK)

Ответ на: комментарий от anonymous 07.02.21 12:59:36 MSK

А вот тут будут

инфа из комиксов не интересует

anonymous
(07.02.21 13:02:25 MSK)

Ответ на: комментарий от anonymous 07.02.21 12:59:48 MSK

По IPC интеловские ядра начали сливать ядрам от яббла еще в 2017-2018 годах. Это было не так заметно, тк на десктопе/сервере павер енвелоп не так ограничен, как в мобильном сегменте и благодаря лидерству в техпроцессе можно было кочегарить ядра на 5+ггц.
Яблочный M1 весьма хорош.
А вот AVX модуль, который жрет дофига места и павера на кристалле и редко когда бывает нужен по-настоящему(тут лучше Линуса послушать) я бы и правда перестал всюду пихать.

anonymous
(07.02.21 13:05:25 MSK)

Ответ на: комментарий от anonymous 07.02.21 13:02:25 MSK

Ох, Вася, ну давай я это сделаю разок за тебя:

Here is a brief rundown of current top 10 systems:

- Fugaku remains at the top spot, growing its Arm A64FX capacity from 7,299,072 cores to 7,630,848 cores. The additional hardware enabled its new world record 442 petaflops result on HPL. This puts it three times ahead of the number two system in the list. Fugaku was constructed by Fujitsu and is installed at the RIKEN Center for Computational Science (R-CCS) in Kobe, Japan.
- Summit, an IBM-built system at the Oak Ridge National Laboratory (ORNL) in Tennessee, remains the fastest system in the US with a performance of 148.8 petaflops. Summit has 4,356 nodes, each one housing two 22-core Power9 CPUs and six NVIDIA Tesla V100 GPUs.
- Sierra, a system at the Lawrence Livermore National Laboratory in California, is ranked third with an HPL mark of 94.6 petaflops. Its architecture is very similar to that of Summit, with each of its 4,320 nodes equipped with two Power9 CPUs and four NVIDIA Tesla V100 GPUs.
- Sunway TaihuLight, a system developed by China’s National Research Center of Parallel Computer Engineering & Technology (NRCPC) and installed at the National Supercomputing Center in Wuxi, is listed at number four. It is powered exclusively by Sunway SW26010 processors and achieves 93 petaflops on HPL.
- At number five is Selene, an NVIDIA DGX A100 SuperPOD installed in-house at NVIDIA Corp. It was listed as number seven in June but has doubled in size, allowing it to move up the list by two positions. The system is based on AMD EPYC processors with NVIDIA’s new A100 GPUs for acceleration. Selene achieved 63.4 petaflops on HPL as a result of the upgrade.
- Tianhe-2A (Milky Way-2A), a system developed by China’s National University of Defense Technology (NUDT) and deployed at the National Supercomputer Center in Guangzho, is ranked 6th. It is powered by Intel Xeon CPUs and NUDT’s Matrix-2000 DSP accelerators and achieves 61.4 petaflops on HPL.
- A new supercomputer, known as the JUWELS Booster Module, debuts at number seven on the list. The Atos-built BullSequana machine was recently installed at the Forschungszentrum Jülich (FZJ) in Germany. It is part of a modular system architecture and a second Xeon based JUWELS Module is listed separately on the TOP500 at position 44. These modules are integrated by using the ParTec Modulo Cluster Software Suite. The Booster Module uses AMD EPYC processors with NVIDIA A100 GPUs for acceleration similar to the number five Selene system. Running by itself the JUWELS Booster Module was able to achieve 44.1 HPL petaflops, which makes it the most powerful system in Europe
- HPC5, a Dell PowerEdge system installed by the Italian company Eni S.p.A., is ranked 8th. It achieves a performance of 35.5 petaflops using Intel Xeon Gold CPUs and NVIDIA Tesla V100 GPUs. It is the most powerful system in the list used for commercial purposes at a customer site.
- Frontera, a Dell C6420 system that was installed at the Texas Advanced Computing Center of the University of Texas last year is now listed at number nine. It achieves 23.5 petaflops using 448,448 of its Intel Platinum Xeon cores.
- The second new system at the top of the list is Dammam-7, which is ranked 10th. It is installed at Saudi Aramco in Saudi Arabia and is the second commercial supercomputer in the current top 10. The HPE Cray CS-Storm systems uses Intel Gold Xeon CPUs and NVIDIA Tesla V100 GPUs. It reached 22.4 petaflops on the HPL benchmark.

Класс, давайте поможем Васе посчитать, сколько из топ10 суперкомпьютеров используют ГПУ?

anonymous
(07.02.21 13:10:39 MSK)

Ответ на: комментарий от anonymous 07.02.21 13:10:39 MSK

сколько из топ10 суперкомпьютеров используют ГПУ?

какая разница, на первом месте Fugaku с огромным отрывом

This puts it three times ahead of the number two system in the list

по-моему он производительный всех оставшихся в списке топ-10 вместе взятых.

anonymous
(07.02.21 13:16:45 MSK)

Ссылка

Ответ на: комментарий от anonymous 07.02.21 13:05:25 MSK

с 2017г вообще-то вышли tiger lake и zen3

anonymous
(07.02.21 13:55:20 MSK)

Ссылка

Ответ на: комментарий от DarthVadimius 07.02.21 12:48:09 MSK

я много чего пробовал. даже alliance пытался собрать но там видимо совсем полный трэш. это просто убивает - сто разных плееров аудио и ни одной приложухи где надо просто по сетке по сути расставлять объекты.

salozar
(07.02.21 17:19:04 MSK)

Ссылка

Ответ на: комментарий от anonymous 07.02.21 10:43:46 MSK

ну вообще-то при определённом подходе можно.

более того есть даже пример https://www.youtube.com/watch?v=7BBSOJudnvM

движок Quake2 на Atari Falcon030. Там железо - 68030@16мгц (ну грубо говоря 486sx@25мгц) + DSP 56000 (32мгц). работает!

salozar
(07.02.21 17:27:05 MSK)

Ответ на: комментарий от salozar 07.02.21 17:27:05 MSK

на Atari Falcon030

То есть на 68030+dsp сделали реализацию opengl? Без шейдеров, разумеется.

panzerito ★
(07.02.21 17:47:01 MSK)
Последнее исправление: panzerito 07.02.21 17:47:23 MSK (всего исправлений: 1)

Ответ на: комментарий от panzerito 07.02.21 17:47:01 MSK

сделали софтварный рендерер. который требовал пня, причем хотя бы сотого.

salozar
(07.02.21 17:48:28 MSK)

Ответ на: комментарий от salozar 07.02.21 17:48:28 MSK

Подробности реализации?

panzerito ★
(07.02.21 18:00:45 MSK)

Ответ на: комментарий от panzerito 07.02.21 18:00:45 MSK

давай сам гугли. автор doug little, все форумы по atari его знают, ссылки на скачку битые. хз где его искать.

я привел просто как пример того, что люди щупали руками. чел на самом деле очень заморочился и смог. где-то даже описывал как делаетcя освещение - это древняя техника с lookup tables. мне щас лень гуглить, работа жеж.

salozar
(07.02.21 18:16:42 MSK)

Ответ на: комментарий от salozar 07.02.21 18:16:42 MSK

где-то даже описывал как делаетcя освещение - это древняя техника с lookup tables

К сожалению, не находится.

Еще одна реализация 3d на atari 030 - doom bad mood https://www.youtube.com/watch?v=MUWJSUiPXzw

Пиксельные шейдеры даже. Но это не очень сложно, по сравнению с вершинными шейдерам, opensource реализаций (или в виде концепт-документа) которых я не находил. Кроме mesa.

panzerito ★
(07.02.21 18:27:43 MSK)
Последнее исправление: panzerito 07.02.21 18:30:19 MSK (всего исправлений: 2)

Ответ на: комментарий от panzerito 07.02.21 18:27:43 MSK

так это тот же самый автор.

освещение так делали много где. у тебя есть тектура палитровая. допустим в ней 32 цвета. ты выбрал тексел и знаешь уровень освещения. допустим там 16 градаций.

у тебя есть 32*16 вариантов конечного цвета,и ты просто составляешь из значения тексела и яркости значение в таблице где содержатся конечные цвета.

salozar
(07.02.21 18:36:47 MSK)

Ссылка

Ответ на: комментарий от panzerito 07.02.21 18:27:43 MSK

я так скажу - если бы этот атариквак вышел тогда, в 1992м, мир 3д-игр мог бы быть другим.

32/24/16-бит fixed point на самом деле ведь может быть дополнена известной compile-time экспонентой, которая дается в команде. то есть многое из того, что делается даже сейчас возможно сделать в fixed point. тот же кризис портировать, главное чтоб мощности dsp хватило. или количества dsp.

16 - хватит для моделек. с точностью 1мм. их же хватит для матриц поворота.

32 - хватит для промежуточных данных c точностью для сцены размером 64км по каждому направлению.

24 - наверно для сцены размером те же 64км в формате 16.8 или 4км в формате 12.12. но это довольно большие сцены.

я даже не удивился бы, если бы floating point так бы и оставался уделом научного софта.

salozar
(07.02.21 19:23:25 MSK)

Ответ на: комментарий от salozar 07.02.21 19:23:25 MSK

Жаль, что Doug Little не опубликовал исходники ни Quake 2 on Falcon030, ни BadMood. Или я плохо искал.

panzerito ★
(07.02.21 19:42:56 MSK)

Ссылка

Ответ на: комментарий от salozar 07.02.21 19:23:25 MSK

32/24/16-бит fixed point на самом деле ведь может быть дополнена известной compile-time экспонентой, которая дается в команде.

Не понимаю, как этот трюк изменит ограничения физической разрядности dsp.

panzerito ★
(07.02.21 20:07:52 MSK)
Последнее исправление: panzerito 07.02.21 20:11:48 MSK (всего исправлений: 1)

Ответ на: комментарий от salozar 05.02.21 19:03:12 MSK

надо ставить eDP и lvds, а всё остальное - для поехавших.

Сам ты [слово], если интерфейс с матрицей размещать в GPU то это существенно сузит круг возможных используемых FPGA и не менее существенно поднимет планку для разрабатываемых чипов, потому что в твоём варианте чип или FPGA должны будут иметь патентованный видеорот(HDMI/DP) и большой скоростной DAC, расположение которго на стороне видеокарты есть анахронизм от времён VGA мониторов.

А вот если перенести DAC на сторону матрицы то для создания GPU можно будет использовать любую подходящую FPGA, а треборвания к скорости работы разрабатываемых GPU сведутся собственно к достаточной скорости вычислений для конкретной решаемой задачи, в пределе можно будет вообще отказаться от GPU и посылать изображения на определённый адрес.

torvn77 ★★★★★
(07.02.21 20:51:55 MSK)
Последнее исправление: torvn77 07.02.21 20:55:59 MSK (всего исправлений: 1)

Ответ на: комментарий от panzerito 07.02.21 20:07:52 MSK

я напомню что квак нормально шел только на пентиумах. его даже k6 не тянул толком причем не помогало даже внеочередное исполнение, т.к. fxch на пне было zero-cost, а на k6 - вполне себе инструкцией да еще и вносило зависимость по данным.

salozar
(08.02.21 13:26:41 MSK)

Ссылка

Ответ на: комментарий от torvn77 07.02.21 20:51:55 MSK

давай ты узнаешь как работает eDP и lvds и не будешь нести ахинею.

salozar
(08.02.21 13:41:33 MSK)

Ответ на: комментарий от salozar 08.02.21 13:41:33 MSK

А что, матрица может самостоятельно запоминать и воспроизводить изображение?
(про eDP в основном пишут про скорость и число линий, а так по принципам организации там вроде всё аналогично vga, на карте dac, из него в матрицу идёт то, что будет в данный момент показывается на экране)

Ну ок, сейчас почитал ещё раз, я правильно понял что eDP это последовательный порт через который в матрицу идут обновления кадра?

Но даже если это так, то лучше бы он был универсальной шиной вроде scsi, без каких либо специальных особенностей под конкретное устройство.

torvn77 ★★★★★
(08.02.21 13:44:01 MSK)
Последнее исправление: torvn77 08.02.21 13:58:34 MSK (всего исправлений: 3)

Ответ на: комментарий от torvn77 08.02.21 13:44:01 MSK

Какой DAC (и зачем) в цифровом интерфейсе?

token_polyak ★★★★
(08.02.21 13:59:36 MSK)

Ссылка

Ответ на: комментарий от panzerito 07.02.21 20:07:52 MSK

дело не в разрядности а в том, что для графики надо очень много множить и складывать. cpu того времени множили как говно, 12 тактов. cyrix486dlc помоему 3 такта умел но 16х16 но +сложение + movmovmov короче всё равно скорость была дном. даже деление можно делать умножением довольно точно и быстрее аппаратного деления при условии что у тебя умножение хотя бы два цикла а лучше - сразу параллельно конвейеру в отдельный аккумулятор откуда можно mov потом.

короче, такая демка могла бы подтолкнуть разработчиков процов к мысли что множить надо быстро а fpu может и потормозить.

salozar
(08.02.21 14:16:58 MSK)

Ссылка

Ответ на: комментарий от salozar 07.02.21 17:27:05 MSK

Не спорю, можно. Но зачем?
На гитхабе есть несколько примеров открытых (ГП)ГПУ разной степени завершенности: и MIAOW, и Nyuzi.
И, если мы уж говорим про запиливание yet another GPU, я бы сказал, что самая сложная и болезненная часть - вовсе не железо. С железом, как показывает практика, могут справиться студенты нормального вуза с нормальным ментором над ними, а вот прикрутить к этому весь софтварный стек - БОЛЬ. Вдвойне боль - сделать так, чтобы этот софт работал быстро.

anonymous
(08.02.21 14:24:49 MSK)

Ответ на: комментарий от anonymous 08.02.21 14:24:49 MSK

в определенные моменты история проходит развилки. через год после выхода атари выйдет первопень, еще четыры - квака, которая сделала неактуальными процы без быстрого fpu. а заодно сделала стандартом использоваться float для графики.

если бы эта демка вышла на atari хотя бы в 1995м - поменялось бы многое. если бы она вышла в 1992м - возможно у нас бы было другое железо. сильно другое.

salozar
(08.02.21 14:32:37 MSK)

Ответ на: комментарий от salozar 08.02.21 14:32:37 MSK

Я, увы, лишен возможности ностальгировать по таким вещам, тк был излишне юн в те года.
Однако тема открытого железа и архитектур мне крайне близка по многим причинам, поэтому я предпочитаю смотреть на предметный вопрос в чуть более прагматичном ключе. Конечно, меня можно упрекнуть в узколобости и заскорузлости мышления, но я просто хочу пилить открытое железо и получать за это деньги.

anonymous
(08.02.21 14:43:56 MSK)

Ссылка

Ответ на: комментарий от salozar 08.02.21 14:32:37 MSK

использоваться float для графики.

Но ведь fixed point для тригонометрических функций будет давать неравномерную ошибку. Какой трюк это исправит?

panzerito ★
(08.02.21 16:23:50 MSK)

Ответ на: комментарий от panzerito 08.02.21 16:23:50 MSK

Хочу увидеть исходники 3d engine на чистых fixed point. Quake 2 для атари это хорошо, но исходников нет, а верить пересказам о внутреннем устройстве не нравится.

У atari Falcon030 есть fpu, кстати.

panzerito ★
(08.02.21 16:39:48 MSK)

Ответ на: комментарий от panzerito 08.02.21 16:23:50 MSK

во-первых, не факт что ошибку будет видно.

алгоритм вычисления берется из тригонометрических функция для sse - там формула тейлора первые два члена(для cos 1+), а перед ней умножение и некоторое издевательство над числами с хитрожопым округлением.

в пределе 4(2x/pi)^3-2(2x/pi) даст ~~ 4(1+a)^3 где а - влезшие биты которы должны быть, т.е. 1/16384. это где-то 12/16384 ну пусть будет 1/1024 по царски оценим. и на сколько её надо умножить, чтоб вышел хотя бы один пиксель?

если у нас моделька в формате координат 4.12 (размером 16 метров по каждому направлению), то в пределе будет 1/256 метра. домножим на 3 и получим полную ошибку 0.003 метра для одного преобразования.

это в нищенских 16 битах. если будет 32 бита, то точности с запасом хватит на несколько преобразований такого плана.

salozar
(08.02.21 18:48:07 MSK)

Ответ на: комментарий от panzerito 08.02.21 16:39:48 MSK

я нашел бинари

files.dhs.nu/files_game/qtestpublic.zip

на этом сайте

https://dhs.nu/news.php?sd=2015-01-01&ed=2015-12-31

попробую на hatari запустить.

salozar
(08.02.21 18:48:56 MSK)

Ссылка

Ответ на: комментарий от salozar 08.02.21 18:48:07 MSK

да более того. на 24 битах уже в принципе можно «кризис» сделать. нужно всего-то в инструкции добавить поправку «экспоненты» явную, то есть на DSP от атари не взлетит.

но допустим шобла из хм…. 1000 например атаревских DSP с улучшениями может и потянуть кризис на минималках в 320х240.

salozar
(08.02.21 18:52:55 MSK)

я кстати посмотрел их презентацию. не взлетит даже как крокодил. максимум они могут сделать вид что это летает, качая этот мертворождённый труп на руках. но зачем?

люди фундаментально не понимают, как работают GPU. напрочь.

Pixel Instructions –SetPix/ClrPix/GetPix –Blend –Ztest –ROP

/dev/disk/facepalm

на самом деле ROP (у амд это экспорт пикселя из шейдера) перекрывает SetPix и Blend одновременно.

ClrPix - это как вообще понимать? Они не знают как очищаются буфера? Хотя не, они явно что-то иное имели ввиду:

•Frame Buffer Instructions –SetZ/ClrZ–SetArea/ClrArea

Помоему они наркоманы. Как можно «очистить пиксель»? он при чтении будет сегфолт возвращать или что? Иначе чем это отличается от записи в пиксель

Ztest - simd операция сравнения и получения маски, зачем городить лишнее? уж если так хотят, пусть сделают compare mode для Z-текстур чтоб аппаратуру не дублировать, оно самое будет.

Texture Instructions –Tex2d, Tex3d –TexEnv –TexGen –MipMap –Persp –TexLoad –TexCodec

$ ls /dev/input facepalm0 facepalm1 facepalm2 facepalm3

Они где-то нашли мануал по opengl и просто оттуда переписывают все функции которые находят.

TexLoad, TexEnv, TexCoded - я могу догадываться, что речь идёт о загрузке инфы о текстуре в некий регистр, но помоему настройки текстуроблока можно загрузить просто записывая в некие аппаратные регистры. Может я ошибаюсь?

Persp - я не знаю что это такое, но перспективная коррекция делается на шейдерах как и создание мипмапов.

И тут я увидел вот это

Optional Graphics Instructions (micro-coded) –ModelView –Backface –Lookat –Proj –Clip2/Clip3 –Lit (a,d,s) –Persp–InterpStep (i.e. Bresenham DDA or scanline attributes) –Window –TexMap–Z-Test –AlphaBlend –FragMerge

PANIC: unable to handle facepalm at kernel/wtf.c:105 whatiswrongwiththem+0x07/0x40

и все вопросы отпали. модел,мать его,виев.

–Persp–InterpStep (i.e. Bresenham DDA or scanline attributes)

слов нет. вот как это делают здоровые люди, не курильщики.

salozar
(08.02.21 19:58:10 MSK)

Ответ на: комментарий от salozar 08.02.21 19:58:10 MSK

на самом деле ROP (у амд это экспорт пикселя из шейдера) перекрывает SetPix и Blend одновременно

ROP использует данные в локальной памяти

The ROPs perform the transactions between the relevant buffers in the local memory – this includes writing or reading values, as well as blending them together.

https://en.wikipedia.org/wiki/Render_output_unit

а Blend работает с фреймбуфером

https://community.khronos.org/t/does-the-gpu-process-the-blending/31914

normal rendering, the GPU does : -compute pixel color -write to FrameBuffer
blending requires the GPU to do : -compute pixel color -read framebuffer -do blending operation between src and dst -write to FrameBuffer

anonymous
(09.02.21 11:18:13 MSK)

Ответ на: комментарий от anonymous 09.02.21 11:18:13 MSK

а Blend работает с фреймбуфером

а фреймбуфер в облаке а облако в амазоне. внезапно фреймбуфер это просто буфер в памяти. он не лучше и не хуже других буферов

salozar
(09.02.21 13:29:15 MSK)

Ответ на: комментарий от salozar 09.02.21 13:29:15 MSK

внезапно фреймбуфер это просто буфер в памяти. он не лучше и не хуже других буферов

только ты путаешь быструю локальную память SRAM (кэш) и фреймбуфер во внешней медленной DRAM - ROP работает с фрагментами в локальной быстрой памяти.

anonymous
(09.02.21 13:41:48 MSK)

Ответ на: комментарий от anonymous 09.02.21 13:41:48 MSK

а разве не все обращения к памяти идут через кэш

anonymous
(09.02.21 14:21:25 MSK)

Ответ на: комментарий от anonymous 09.02.21 14:21:25 MSK

а разве не все обращения к памяти идут через кэш

GPU это конвеер, чем реже обращается к внешней памяти тем быстрей обработка

https://images.bjorn3d.com/Material/revimages/articles/Fermi/e19.jpg

возможно они просто разделили комплексную ROP на микрооперации и с blend из opengl это не связано

anonymous
(09.02.21 14:41:01 MSK)

Ссылка

Ответ на: комментарий от anonymous 09.02.21 13:41:48 MSK

так SRAM или кэш?

у здоровых людей, не курильщиков, растеризатор имеет свой кэш если что.

salozar
(09.02.21 15:14:48 MSK)

Ответ на: комментарий от salozar 09.02.21 15:14:48 MSK

так SRAM или кэш?

кэш делают в SRAM

растеризатор имеет свой кэш если что

L2 кэш общий если что. Кстати - разобрался для чего новый тип данных ? или «здоровым» людям матричные типы не нужны - нужно только насрать из-под тишка.

anonymous
(09.02.21 15:39:52 MSK)

Ссылка

Ответ на: комментарий от anonymous 09.02.21 14:21:25 MSK

кэши могут быть разные. на первых GCN и до них у амд кэш второго уровня был read-only и ничего туда ROPы не писали, довольствуясь своим личным небольшим кэшиком.

никому в AMD в голову бы не пришло, что оказывается для экспорта пикселя нужно две разные инструкции, в зависимости от того, лежит он в кэше или нет(видимо это надо угадать).

salozar
(10.02.21 12:50:24 MSK)

Ссылка

Ответ на: комментарий от salozar 08.02.21 18:52:55 MSK

во-первых, не факт что ошибку будет видно.

алгоритм вычисления берется из тригонометрических функция для sse - там формула тейлора первые два члена(для cos 1+), а перед ней умножение и некоторое издевательство над числами с хитрожопым округлением.

в пределе 4(2x/pi)^3-2(2x/pi) даст ~~ 4(1+a)^3 где а - влезшие биты которы должны быть, т.е. 1/16384. это где-то 12/16384 ну пусть будет 1/1024 по царски оценим. и на сколько её надо умножить, чтоб вышел хотя бы один пиксель?

если у нас моделька в формате координат 4.12 (размером 16 метров по каждому направлению), то в пределе будет 1/256 метра. домножим на 3 и получим полную ошибку 0.003 метра для одного преобразования.

это в нищенских 16 битах. если будет 32 бита, то точности с запасом хватит на несколько преобразований такого плана.

А в чём проблема быстро вычислять обратный корень на Atari? И зачем для вычисления отражения кваке плавающая точка?? Да и мегатекстура это уже квака4.

Woofywoof ★
(11.02.21 17:27:02 MSK)
Последнее исправление: Woofywoof 11.02.21 17:28:40 MSK (всего исправлений: 1)

Ответ на: комментарий от Woofywoof 11.02.21 17:27:02 MSK

целых три мегатупых вопроса в одном посте. как вам удаётся?

salozar
(11.02.21 17:34:37 MSK)

Ответ на: комментарий от salozar 11.02.21 17:34:37 MSK

целых три мегатупых вопроса в одном посте. как вам удаётся?

Да у меня есть в книжке «Параллельные вычисления на GPU» Архитектура и программная модель CUDA издательства МГУ уравнение трассировки лучей. И даже про рендерер Hydra на openCL из ВМиК МГУ. Я просто так спросил. И ещё я слышал, что в Кваке3 «честные» круглые поверхности, без всяких приближений по точкам, не знаю как они ухитрились.

Woofywoof ★
(11.02.21 21:18:05 MSK)

Ответ на: комментарий от Woofywoof 11.02.21 21:18:05 MSK

я решил что это троллинг такой. обратный корень на пне и вообще корень - это медленно. квак использует битхаки для этого. а что касается атари там вообще fpu никакой. там бесполезно даже пытаться что-то делать с ним

salozar
(12.02.21 07:27:16 MSK)

Ответ на: комментарий от salozar 12.02.21 07:27:16 MSK

Да вот и мне интересно что такое быстрый обратный корень в double. В википедии написано только про float!

Woofywoof ★
(12.02.21 07:33:18 MSK)

Ссылка

Похожие темы