Патчем к LLVM реализовано ускорение свободного драйвера RadeonSI в 1,5-2 раза

7

10

Для LLVM представлен коммит объёмом примерно в 2 тысячи строк, после применения которого производительность графической подсистемы, известной под обобщённым названием RadeonSI, увеличивается на десятки процентов. На самом деле после применения этого патча во всех тестах производительность открытого графического стека обходит проприетарный драйвер Catalyst.

Так же стоит отметить что в Mesa 11 (релиз которой ожидается в течении недели-двух) для RaseonSI обеспечена полная поддержка OpenGL 4.0 и 4.1 (ранее поддержка ограничивалась версией 3.3).

Измерение производительности

>>> Подробности

Ссылка

← Для загрузки доступна экспериментальная сборка редактора Unity3D

Firefox 40.0.3 →

← 1 2 3 4 5 6 →

На самом деле после применения этого патча во всех тестах производительность открытого графического стека обходит проприетарный драйвер Catalyst.

ДА ЛАДНО?!

В убунту 15.10 войдет?

Kompilainenn ★★★★★
(26.08.15 19:01:43 MSK)

Клёво. Ждём в апстриме.

Правда протестировано только для одной видяхи, возможно с остальными такого не будет.

Ivan_qrt ★★★★★
(26.08.15 19:03:28 MSK)

Ссылка

Ответ на: комментарий от Kompilainenn 26.08.15 19:01:43 MSK

В убунту 15.10 войдет?

Сначала в апстрим llvm должно войти. Вряд ли в убунте сейчас тестируют llvm из гита, и вряд ли его обновят после релиза, так что не войдёт, ищите в ppa.

Ivan_qrt ★★★★★
(26.08.15 19:05:47 MSK)

Ссылка

AMD не для игр, так то.

anonymous
(26.08.15 19:07:26 MSK)

Ссылка

Ответ на: комментарий от Kompilainenn 26.08.15 19:01:43 MSK

ДА ЛАДНО?!
В убунту 15.10 войдет?

Нет, не успеет, на самом деле похоже что и в LLVM-3.7 не успеет. Для широкой публики придётся ждать какой-нибудь LLVM-3.7.1, а вот гентушники уже могут накатить прямо сейчас.

haku ★★★★★
(26.08.15 19:26:52 MSK) автор топика

Ответ на: комментарий от haku 26.08.15 19:26:52 MSK

хм... ну какой-нить оибаф-ппа спасет людей с убунтой ГМ?

Kompilainenn ★★★★★
(26.08.15 19:32:23 MSK)

Novell-ch что думаешь о сабже, проведёшь тестирование?

haku ★★★★★
(26.08.15 22:36:10 MSK) автор топика

в 1,5-2 раза

Так вы же уже рассказывали, что он не медленнее венды. Что, теперь он быстрее железа?

anonymous
(26.08.15 22:44:00 MSK)

фпс увеличивается только там, где он и так производительность была более-менее нормальной. там где были лютые тормоза ничего особо не изменилось :(
Надо ждать других оптимизаций.

Khnazile ★★★★★
(26.08.15 22:45:40 MSK)

Ответ на: комментарий от Kompilainenn 26.08.15 19:32:23 MSK

https://launchpad.net/~xorg-edgers

MyFreedom ★★★
(26.08.15 22:46:01 MSK)

Ответ на: комментарий от haku 26.08.15 22:36:10 MSK

уже протестил, конечно моя домашняя тачка с 2 гигами рамы и дохлым пентаком может и не даст полной картины, но прирост есть.

Novell-ch ★★★★★
(26.08.15 22:48:48 MSK)

Что за жёлтый заголовок, ускорение в 1.5 раза только в Xonotic, в проприетарных играх всё так же открытый драйвер сливает каталисту

MyFreedom ★★★
(26.08.15 22:50:53 MSK)

Ответ на: комментарий от MyFreedom 26.08.15 22:50:53 MSK

Что за жёлтый заголовок
в проприетарных играх

Лютое 4.2, ибо в Metro 2033 Redux +60%, извольте проследовать по первому линку.

haku ★★★★★
(26.08.15 22:54:26 MSK) автор топика
Последнее исправление: haku 26.08.15 22:56:36 MSK (всего исправлений: 2)

Лол, а зомби с нвидией продолжают жрать китайский кактус.

Deleted
(26.08.15 22:58:01 MSK)

Ответ на: комментарий от haku 26.08.15 22:54:26 MSK

Лютое 4.2, ибо в Metro 2033 Redux +60%.

Виноват, не туда смотрю

MyFreedom ★★★
(26.08.15 22:58:04 MSK)

Ссылка

Оок, на какую версию llvm накладывать патч?

Chaser_Andrey ★★★★★
(26.08.15 22:58:32 MSK)

Ответ на: комментарий от haku 26.08.15 22:54:26 MSK

А вот в Metro Last Light Redux, на уровне, где надо перейти реку через мост по поверхности, как был неиграбельный фпс, так и остался.
Как, врочем, и в BioShoсk Infinite.

Khnazile ★★★★★
(26.08.15 22:59:03 MSK)

Ответ на: комментарий от Novell-ch 26.08.15 22:48:48 MSK

там даже DDX есть для вяленого

https://github.com/axeldavy/xf86-video-wlglamor

smilessss ★★★★★
(26.08.15 23:04:40 MSK)

Ссылка

Ответ на: комментарий от Deleted 26.08.15 22:58:01 MSK

И причем вкусненько! Вот когда будет каждая новая карта выдавать максимум производительности на Linux на открытом драйвере от AMD - тогда это однозначный сигнал к покупке. Иначе - vesa ought to be enough for anybody.

I-Love-Microsoft ★★★★★
(26.08.15 23:05:00 MSK)

Ссылка

Ответ на: комментарий от Chaser_Andrey 26.08.15 22:58:32 MSK

Попробую наложить на llvm прямо из транка.

/me прогревает свой gcc перед компиляцией.

Chaser_Andrey ★★★★★
(26.08.15 23:06:04 MSK)

Ответ на: комментарий от Deleted 26.08.15 22:58:01 MSK

Посомтрите эти графики, фпс Radeon 370 и nvidia 760, стоят они примерно одинаково

MyFreedom ★★★
(26.08.15 23:06:32 MSK)
Последнее исправление: MyFreedom 26.08.15 23:07:18 MSK (всего исправлений: 1)

для r600 профита не будет?

smilessss ★★★★★
(26.08.15 23:07:44 MSK)

Ответ на: комментарий от smilessss 26.08.15 23:07:44 MSK

Думаю, что нет, там ведь RadeonSI.

Chaser_Andrey ★★★★★
(26.08.15 23:09:02 MSK)

На самом деле после применения этого патча во всех тестах производительность открытого графического стека обходит проприетарный драйвер Catalyst.

Какое же говно этот каталист:-(

Behem0th ★★★★★
(26.08.15 23:09:13 MSK)

Ответ на: комментарий от Chaser_Andrey 26.08.15 23:09:02 MSK

может запилят все-таки

smilessss ★★★★★
(26.08.15 23:10:31 MSK)

Ссылка

Офигеть вообще можно с таких новостей, по многим причинам.

anonymous
(26.08.15 23:14:32 MSK)

Ссылка

Ответ на: комментарий от MyFreedom 26.08.15 23:06:32 MSK

Фпс для задротов, поборники opensourece не поскупятся купить топ для комфортной игры в 30fps.

anonymous
(26.08.15 23:15:47 MSK)

Ссылка

Ответ на: комментарий от Chaser_Andrey 26.08.15 23:09:02 MSK

smilessss, греп патча на предмет r600 даёт не нулевые результаты...

Chaser_Andrey, ты же в Генте накатываешь? Можешь выложить степ-бай-степ инструкцию вида:

1. layman -a llvm #ради llvm-9999

2. wget patch-link && mv si.patch /etc/portage/where-is-users-patches-go

...

3. PROFIT

Stil ★★★★★
(26.08.15 23:17:23 MSK)

Оффтопик уже догнали?

ritsufag ★★★★★
(26.08.15 23:21:24 MSK)

Ссылка

А в чём суть патча? Упоминается планировщик для SI. Только что он делает, переставляет инструкции? Или заменяет медленные инструкции на комбинацию быстрых?

i-rinat ★★★★★
(26.08.15 23:28:26 MSK)

Ответ на: комментарий от i-rinat 26.08.15 23:28:26 MSK

там комментарий есть в коде

anonymous
(26.08.15 23:32:34 MSK)

Это не шутка? Апрель давно позади.. Точно не шутка! Великолепно! Поздравляю AMD-шников!

обеспечена полная поддержка OpenGL-4.0 и OpenGL-4.1

А у Штеуда будет? В принципе, когда-нибудь? А то надоело по каждому чиху primusrun делать.

robus ★★★★★
(26.08.15 23:33:22 MSK)

В тестах моя карта и используемый мной драйвер. В игры не играю, но все равно приятно, пойду проверять)

xxxSatana666xxx
(26.08.15 23:34:39 MSK)

Ссылка

Ответ на: комментарий от anonymous 26.08.15 23:32:34 MSK

Прочитал, мало что понял. Зато возник ещё вопрос. Интересно, железо в Radeon'ах следит за зависимостями инструкций? Или выдерживание нужного числа циклов — целиком забота компилятора?

i-rinat ★★★★★
(26.08.15 23:40:25 MSK)

Ответ на: комментарий от anonymous 26.08.15 22:44:00 MSK

Так вы же уже рассказывали, что он не медленнее венды. Что, теперь он быстрее железа?

а венда не может быть медленнее железа?

Lincor ☆
(26.08.15 23:41:44 MSK)

это ведь хорошая новость, я верно понял?

targitaj ★★★★★
(26.08.15 23:43:23 MSK)

Ответ на: комментарий от Lincor 26.08.15 23:41:44 MSK

Так нвидиа(с интелом?) же нагнут.

anonymous
(26.08.15 23:43:51 MSK)

Ссылка

Ответ на: комментарий от haku 26.08.15 19:26:52 MSK

Да накатить-то мы всегда можем. Нам бы софт обновить...

~~AVL2~~ ★★★★★
(26.08.15 23:46:55 MSK)

Ссылка

Ответ на: комментарий от Stil 26.08.15 23:17:23 MSK

1. Оверлеи не нужны дополнительные. Добавляешь в /etc/portage/package.keywords

=sys-devel/llvm-9999 **

2. Патчим средствами portage, для этого создаем каталог

mkdir -p /etc/portage/patches/sys-devel/llvm-9999

3. Чтобы получить патч на гитхабе, нужно к линку дописать .patch. Полученный патч сохраняем в нужном каталоге.

wget -O /etc/portage/patches/sys-devel/llvm-9999/00_radeonsi.patch https://github.com/axeldavy/llvm/commit/5005a869e01debaf3f78df804ab4fe67325ad88a.patch

4. emerge -av1 llvm

Chaser_Andrey ★★★★★
(26.08.15 23:48:05 MSK)

Ответ на: комментарий от Khnazile 26.08.15 22:45:40 MSK

фпс увеличивается только там, где он и так производительность была более-менее нормальной. там где были лютые тормоза ничего особо не изменилось :(

КЭП

увеличивается на десятки процентов

50fps + 20% = 60fps
5fps + 20% = 6fps

з.ы. судя по всем гайдам, тестам и видео с RadeonSI и раньше было не все так плохо

anTaRes ★★★★
(26.08.15 23:48:11 MSK)

Ссылка

Ответ на: комментарий от targitaj 26.08.15 23:43:23 MSK

Если это действительно правда - это потрясающая новость.

Chaser_Andrey ★★★★★
(26.08.15 23:49:12 MSK)

Ссылка

Ответ на: комментарий от i-rinat 26.08.15 23:40:25 MSK

Насколько я помню, следит - там вообще хитрая массивно-параллельная хрень, которая работу (т.е. одновременно выполняемые разные шейдеры) постоянно распределяет между CU'шками.

Но это, собственно, не отменяет возможность ускорения путём перестановки инструкций.

vitalif ★★★★★
(26.08.15 23:51:11 MSK)

Ответ на: комментарий от vitalif 26.08.15 23:51:11 MSK

В некоторых (абстрактных?) VLIW после команды загрузки данных в регистр, этот регистр ещё несколько тактов содержал старое значение, что могло использоваться компилятором для оптимизаций. Что-то типа load delay slot.

Хоть и писалось, что архитектура больше не VLIW, я очень сомневаюсь, что они для новых чипов всё старое выбросили и сделали дизайн с нуля.

i-rinat ★★★★★
(26.08.15 23:56:45 MSK)

Компиляция вывалилась с ошибкой

FAILED: : && /usr/bin/x86_64-pc-linux-gnu-g++ -m32 -fPIC -O2 -pipe -march=amdfam10 -g  -fPIC -fvisibility-inlines-hidden -Wall -W -Wno-unused-parameter -Wwrite-strings -Wcast-qual -Wno-missing-field-initializers -pedantic -Wno-long-long -Wno-maybe-uninitialized -Wno-comment -std=c++11 -ffunction-sections -fdata-sections  -Wl,-O1 -Wl,--as-needed -Wl,-z,defs   -Wl,-O3 -Wl,--gc-sections -shared -Wl,-soname,libLLVMCppBackendInfo.so.3.8 -o lib32/libLLVMCppBackendInfo.so.3.8.0svn lib/Target/CppBackend/TargetInfo/CMakeFiles/LLVMCppBackendInfo.dir/CppBackendTargetInfo.cpp.o  lib32/libLLVMSupport.so.3.8.0svn -Wl,-rpath,"\$ORIGIN/../lib32" && :
/usr/lib32/libc_nonshared.a(stack_chk_fail_local.oS): In function `__stack_chk_fail_local':
(.text+0x20): undefined reference to `__stack_chk_fail'
collect2: error: ld returned 1 exit status

Chaser_Andrey ★★★★★
(27.08.15 00:00:00 MSK)

интересно, а что будет, если этот ваш компилятор шейдеров заменить на gcc

wakuwaku ★★★★
(27.08.15 00:01:21 MSK)

Ссылка

Ответ на: комментарий от Chaser_Andrey 27.08.15 00:00:00 MSK

добавь в cflags -fno-stack-protector

anonymous
(27.08.15 00:02:16 MSK)

Ответ на: комментарий от i-rinat 26.08.15 23:56:45 MSK

Именно что ваще всё выбросили. Погугли, есть документ открытый про архитектуру GCN. Очень прикольно сделали и кстати очень похоже на OpenCL :-).

В двух словах: любой GCN GPU состоит из Compute Unit'ов. CU состоит из 4-х векторных ядер по 16 чисел + 1 скалярного ядра. Логически векторные, собственно, работают как 1 на 64 числа. В коде идут вперемешку инструкции для векторных ядер и для скалярного. Ветвления, циклы и т.п. обрабатывает скалярное ядро. Вычисления - векторные. А дальше самый прикол: а как же сделать, скажем if (элемент вектора < 1) { векторные операции } else { другие векторные операции }? А вот как: есть 64-битный регистр-маска выполнения, в который перед телом if загоняется маска, в которой каждый бит равен 1, если тело if должно выполниться для соотв. элемента вектора, и 0, если соответствующую операцию нужно пропустить. Далее для else делается так же, но наоборот. Получается, что с точки зрения векторного процессора ветвления-то и нет, просто сначала одна часть вектора «не вычисляется», а потом другая. :-)

Аналогичными извращениями делаются циклы и т.п., и в этом весь прикол LLVM-бэкенда AMDGPU - нужно генерить такой вот смешанный код, который при этом ещё и за масочками следит.

И вот эти вот CU'шки - они универсальные, т.е. на них и фиксированные функции выполняются, и шейдеры. И в разных GPU их просто разное количество, чем больше CU - тем быстрее :-)

vitalif ★★★★★
(27.08.15 00:24:20 MSK)
Последнее исправление: vitalif 27.08.15 00:26:17 MSK (всего исправлений: 2)