Снижение производительности при использовании GCC-4.5.0

firefox, gnu, opensource, программирование

0

0

14-го апреля этого года GNU выпустила GCC-4.5.0. И вот теперь стало известно, что при компиляции с ключом -Os (оптимизация по размеру исполняемого файла) полученный исполняемый файл работает гораздо медленнее, чем скомпилированный с теми же параметрами компилятором версии 4.3.

В списке рассылки разработчики GCC поясняют, что это связано с новой логикой разворачивания iniline-вставок при оптимизации -Os: теперь они разворачиваются только если это приведёт к уменьшению размера исполняемого файла (ревизии 158278 и 159931).

Изменения привели, например, к тому, что браузер FireFox при сборке GCC-4.5 теряет на различных тестах от 4 до 19 процентов производительности, причём и в 32, и в 64-битной сборке.

>>> Подробности

Ссылка

← Разработчики игры Osmos опубликовали статистику продаж Linux версии

Уникальные идентификаторы в GNU/Linux →

← 1 2 →

20% это они перебрали )

http://www.linux.org.ru/jump-message.jsp?msgid=4853117&cid=4853195

FDO @ GCC4.3.4: 3347 Points
FDO @ GCC4.5.1: 3306 Points

Sylvia ★★★★★
(26.06.10 12:58:16 MSK)

Ссылка

>FireFox вернётся

тоже incorrect, никогда релизные сборки не собирались чем-либо кроме

GCC: (GNU) 4.1.1 20061011 (Red Hat 4.1.1-30)

т.е. ни 4.3 ни 4.5 они не использовали, только старый 4.1, редхат

Sylvia ★★★★★
(26.06.10 13:00:50 MSK)

Желающие могут проверить это на JavaScript-тесте SunSpider, фороникс утверждает, что на нём производительность просела на 8%.

The only case where there wasn't a slowdown was with the 64-bit SunSpider JavaScript benchmark where it sped up by 8% when being built under GCC 4.5

Переводчики такие переводчики...

Andru ★★★★
(26.06.10 13:15:44 MSK)

Ответ на: комментарий от Andru 26.06.10 13:15:44 MSK

да уж, вообще новость скорее о том, что Мозилле стоит пересмотреть флаги сборки для ФФ, ссылочка на мои бенчмарки при разных типах сборки есть выше, +10% прироста производительности с -O2 и GCC 4.5.1pre по сравнению с официальной сборкой , ну и отпрофилировать его тоже могли бы, наверное не так уж много тех, кто использует ФФ на по-настоящему древних процессорах < Pentium2 (i686) и кешами L1 < 16 Kb, L2 < 256 Kb

Sylvia ★★★★★
(26.06.10 13:25:01 MSK)

Ответ на: комментарий от Andru 26.06.10 13:15:44 MSK

> Переводчики такие переводчики

убрал ссылки на опеннет, спасибо, за уточнение

name_no ★★
(26.06.10 13:26:21 MSK) автор топика

Ссылка

Ответ на: комментарий от Sylvia 26.06.10 13:25:01 MSK

> да уж, вообще новость скорее о том, что Мозилле стоит пересмотреть флаги сборки для ФФ

если при одних и тех же параметрах получается более медленная программа, то виноваты не параметры.

name_no ★★
(26.06.10 13:26:54 MSK) автор топика

Ответ на: комментарий от Sylvia 26.06.10 13:00:50 MSK

> тоже incorrect,

поубирал. Больше не доверяю опеннету

name_no ★★
(26.06.10 13:27:43 MSK) автор топика

Ссылка

Ответ на: комментарий от name_no 26.06.10 13:26:54 MSK

ну в подробностях есть письмо в список рассылки, там достаточно внятно написано почему стоит исправить некоторые вещи с инлайнингом в С++ (о Си речи не идет)

Ну а раз уж форониксы решили пожевать это письмо в рассылку и привели примером ФФ, наверное стоит и сборщикам Мозиллы подумать о нормальных флагах? С другой стороны на форониксе пишут что (наконец!) хотят все же использовать PGO, с GCC 4.1.1 это невозможно, с 4.5.x это удобно (!),
c GCC 4.3 есть некоторые проблемы про сборке, но результат весьма неплох

Sylvia ★★★★★
(26.06.10 13:35:15 MSK)

Ссылка

>произсодительности

Doctor_Drive ★
(26.06.10 14:12:50 MSK)

Ссылка

как посмотреть с какими флагами собран фокс в моей убунте?

awesome ★
(26.06.10 16:03:04 MSK)

Ответ на: комментарий от awesome 26.06.10 16:03:04 MSK

about:buildconfig

Sylvia ★★★★★
(26.06.10 16:09:28 MSK)

>произсодительности

Может не будем писать желтые заголовки? Новость ни о чем.

tensai_cirno ★★★★★
(26.06.10 17:25:15 MSK)

Ссылка

Уже было. Порникс об этом во всю глотку орал.

~~helios~~ ★★★★★
(26.06.10 18:26:10 MSK)

Ссылка

Ответ на: комментарий от Sylvia 26.06.10 16:09:28 MSK

спасибо.

awesome ★
(26.06.10 18:36:01 MSK)

Ссылка

брррр - а кто-то кроме мозиллы (праильно назвались) использует -Os ? o_O

megabaks ★★★★
(26.06.10 19:14:54 MSK)

Ссылка

А по стандарту iniline вставки обязаны разворачиваться всегда или по желанию компилятора?

~~bbk123~~ ★★★★★
(26.06.10 19:21:17 MSK)

Ответ на: комментарий от bbk123 26.06.10 19:21:17 MSK

А по стандарту iniline вставки обязаны разворачиваться всегда или по желанию компилятора?

По желанию компилятора.

Begemoth ★★★★★
(26.06.10 22:43:48 MSK)

Ответ на: комментарий от Begemoth 26.06.10 22:43:48 MSK

> > А по стандарту iniline вставки обязаны разворачиваться всегда или по желанию компилятора?

По желанию компилятора.

Ну тогда в чём претензии к GCC, если ему изначально было указано оптимизировать по размеру?

~~bbk123~~ ★★★★★
(26.06.10 22:58:33 MSK)

Ответ на: комментарий от bbk123 26.06.10 22:58:33 MSK

> в чём претензии к GCC

в том, что до ревизии 158278 получался более быстрый бинарь, чем после.

name_no ★★
(26.06.10 23:28:56 MSK) автор топика

а что они хотели,этож оптимизация по размеру. только зачем она нужна?в чем профит? почему не сравнить с -О2 или -О3

nexus86 ★
(26.06.10 23:30:15 MSK)

Ссылка

Ответ на: комментарий от name_no 26.06.10 23:28:56 MSK

в том, что до ревизии 158278 получался более быстрый бинарь, чем после.

Т.е. в том, что раньше гцц при указании оптимизировать по размеру больше уделял внимания производительности, чем размеру. Так что эта ревизия представляется вполне логичной.

Begemoth ★★★★★
(26.06.10 23:43:06 MSK)

Ссылка

Ответ на: комментарий от name_no 26.06.10 23:28:56 MSK

> > в чём претензии к GCC

в том, что до ревизии 158278 получался более быстрый бинарь, чем после.

-Os и более быстрый бинарь никак не связаны и даже более того, обычно противоречат друг другу.

~~bbk123~~ ★★★★★
(26.06.10 23:54:53 MSK)

при оптимизации по размеру исполняемого файла, внезапно, файлы стали ещё меньше, но тормозить стало больше. новость то к чему?

RedPossum ★★★★★
(27.06.10 03:37:36 MSK)

Ссылка

нафига собирать с -Os? помоему с самого начала четвертой версии -Os заметно ухудшает производительность.. короче уже очень давно собираю все с -O2

Davinel ★
(27.06.10 03:43:13 MSK)

Ссылка

Ответ на: комментарий от Sylvia 26.06.10 16:09:28 MSK

> about:buildconfig

в дебиановском iceweasel-е там куча опций, но нет опции -О

www_linux_org_ru ★★★★★
(27.06.10 03:47:22 MSK)

Ответ на: комментарий от www_linux_org_ru 27.06.10 03:47:22 MSK

так покажи - много скорее всего включено в какой то из -O

megabaks ★★★★
(27.06.10 03:49:22 MSK)

Ответ на: комментарий от megabaks 27.06.10 03:49:22 MSK

Там в одном месте таблица — я раставил слеши

about:buildconfig

Build platform
target
i486-pc-linux-gnu

Build tools

Compiler / Version / Compiler flags

gcc / gcc version 4.3.2 (Debian 4.3.2-1.1) / -Wall -W -Wno-unused -Wpointer-arith -Wcast-align -W -Wno-long-long -g -fno-strict-aliasing -pthread -pipe

c++ / gcc version 4.3.2 (Debian 4.3.2-1.1) / -fno-rtti -fno-exceptions -Wall -Wconversion -Wpointer-arith -Woverloaded-virtual -Wsynth -Wno-ctor-dtor-privacy -Wno-non-virtual-dtor -Wcast-align -Wno-long-long -g -fno-strict-aliasing -pthread -pipe

Configure arguments
--enable-application=xulrunner --prefix=/usr --with-default-mozilla-five-home=/usr/lib/xulrunner-1.9 --enable-default-toolkit=cairo-gtk2 --enable-pango --enable-xft --disable-freetype2 --enable-system-cairo --with-system-png --with-system-jpeg --with-system-zlib --with-system-bz2 --with-gssapi=/usr --with-system-nspr --with-system-nss --enable-xinerama --enable-single-profile --disable-profilesharing --enable-svg --enable-svg-renderer=cairo --enable-mathml --disable-pedantic --disable-long-long-warning --enable-gnomevfs --enable-gnomeui --disable-tests --disable-mochitest --disable-debug --enable-canvas --enable-js-binary --with-readline '--enable-extensions=default cookie permissions python/xpcom spellcheck' --disable-installer --disable-javaxpcom --disable-elf-dynstr-gc --enable-system-hunspell --disable-crashreporter --enable-system-sqlite --enable-system-lcms --disable-strip --disable-install-strip --enable-url-classifier --enable-startup-notification --host=i486-linux-gnu --build=i486-linux-gnu

www_linux_org_ru ★★★★★
(27.06.10 03:55:43 MSK)

Ссылка

Ответ на: комментарий от Sylvia 26.06.10 13:00:50 MSK

> тоже incorrect, никогда релизные сборки не собирались чем-либо кроме

GCC: (GNU) 4.1.1 20061011 (Red Hat 4.1.1-30)

Ну если брать официальные сборки разработчиков, то да. А если брать FireFox, собранный сопроводителями дистрибутива, то нет.

В Убунте, например, FF собран gcc version 4.4.3 (Ubuntu 4.4.3-4ubuntu5).

sjinks ★★★
(27.06.10 04:46:20 MSK)

после прочтения новости — проникся ещё большем отвращением к своей любимой мозилле :-(

(нет, нет, я конешно не удалю тебя, мозилла, настроение ты мне подиспортила)

# p.s.: если новость про -Os, то какого фига автор новости ничего не сказал про размер? хуже стало или нет?

mkfifo ★
(27.06.10 05:07:20 MSK)

Ответ на: комментарий от bbk123 26.06.10 23:54:53 MSK

-Os и более быстрый бинарь никак не связаны

Ulrich Drepper не согласен.

A larger code size means higher pressure on the L1i (and also L2 and higher level) caches. This can lead to less performance. Smaller code can be faster. Fortunately gcc has an optimization option to specify this. If -Os is used the compiler will optimize for code size. Optimizations which are known to increase the code size are disabled. Using this option often produces surprising results. Especially if the compiler cannot really take advantage of loop unrolling and inlining, this option is a big win.

Мотивируется это тем, что у кода, оптмизированного на размер, лучшая локальность и кэш L1i меньше забивается развернутыми функциями. Ну и чем меньше размер кода, тем больше вероятность того, что код будет находиться в кэше, в результате чего снижаются дорогостоящие операции чтения памяти и т.п.

PS — а на практике приходится сидеть с CacheGrind'ом и отлавливать места, где с кэшем все хреново.

sjinks ★★★
(27.06.10 05:08:25 MSK)

Насколько я понял, разработчики GCC исправили работу одной из опций компилятора, которая делает то, что ей и положено — минимизирует размер исполняемого файла. Из-за чего визг-то поднялся?

И автору новости на будущее: метку opensource в разделе GNU/FSF ставить неуместно.

sinister666 ★★
(27.06.10 05:09:58 MSK)

Ответ на: комментарий от sjinks 27.06.10 04:46:20 MSK

но с опцией -Os

aptyp ★★★★
(27.06.10 05:49:36 MSK)

Ссылка

Ответ на: комментарий от sinister666 27.06.10 05:09:58 MSK

>Из-за чего визг-то поднялся?

хомячки должны визжать

registrant ★★★★★
(27.06.10 08:52:38 MSK)

Ссылка

Ответ на: комментарий от sjinks 27.06.10 05:08:25 MSK

можно задавать размер кешей через

--param l1-cache-size=16 --param l2-cache-size=256

16k/256k

разумеется , у тех процессоров чей кеш будет меньше указанного будут проблемы с производительностью, поэтому стоит определиться с мейнстримом, я уже выше написала, наверное самые слабые x86 это Geode, i586 , не знаю какой там кеш, ну и посмотреть на P2-P3

Sylvia ★★★★★
(27.06.10 08:55:30 MSK)

Ссылка

Ответ на: комментарий от megabaks 27.06.10 03:49:22 MSK

если -O не указана ни в каком явном виде, подразумевается что она есть,
для отключения оптимизации стоит явно задавать -O0

Sylvia ★★★★★
(27.06.10 08:56:54 MSK)

http://s45.radikal.ru/i109/1006/81/5b0477bdde9c.png
а вот я не жалуюсь что фф тормозит) наоборот очень даже шустро работает

Sylvia ★★★★★
(27.06.10 09:01:11 MSK)

Ответ на: комментарий от sjinks 27.06.10 05:08:25 MSK

PS — а на практике приходится сидеть с CacheGrind'ом и отлавливать места, где с кэшем все хреново.

Весьма глупое занятие: сейчас кэши различаются в разных процессорах до 24 раз (сравните Q9550 и Athlon Neo, например). При этом у них разная структура, скорость, ассоциативность и др., так что инструкции влазящие в кэш вашего компа могут не влезть у другого и наоборот где-то ваша оптимизация может быть избыточна.

Vudod ★★★★★
(27.06.10 09:13:23 MSK)

Внезапно, на моём компе FF, собраный GCC 4.5, запускается даже быстрее.

Dmitry_Sokolowsky ★★★★★
(27.06.10 09:15:08 MSK)

Ответ на: комментарий от Sylvia 27.06.10 09:01:11 MSK

Суровый у тебя десктоп, как для девушки.

Dmitry_Sokolowsky ★★★★★
(27.06.10 09:43:38 MSK)

Ссылка

Ответ на: комментарий от Dmitry_Sokolowsky 27.06.10 09:15:08 MSK

Дима! Ну при чём здесь скорость запуска?

~~Lumi~~ ★★★★★
(27.06.10 10:42:30 MSK)

Ответ на: комментарий от sjinks 27.06.10 05:08:25 MSK

>igher pressure on the L1i (and also L2 and higher level) caches.

Ох блин. Ну и какого хрена они тут эти пишут. Уже давно ясно, что сделать так, чтобы все помещалось в кеши процессора - не возможно. А оптимизация бывает 2х видов - по процессору и по памяти. Ну и соответственно в 1ой мы получаем код большего размера, но выполняющийся быстрее, т.к. развернуты циклы, стек оптимизирован и прочее, а во втором случае - получаем более медленный код, зато он не жрет память. О чем кипеж - не ясно. PS считаю, что те, кто поднял эту тему либо не компетентен, либо тонко троллит.

rave ★
(27.06.10 10:43:24 MSK)

По теме: наконец-то -Os в gcc начала работать корректно! :D

~~Lumi~~ ★★★★★
(27.06.10 10:44:24 MSK)

Ответ на: комментарий от Dmitry_Sokolowsky 27.06.10 09:15:08 MSK

find ~/.mozilla/firefox -iname «*.sqlite» -exec sqlite3 {} «VACUUM; REINDEX;» \;

вот после такого он еще быстрее запускаться будет (только ФФ перед командой надо закрыть, а то базы попортит)

насчет суровости десктопа - если честно, надоело, раньше была kde4, ноутбук далеко не новый, много я все равно на нем не использую, поэтому мне хватает просто compiz + lxpanel, т.н. «свистелки» есть, но я предпочитаю их не запускать без лишней надобности,
на десктопе тоже принцип Оккама, все равно инет, музыку послушать, поиграть..

Sylvia ★★★★★
(27.06.10 10:52:22 MSK)

Ссылка

Заголовок новости некорректный. Желтизна какая-то.

frost_ii ★★★★★
(27.06.10 11:28:44 MSK)

Ссылка

Ответ на: комментарий от Sylvia 27.06.10 08:56:54 MSK

> если -O не указана ни в каком явном виде, подразумевается что она есть

Вы не путаете?

http://gcc.gnu.org/onlinedocs/gcc-4.4.4/gcc/Optimize-Options.html#Optimize-Op...

-O0: Reduce compilation time and make debugging produce the expected results. This is the default

sjinks ★★★
(27.06.10 12:40:37 MSK)

Ответ на: комментарий от rave 27.06.10 10:43:24 MSK

> т.к. развернуты циклы, стек оптимизирован и прочее

Далеко не всегда. Обратите внимание, что сборка программы с -funroll-loops может дать худшие результаты. Ну и результат сборки с -O3 во многих случаях может оказаться медленнее, чем с -O2, в том числе и из-за агрессивного инлайнинга.

по процессору и по памяти

Еще и по скорости :-)

sjinks ★★★
(27.06.10 12:47:53 MSK)

Ссылка

Ответ на: комментарий от sjinks 27.06.10 12:40:37 MSK

/tmp :$/usr/local/gcc-4.5/bin/cc -Q --help=optimizers |grep enabled > noparam
/tmp :$/usr/local/gcc-4.5/bin/cc -O0 -Q --help=optimizers |grep enabled > noopt
/tmp :$diff noopt noparam
/tmp :$

да, похоже с чем-то другим путаю, где-то -O подставляется по умолчанию...

кстати в -O0 не такой уж и ноль по оптимизации, что-то все равно остается
http://paste.org.ru/?2d7inr

Sylvia ★★★★★
(27.06.10 12:57:51 MSK)

Ответ на: комментарий от Sylvia 27.06.10 12:57:51 MSK

В man gcc это называется - опции по умолчанию.

rave ★
(27.06.10 13:04:14 MSK)

Ответ на: комментарий от Vudod 27.06.10 09:13:23 MSK

> При этом у них разная структура, скорость, ассоциативность и др

Размер кэша и его параметры можно вычислять и в рантайме, было бы желание. Зная размер, ассоциативность и размер линии можно легко вычислить critical stride (что критично при операциях с большими массивами данных)

sjinks ★★★
(27.06.10 13:11:47 MSK)

Ссылка

Ответ на: комментарий от rave 27.06.10 13:04:14 MSK

Когда людям важен размер и скорость то они переписывают код на Си а часть даже на асм ...

~~mx__~~ ★★★★★
(27.06.10 13:12:22 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

← Разработчики игры Osmos опубликовали статистику продаж Linux версии

GNU's Not Unix

Уникальные идентификаторы в GNU/Linux →

>произсодительности

Похожие темы