Оптимизации циклов в gcc

0

2

Сабж. Лабораторная работа в универе - реализовать сложение двух массивов с использованием mmx и на чистом си без оптимизаций для сравнения быстродействия. Код в общем-то очевидный, приводить смысла нет, но вот в чем проблема - препод сказал проверять в дебаге, потому что вижак оптимизирует циклы. Проверил, действительно, цикл сложения оптимизирован в sse. Как заставить gcc оптимизировать код так же? Пробовал

-mmmx -O99 -march=native -msse4 -msse4.1 -msse4.2 -msse4a -mfpmath=sse -msse -msse2 -msse3 -m3dnow

Не помогло.

Ссылка

← gcc в shebang

rc_cmd не подхватывает переопределенные функции →

-O2 или -O3 ?

~~AIv~~ ★★★★★
(25.09.12 21:33:26 MSK)

Ответ на: комментарий от AIv 25.09.12 21:33:26 MSK

Some users boast about even better performance obtained by using -O4, -O9, and so on, but the reality is that -O levels higher than 3 have no effect. The compiler may accept CFLAGS like -O4, but it actually doesn't do anything with them. It only performs the optimizations for -O3, nothing more.

Поставил -O99, для гарантии.

Spectator ★
(25.09.12 21:35:25 MSK) автор топика

Код в общем-то очевидный

нет. Не очевидный. Возможны варианты, и никому тут непонятно, какой вы выбрали. Хотя-бы размер данных скажите. MSVC что, сразу 8 байт за раз складывает, а потом по памяти распихивает? Что хоть значит «сложение массивов» по вашему?

~~drBatty~~ ★★
(25.09.12 21:40:57 MSK)

Ответ на: комментарий от Spectator 25.09.12 21:35:25 MSK

Поставил -O99, для гарантии.

А что не 9999? Сказано-же, больше 3х не работает.

~~drBatty~~ ★★
(25.09.12 21:41:48 MSK)

Ссылка

-march=native -mfpmath=sse -O2 -ftree-vectorize

devl547 ★★★★★
(25.09.12 21:51:25 MSK)

Ответ на: комментарий от drBatty 25.09.12 21:40:57 MSK

        for (int j = 0; j < ARR_C; j++)
            c[j] = a[j] + b[j];

Лабораторная работа в универе. Вы чего вообще от неё ожидаете?

Spectator ★
(25.09.12 22:06:53 MSK) автор топика

Ответ на: комментарий от devl547 25.09.12 21:51:25 MSK

Спасибо. Вижу изменения, не понимаю, что он сделал, но главное что сделал.

Spectator ★
(25.09.12 22:16:07 MSK) автор топика

Ссылка

Ответ на: комментарий от Spectator 25.09.12 22:06:53 MSK

Анроллинг и векторизация, да.

devl547 ★★★★★
(25.09.12 22:36:09 MSK)

Ссылка

http://gcc.gnu.org/wiki/Graphite

ну и аналогично http://polly.llvm.org/

anonymous
(25.09.12 23:28:17 MSK)

Ссылка

с использованием mmx и на чистом си

Вы делите на ноль.

buddhist ★★★★★
(26.09.12 01:08:38 MSK)

Ответ на: комментарий от buddhist 26.09.12 01:08:38 MSK

Вы делите на ноль.

Вы не осилили интринсики.

O02eg ★★★★★
(26.09.12 08:22:18 MSK)

Ответ на: комментарий от buddhist 26.09.12 01:08:38 MSK

делите на ноль

А так?

реализовать ...
1) с использованием mmx и
2) на чистом си без оптимизаций
для сравнения быстродействия (1) и (2).

Репарсер, недорого ;)

bormant ★★★★★
(26.09.12 08:47:51 MSK)

Ответ на: комментарий от O02eg 26.09.12 08:22:18 MSK

А вы не осилили понятие «чистый»

buddhist ★★★★★
(26.09.12 09:07:51 MSK)

Ссылка

Ответ на: комментарий от bormant 26.09.12 08:47:51 MSK

Да, что-то во втором часу ночи плохо распарсил :)

buddhist ★★★★★
(26.09.12 09:08:58 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← gcc в shebang

Development

rc_cmd не подхватывает переопределенные функции →

Похожие темы