Скорость работы проги

0

4

Пишу на двух машинах (дом и работа), на одной стоит Phenom II x4 + гента, на другой - Core i5 + венда. Памяти поровну.

Пишу расчет газодинамики, не вдаваясь в подробности быстродействие было 243 и 210 секунд на 1000 циклов соответственно.

Перегребал свой говнокод на предмет тормозов, нашел пачку копирований вместо ссылок и прочего. Исправил. Результат: AMD - 212 секунд на 1000 циклов, Intel - 41 секунда.

Флаги компиляции, данные, код - все одно. На линуксе собираю GCC, на венде - MinGW.

WTF? Неужели AMD настолько тормознее интела?

Ссылка

← Как использовать файлы в /var/lock ?

fscanf не читает double →

На арифметике - да, АМД тормознее. Но настолько - это фантастика.

~~fragmentor~~
(16.06.13 15:31:55 MSK)

Ссылка

У вас эксперименты прямо как в американских «научных» телешоу - позапускать гонвокод на разных ОС и сделать выводы о железе.

Citramonum ★★★
(16.06.13 15:37:32 MSK)

Ответ на: комментарий от Citramonum 16.06.13 15:37:32 MSK

Из сторонних либ там только ZLib и VTK. По поводу последнего - от него тормоза не такие большие, проверял.

В чем в данном случае будет разница из-за ОС кроме этого?

upcFrost ★★★★★
(16.06.13 15:55:30 MSK) автор топика

Ссылка

Ну так профильни, зачем гадать?

anonymous
(16.06.13 16:12:15 MSK)

Кэш больше?

i-rinat ★★★★★
(16.06.13 16:17:12 MSK)

Ссылка

Интересно, а что профайлер показывает?

AF ★★★
(16.06.13 16:20:16 MSK)

Ссылка

Ответ на: комментарий от anonymous 16.06.13 16:12:15 MSK

Профильнул, собственно таким образом и нашел пачку косяков. Но то под вендой делал. На линуксе все руки не доходят

upcFrost ★★★★★
(16.06.13 16:32:44 MSK) автор топика

Ссылка

оптимизация native, режим x64 ?

exhu ★
(16.06.13 16:35:11 MSK)

Ответ на: комментарий от exhu 16.06.13 16:35:11 MSK

да. Под линуксом пробовал и native, и amdfam10 - один черт

upcFrost ★★★★★
(16.06.13 16:51:11 MSK) автор топика

Ссылка

без сырцов и флагов компиляции можно гадать до опупения

true_admin ★★★★★
(16.06.13 17:08:52 MSK)

Запусти под perf'ом, видно будет почему.

mv ★★★★★
(16.06.13 19:33:54 MSK)

Ссылка

Ответ на: комментарий от true_admin 16.06.13 17:08:52 MSK

без сырцов и флагов компиляции можно гадать до опупения

Как будто флаги что-то скажут.

mv ★★★★★
(16.06.13 19:34:25 MSK)

профайлер? не не слышал

anonymous
(16.06.13 20:14:40 MSK)

Ссылка

Ответ на: комментарий от mv 16.06.13 19:34:25 MSK

Ну как бы есть разница -O0 или -O4 (clang)

true_admin ★★★★★
(16.06.13 21:53:19 MSK)

Ответ на: комментарий от true_admin 16.06.13 21:53:19 MSK

Обычно юзаю -O3 (т.к. большая часть проги STL), пробовал -O2 - оказалось на секунду медленнее

upcFrost ★★★★★
(16.06.13 22:05:50 MSK) автор топика

Ссылка

Ответ на: комментарий от true_admin 16.06.13 21:53:19 MSK

Ну как бы есть разница -O0 или -O4 (clang)

Флаги компиляции, данные, код - все одно.

mv ★★★★★
(17.06.13 03:03:48 MSK)

Ответ на: комментарий от mv 17.06.13 03:03:48 MSK

1) я попросил уточнить условия эксперимента. Это шаг N1 в выявлении подобных проблем. Ты с этим не согласен?

2) Ты уверен что настолько хорошо знаешь все флаги gcc всех версий и какой-нить -march=pentium4 не вызовет проблем с производительностью на на атлонах?

true_admin ★★★★★
(17.06.13 03:26:31 MSK)

Какие конкретно процессоры? Насколько утилизированы воможности многопоточности?

cdshines ★★★★★
(17.06.13 03:35:21 MSK)

Ссылка

Пишу на двух машинах (дом и работа), на одной стоит Phenom II x4 + гента, на другой - Core i5 + венда. Памяти поровну.

Точные модели обоих процессоров, материнских плат, оперативки (частота), где все это?

Ванга подсказывает что тс купил амд компьютер в 2008 году, интел компьютер в 2012 году.

~~bhfq~~ ★★★★★
(17.06.13 03:38:58 MSK)
Последнее исправление: bhfq 17.06.13 03:40:42 MSK (всего исправлений: 1)

Ответ на: комментарий от true_admin 17.06.13 03:26:31 MSK

2) Ты уверен что настолько хорошо знаешь все флаги gcc всех версий и какой-нить -march=pentium4 не вызовет проблем с производительностью на на атлонах?

Не вызовет таких проблем (212 против 41)? Конечно уверен.

mv ★★★★★
(17.06.13 03:53:31 MSK)

Ссылка

Ответ на: комментарий от bhfq 17.06.13 03:38:58 MSK

Да и фены x4 тоже разные бывают, мб ноутбучный серии «M» ;)

Linuxman ★
(17.06.13 04:03:36 MSK)

Ссылка

больше всего похоже на кеш

Я когда-то показывал, как мой ноутбук на Pentium M умножает матрцы быстрее 2-процессорного сервера на свежевышедших тогда Opteron-ах.

anonymous
(17.06.13 12:10:56 MSK)

Ссылка

Профильнул, опять на венде. На втором месте (ожидаемо) zlib. На первом - fmax O_o

Может я что-то делаю не так? Юзаю Very Sleepy

upcFrost ★★★★★
(17.06.13 21:29:33 MSK) автор топика

Ответ на: комментарий от upcFrost 17.06.13 21:29:33 MSK

Все, тупанул, флаги не те. Основной тормоз - VTK, вернее его zlib. За ним следует дыша в пятки присваивание переменных в векторе (там структура). Это печально

upcFrost ★★★★★
(17.06.13 21:48:10 MSK) автор топика
Последнее исправление: upcFrost 17.06.13 21:48:25 MSK (всего исправлений: 1)

Ссылка

Профильнул на венде на AMD (на работе линукс ставить некогда). Результат неутешительный. Одна и та же прога на одной и той же венде. Разница только в железе. Показания те же - 212 против 40 (еще чуть подчистил).

Судя по тому, что вижу - AMD намного тормознее обрабатывает векторы (вернее все кроме их создания) и структуры. Очень сильно тормознее. Хз почему, надо уже в асме смотреть на чем оно вешается. Внезапно вверх тормозов вылезло возведение в квадрат.

Зато внезапно VTK стал работать шустрее (видимо на общем фоне). И работа с выделением памяти (создание/перемещение вектора) довольно быстрая.

Может кстати и правда кэш - у i5 он на четверть больше. Хотя хз

upcFrost ★★★★★
(18.06.13 02:21:57 MSK) автор топика
Последнее исправление: upcFrost 18.06.13 02:23:43 MSK (всего исправлений: 1)

Ответ на: комментарий от upcFrost 18.06.13 02:21:57 MSK

Попробуй прикрутить sse, если так важно?

Правда, «прикрутить» здесь значит, скорее, «переписать заново нужные места», но...

cdshines ★★★★★
(18.06.13 02:25:48 MSK)
Последнее исправление: cdshines 18.06.13 02:26:28 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от upcFrost 18.06.13 02:21:57 MSK

Вы случайно не знаете точных моделей процессоров с которыми имеете дело м?

~~bhfq~~ ★★★★★
(18.06.13 02:39:00 MSK)

Ответ на: комментарий от bhfq 18.06.13 02:39:00 MSK

AMD Phenom II x4 925 (2.8) и Intel Core i5-2320 (3.0)

upcFrost ★★★★★
(18.06.13 10:17:49 MSK) автор топика

Ответ на: комментарий от upcFrost 18.06.13 10:17:49 MSK

По кешам они одинаковые, только что у AMD L1 128, Intel L1 64, не? Трудно искать так информацию, много модификаций.

~~bhfq~~ ★★★★★
(18.06.13 13:58:42 MSK)

Ответ на: комментарий от bhfq 18.06.13 13:58:42 MSK

Твоя правда, ща глянул - и правда один к одному почти. Сначала не ту модель смотрел

upcFrost ★★★★★
(19.06.13 01:05:46 MSK) автор топика

Ссылка

А результаты одинаковые?

i-rinat ★★★★★
(19.06.13 01:35:29 MSK)

Ответ на: комментарий от i-rinat 19.06.13 01:35:29 MSK

В смысле вычислений? Да, все норм просчитывает

upcFrost ★★★★★
(19.06.13 02:10:35 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Как использовать файлы в /var/lock ?

Development

fscanf не читает double →

больше всего похоже на кеш

Похожие темы