Деление целых на 2 через битовый сдвиг - архаизм?

1

3

#include <iostream>
using namespace std;

int main()
{
	int v = 0;
	for(int i = 0; i < 2000 * 1000 * 1000; ++i) {
		v ^= i >> 1; /* i / 2 */
	}
	cout << v << endl;
	return 0;
}

Если битовый сдвиг заменить обычным делением, то время выполнения не изменится. Обе операции насколько мне известно занимают 1 такт. Запускал на x64.
Существуют ли архитектуры (arm, mips, ...), для которых эти и другие известные трюки - полноправная оптимизация?

UPD: при делении на 3, разница между сдвигом и делением ощутимая. Вопрос: как так, ведь обе инструкции за 1 такт выполняются?

Ссылка

← gtkiconview вопрос

Cодержимое атрибута «src» приводится в полный вид →

← 1 2 3 4 5 6 →

компилятор сам может заменять деление на степени двойки сдвигом

Harald ★★★★★
(06.07.13 12:51:38 MSK)

Ответ на: комментарий от Harald 06.07.13 12:51:38 MSK

Да, уже заметил. Но почему деление все еще выполняется медленнее чем сдвиг, там же 1 такт для обеих инструкций?

nerdogeek ★
(06.07.13 12:55:14 MSK) автор топика

Обычно бесполезно пытаться быть умнее компилятора. Их пишут очень умные бородатые дядьки, которые знают намного больше, чем ты.

~~prischeyadro~~ ★★★☆☆
(06.07.13 12:55:33 MSK)

Ссылка

архаизм

Теперь это просто привычка. Привычка, которая иногда может сослужить хорошую службу.

buddhist ★★★★★
(06.07.13 12:58:18 MSK)

Ссылка

Ответ на: комментарий от nerdogeek 06.07.13 12:55:14 MSK

Обе операции насколько мне известно занимают 1 такт. Запускал на x64.

Откуда тебе известно такое? Можешь привести соответствующие цитаты из мануала? :)

Harald ★★★★★
(06.07.13 13:01:22 MSK)

Ссылка

Как? Об косяк. Ассемблерный листинг то посмотри.

fornlr ★★★★★
(06.07.13 13:04:00 MSK)

Ссылка

Как ты собираешься делить на три при помощи битового сдвига? Деление на три компилятор, вероятно, должен заменить на умножение на константу. Это медленнее битового сдвига, но все еще намного быстрее деления, разумеется. Дели не на константу, тогда компилятор будет вынужден использовать настоящее деление.

trycatch ★★★
(06.07.13 13:25:06 MSK)

Ответ на: комментарий от nerdogeek 06.07.13 12:55:14 MSK

Но почему деление все еще выполняется медленнее чем сдвиг, там же 1 такт для обеих инструкций?

нет же. Зависит от камня, деление может занимать десятки тактов. Гугли 'instruction latency'

~~mashina~~ ★★★★★
(06.07.13 13:26:15 MSK)

Ссылка

если делишь на константу, оставляй деление, компилятор сам разберется, как с ним быть, при необходимости заменит на сдвиг. Но если у тебя деление на переменную, во время компиляции компилятор не сможет предсказать ее значение и оставит деление. Если ты точно знаешь, что будешь делить только на степени двойки, юзай сдвиг в этом случае. А вообще преждевременные оптимизации - зло.

marvin_yorke ★★★
(06.07.13 14:09:33 MSK)

при делении на 3, разница между сдвигом и делением ощутимая. Вопрос: как так, ведь обе инструкции за 1 такт выполняются?

Вот откуда ты взял, что деление выполняется за один такт? И как ты делишь на 3 сдвигом.

anonymous
(06.07.13 14:16:01 MSK)

Обе операции насколько мне известно занимают 1 такт.
x64.

x64 - суперскалярная архитектура, забудь о тактах, и думай о том, как бы данные в кеш уместить.

Существуют ли архитектуры (arm, mips, ...), для которых эти и другие известные трюки - полноправная оптимизация?

Очевидно, что да. В том же ~~к1810вм86~~ i8086 сдвиг - 4 такта, деление - десятки, точно не помню. Но если сам компилятор это умеет, то это теряет смысл.

~~nanoolinux~~ ★★★★
(06.07.13 14:50:51 MSK)
Последнее исправление: nanoolinux 06.07.13 14:53:55 MSK (всего исправлений: 2)

Ссылка

Деление на 2 компилятор соптимизирует, деление на заранее неизвестную степень двойки - нет. Умножение - тоже. Так что сдвиг нужен.

annulen ★★★★★
(06.07.13 15:01:55 MSK)

Ответ на: комментарий от trycatch 06.07.13 13:25:06 MSK

Нет, я сравнивал деление на 2 (одинаково по скорости), потом отдельно деление на 2 сдвигом и просто деление на 3 (где-то 1 секунда в пользу сдвига).

nerdogeek ★
(06.07.13 15:21:36 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 06.07.13 14:16:01 MSK

И как ты делишь на 3 сдвигом.

Ну если деление сдвигом на два делается с помощью «>>», то на три наверное он делит с помощью «>>>» ;)

andreyu ★★★★★
(06.07.13 16:00:55 MSK)

Ссылка

Ответ на: комментарий от anonymous 06.07.13 14:16:01 MSK

выставь affinity на троичное ядро твоего процессора

~~stevejobs~~ ★★★★☆
(06.07.13 16:09:34 MSK)

Ссылка

Существуют ли архитектуры (arm, mips, ...), для которых эти и другие известные трюки - полноправная оптимизация?

Да, это полноправная оптимизация для любой архитектуры с плохим конпелятором. Не на всех ЦПУ ПЭВМ на базе ЧПУ есть деление вообще. Сюрпрайз? Так-то. А теперь вали варить борщи.

anonymous
(06.07.13 16:11:34 MSK)

Ответ на: комментарий от marvin_yorke 06.07.13 14:09:33 MSK

А вообще преждевременные оптимизации - зло.

На данный момент эта фраза уже 4.2
Потому что сейчас если не оптимизировать с самого начала (начиная еще с алгоритмов), но в итоге у тебя тетрис на i7-4990X с парой GX790 тормозить будет.

devl547 ★★★★★
(06.07.13 16:18:24 MSK)

Ответ на: комментарий от devl547 06.07.13 16:18:24 MSK

4.2 твоё 4.2: вот нетормозящий тетрис на питоне http://www.pygame.org/project-Tetris in 73 Lines-800-4495.html

true_admin ★★★★★
(06.07.13 16:43:49 MSK)

Ответ на: комментарий от true_admin 06.07.13 16:43:49 MSK

на питоне

Ну вот и все. Памяти оно сожрало столько, что мне бы хватило dosbox с какой-нибудь аркадкой запустить.

devl547 ★★★★★
(06.07.13 16:53:12 MSK)

Ответ на: комментарий от devl547 06.07.13 16:53:12 MSK

мне бы хватило dosbox с какой-нибудь аркадкой запустить.

Так запускай :).

true_admin ★★★★★
(06.07.13 16:58:39 MSK)

Ответ на: комментарий от true_admin 06.07.13 16:58:39 MSK

Уже. Kyrandia решил еще раз пройти)

devl547 ★★★★★
(06.07.13 16:59:35 MSK)

Ссылка

Ответ на: комментарий от anonymous 06.07.13 16:11:34 MSK

Не на всех ЦПУ ПЭВМ на базе ЧПУ есть деление вообще.

Не нужны такие в 2013-м году

nerdogeek ★
(06.07.13 16:59:48 MSK) автор топика

Ответ на: комментарий от true_admin 06.07.13 16:58:39 MSK

Так запускаю же!

anonymous
(06.07.13 17:00:04 MSK)

Ссылка

Какой один такт - щито ты несёшь, и что несут те, кто выше меня.

Деление на штеуде занимает в овер 20тактов в лучшем случае. 64битное умножение с 64битным результатом 1такт, с 128битным - 2 такта. Сдиг, если ты сдвигаешь регистр - выполняет 0.5такта. Битовые операции 0.33. Вернее это не время выполнения, а время, через которое штеуд начнёт исполнять следующую инструкцию. Обще время выполнение у деления тактов 50, у сдвигов/битовых операций для регистров - 1такт, для операндов в памяти +~2такта.

Что такое инструкции для операндов в памяти, и почему они дольше - для того, чтобы заюзать инструкцию из памяти - кешлайн из lcc должен мигрировать в l1d, а уж потом из него можно доставать операнды. Даже если у тебя кешлайн уже в l1d - доступ к l1d порядка 2-х тактов - поэтому все инструкции для операндов в памяти дольше на минимум 2такта.

~~osh5pntp8~~
(06.07.13 17:01:38 MSK)

Ответ на: комментарий от osh5pntp8 06.07.13 17:01:38 MSK

А у меня по результатам теста разница по времени выполнения между делением и сдвигом процентов 40. Хотя деление якобы 20 и более тактов, а сдвиг всего 0.5 такта.
Поэтому я ничего не понимаю что вообще происходит в данном случае...

nerdogeek ★
(06.07.13 17:06:29 MSK) автор топика

Ответ на: комментарий от osh5pntp8 06.07.13 17:01:38 MSK

И ещё, юз инструкции для операнда в памяти - тормазит конвейер и задержка до следующей инструкции в штеуде никак не может быть меньше такта. Если в сдвигах/битопах это штеудцы свели до 1такта, то для сложных операций, здаержка на которые для регистров 1такт - задержка увеличивается до 2-х.

~~osh5pntp8~~
(06.07.13 17:06:39 MSK)

Ссылка

Ответ на: комментарий от nerdogeek 06.07.13 17:06:29 MSK

int main(void) {
  uint64_t i = 1024ul*1024*1024, v = 0;
  while(--i)
    v ^= (i << 1);
  fprintf(stderr, "%lu\n", v);
}

//2427613104 cycles  
//4300874494 instructions              #    1.77  insns per cycle
//0.771506652 seconds time elapsed

int main(void) {
  uint64_t i = 1024ul*1024*1024, v = 0, d = rand();
  while(--i)
    v ^= (i/d);
  fprintf(stderr, "%lu\n", v);
}

//39895603399 cycles
//6522448852 instructions              #    0.16  insns per cycle 
//12.706586329 seconds time elapsed

Не тормазит у тебя потому, что ггц читерит и не юзает деление, а заменяет его плясками с умножением.

~~osh5pntp8~~
(06.07.13 17:14:10 MSK)

Ссылка

Ответ на: комментарий от nerdogeek 06.07.13 17:06:29 MSK

int main(void) {
  uint64_t i = 1024ul*1024*1024, v = 0, d = rand();
  while(--i)
    v ^= (i/666);
  fprintf(stderr, "%lu\n", v);
}

//8599377272 instructions              #    1.99  insns per cycle  
//4325258571 cycles
//1.374498496 seconds time elapsed

~~osh5pntp8~~
(06.07.13 17:15:36 MSK)

Ссылка

Ответ на: комментарий от nerdogeek 06.07.13 12:55:14 MSK

Деление за один такт в общем случае невозможно.

anonymous
(06.07.13 17:26:54 MSK)

Ответ на: комментарий от osh5pntp8 06.07.13 17:01:38 MSK

Доступ к L1 - 4 такта в лучшем случае. Кроме того, на OoO-архитектурах нет вообще смысла говорить о том, сколько тактов занимает та или иная инструкция.

anonymous
(06.07.13 17:28:39 MSK)

Ответ на: комментарий от nerdogeek 06.07.13 16:59:48 MSK

а это уже не тебе решать, мой юный друг. Когда чип с делением стоит на 10 центов дороже чипа без деления, при партиях в миллионы штук это имеет очень ощутимый эффект и дешевле занять программиста на лишние пару часов.

anonymous
(06.07.13 17:33:43 MSK)

Ответ на: комментарий от anonymous 06.07.13 17:28:39 MSK

Возможно - померить полную задержку я не особо могу, а так mov l1d, r;mov r, l1d - даст задержку 2такта - исходя из этого - я то и написал.

Да, не имеет, но имеет смысл мерить задержку, вносимую инструкцией. Их мы и мерием - получем достаточно точную теоретическую базу. Примерно наши вычесления счётчики инструкций и циклов нам и выдают.

~~osh5pntp8~~
(06.07.13 17:47:25 MSK)

Ответ на: комментарий от Harald 06.07.13 12:51:38 MSK

компилятор сам может заменять деление на степени двойки сдвигом

Да, я тоже так думал.

       │       mov    $0x2,%esi
       │       cltd
  0,42 │       idiv   %esi
 36,71 │       mov    %eax,%ebp
  0,84 │5df:   cmp    %r14d,%r13d
       │     ↑ jle    57c
       │       cmp    0x2c(%rsp),%r12d
       │       mov    0x10(%rsp),%r11

i-rinat ★★★★★
(06.07.13 17:51:07 MSK)

Ответ на: комментарий от true_admin 06.07.13 16:43:49 MSK

нетормозящий

pygame

Да там один pygame.init выполняется ощутимое время.

buddhist ★★★★★
(06.07.13 17:51:26 MSK)

Ссылка

Ответ на: комментарий от nerdogeek 06.07.13 17:06:29 MSK

Я там ещё и схалтурил немного - я не поглядел что там гцц нагинерил, а нагинерил он sse, причем как всегда криво - а ссе работают чуть медленне - поэтому числа не совсем правильные - но там порядка 5%, что не страшно.

~~osh5pntp8~~
(06.07.13 17:51:31 MSK)

Ссылка

Ответ на: комментарий от i-rinat 06.07.13 17:51:07 MSK

компилятор сам может заменять деление на степени двойки сдвигом
Да, я тоже так думал.

Если компилятор решил не заменять - ему виднее.

tailgunner ★★★★★
(06.07.13 17:55:52 MSK)

Ответ на: комментарий от tailgunner 06.07.13 17:55:52 MSK

Откуда вы берётесь? Не таких мест, где профитней оставлять деление вместо сдвига. Единственная причина по которой конпелятор это не заменит - это неосиляторство. Других причин нет, и быть не может, а ты, и подобные тебе не понимают, какую херню они несут.

~~osh5pntp8~~
(06.07.13 18:02:44 MSK)

Ответ на: комментарий от osh5pntp8 06.07.13 18:02:44 MSK

Единственная причина по которой конпелятор это не заменит - это неосиляторство.

Хм. Лалки анскильные, да? И характерное «нагинерил». Привет, суперхаккиллер1997, давно не виделись.

tailgunner ★★★★★
(06.07.13 18:07:12 MSK)
Последнее исправление: tailgunner 06.07.13 18:09:24 MSK (всего исправлений: 1)

Ответ на: комментарий от tailgunner 06.07.13 18:07:12 MSK

Причем тут лалки - у тебя есть 2 операции, которые дают абсолютно одинаковый результат, только первая выполняет в минимум 20раз дольше.

Внимание, вопрос: В каких случаях конпелятор должен заюзать первую операцию? Какой профит это даст, и зачем конпелятору его юзать. А так же, в чем профит не юзать 2-ю операцию?

Когда ты ответишь на эти вопросы - ты научишься думать перед тем, как чесать языком и нести херню в треде.

~~osh5pntp8~~
(06.07.13 18:10:47 MSK)

Ответ на: комментарий от anonymous 06.07.13 17:33:43 MSK

а можно подробнее? Занять на пару часов компиляторописателя, который деление навелосипедит или кого?

anonymous
(06.07.13 18:18:51 MSK)

Ссылка

Ответ на: комментарий от tailgunner 06.07.13 17:55:52 MSK

Если компилятор решил не заменять - ему виднее.

Есть ещё вариант «в копиляторе баг». Очень неприятный вариант, надо сказать.

i-rinat ★★★★★
(06.07.13 18:26:36 MSK)

Ответ на: комментарий от osh5pntp8 06.07.13 18:02:44 MSK

А до тебя не доходит, что на современных x86 сдвиг будет вместо деления подставлен уже на уровне декодера инструкций?

anonymous
(06.07.13 18:29:43 MSK)

Ответ на: комментарий от osh5pntp8 06.07.13 17:47:25 MSK

В первом абзаце ты правильно пишешь, что задержку померять нельзя. Во втором пишешь, что надо мерять задержку. Шизофазия?

Кстати, задержки в два такта быть не может, пайплайн длиннее чем эти твои два такта, задержка даже у mov больше.

anonymous
(06.07.13 18:31:18 MSK)

Ответ на: комментарий от osh5pntp8 06.07.13 18:02:44 MSK

Не таких мест, где профитней оставлять деление вместо сдвига.

Их вообще-то два. Есть арифметический сдвиг вправо, а есть логический.

Absurd ★★★
(06.07.13 18:32:57 MSK)

Ответ на: комментарий от i-rinat 06.07.13 18:26:36 MSK

Есть ещё вариант «в копиляторе баг»

Я думаю, этим шансом можно пренебречь. Кстати, код в студию.

tailgunner ★★★★★
(06.07.13 18:40:18 MSK)

Ответ на: комментарий от tailgunner 06.07.13 18:40:18 MSK

Кстати, код в студию.

http://sources.debian.net/src/linux/3.9.6-1/fs/reiserfs/stree.c#L203

Какой удобный сервис, однако.

i-rinat ★★★★★
(06.07.13 18:45:04 MSK)

Ответ на: комментарий от i-rinat 06.07.13 18:45:04 MSK

ЕМНИП, в замене деления на сдвиг у чисел со знаком есть какая-то засада.

tailgunner ★★★★★
(06.07.13 18:47:55 MSK)

Ответ на: комментарий от tailgunner 06.07.13 18:47:55 MSK

в замене деления на сдвиг у чисел со знаком есть какая-то засада.

И MCVC и GCC при сдвиге знаковых переменных используют SAR а не SHR. Хотя стандартом случай не оговорен.

Absurd ★★★
(06.07.13 18:53:49 MSK)

Ответ на: комментарий от tailgunner 06.07.13 18:40:18 MSK

Я думаю, этим шансом можно пренебречь

Тут вполне может быть, ибо уровней вложенности много.

i-rinat ★★★★★
(06.07.13 18:56:27 MSK)

Ответ на: комментарий от anonymous 06.07.13 18:29:43 MSK

int main(void) {
  uint64_t i = 1024ul*1024*1024, v = 1 << (rand() & 0x4);
  fprintf(stderr, "%lu\n", v);
  while(--i)
    v ^= (i / v);//divq	%rbx
  fprintf(stderr, "%lu\n", v);
}
//v == 16
//6623723121 instructions              #    0.10  insns per cycle

Что-то не вижу я такого, возможно у меня старый штеуд.

~~osh5pntp8~~
(06.07.13 18:56:59 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 5 6 →

← gtkiconview вопрос

Development

Cодержимое атрибута «src» приводится в полный вид →

Похожие темы