Поиск по массиву и x86-инструкция scas. Хочу scas!

0

2

Собственно, в этом примере:

void main () {
	short int a[5]={12,15,1,17,248};
	short int i=0;
	short int b=17;
	for (;i<(sizeof a/sizeof *a);i++) {
		if (a[i]==b) printf("Hello, %d\n",i);
	}
}

GCC упорно не хочет генерировать из этого самый простой и логичный в данном случае машинный код -

repne scasw

Генерируется вместо этого цикл с явным cmp.

Почему и как сделать так, чтобы GCC вспомнил о существовании scas с префиксом repne (повторять пока не установлен zero flag) при поиске по массиву?

Спасибо!

Ссылка

← Perl, обработка даты

Хранить порядок изображений в БД →

Почему-то здесь пишут, что строковые операции в ассемблере якобы очень медленные. Первый раз об этом слышу :(

https://gcc.gnu.org/ml/gcc/2008-07/msg00599.html

DRVTiny ★★★★★
(07.12.15 14:23:02 MSK) автор топика

-O2 или -O3?

Deleted
(07.12.15 14:24:01 MSK)

А вообще, не думаю, что разработчики дураки, видимо, есть какие-то проблемы с этими инструкциями.

Deleted
(07.12.15 14:24:43 MSK)

Ссылка

Ответ на: комментарий от DRVTiny 07.12.15 14:23:02 MSK

Там про movsb, который будет копировать по одному байту, против memcpy, в котором копирование будет большими блоками.

i-rinat ★★★★★
(07.12.15 14:25:11 MSK)

Ссылка

Ответ на: комментарий от Deleted 07.12.15 14:24:01 MSK

При все -O, включая «нулевой» - генерируется код с je на метку.

Я всегда считал, что repe/repne scas весьма быстр, уж куда быстрее сбивающего конвеер je

DRVTiny ★★★★★
(07.12.15 14:27:15 MSK) автор топика

Ответ на: комментарий от DRVTiny 07.12.15 14:27:15 MSK

Ещё поделись крутыми историями что ты считал.

anonymous
(07.12.15 14:33:17 MSK)

Ответ на: комментарий от anonymous 07.12.15 14:33:17 MSK

??? Анонимус, ты в адеквате?

DRVTiny ★★★★★
(07.12.15 14:40:58 MSK) автор топика

Ссылка

https://gcc.gnu.org/ml/gcc/2008-07/msg00599.html и дальше, разные мнения насчёт полезности этих самых строковых инструкций. Ты вообще проверял, что хотя бы на твоей машине вариант со scas будет быстрее, чем то, что генерирует gcc?

Gvidon ★★★★
(07.12.15 15:11:01 MSK)

Я тоже долгое время думал, что gcc генерирует говно. Но потом померял его вариант инкремента против моего.

movl (var), %eax
addl $1, %eax
movl %eax, (var)
;; vs
addl $1, (var)

И оказалось, что его вариант быстрее.

Будь мужиком, ЗАБЕНЧМАРКАЙ с rdtsc. Кстати, есть ненулевая вероятность, что с -Os gcc сделает как раз repne scasw.

P. S. кстати, почитай о 16-битных словах в long mode. Нирикаминдую так делоть.

kawaii_neko ★★★★
(07.12.15 15:17:18 MSK)

как уже сказали, эти инструкции будут работать медленнее, чем то, что выдаёт компилятор, потому что вручную эти инструкции мало кто писал, а компиляторы их исторически не генерировали, в итоге производители процессоров стали делать упор на оптимизацию последовательностей инструкций, которые обычно выдаются компилятором, а на строковые инстркции забили и оставили их только ради совместимости

по крайней мере я такую версию знаю

Harald ★★★★★
(07.12.15 15:19:39 MSK)

Ответ на: комментарий от Gvidon 07.12.15 15:11:01 MSK

Если посоветуете вариант, как это протестировать - проверю :)

Пока вижу сценарий тестирования примерно как «скопировать ассемблерный код из objdump, переправить на repne, скомпилить, сравнить время выполнения 10^6 раз со временем исполнения Си-кода». Правильно мыслю или не очень? Только printf убрать нужно, а то это, наверное, процентов 80 всего времени исполнения...

DRVTiny ★★★★★
(07.12.15 15:19:39 MSK) автор топика

Ответ на: комментарий от kawaii_neko 07.12.15 15:17:18 MSK

16 бит только в качестве примера. Но когда я пробовал с обычным int'ом - тоже scas не генерировался.

DRVTiny ★★★★★
(07.12.15 15:21:16 MSK) автор топика

Ссылка

Ответ на: комментарий от kawaii_neko 07.12.15 15:17:18 MSK

А почему именно

addl $1, %eax

А не просто incl %eax?

DRVTiny ★★★★★
(07.12.15 15:25:29 MSK) автор топика

Ответ на: комментарий от Harald 07.12.15 15:19:39 MSK

Вы правы. Вот, что мне ответили на StackOverflow:

http://stackoverflow.com/questions/34132889/how-to-force-gcc-to-produce-repne...

Видимо, в Intel в связи с тотальной многоядерностью забили на «длинные» инструкции. Получается, что программирование на CISC-овом Intel в RISC-like стиле теперь выгоднее использования встроенных в процессор «высокоуровневых» микропрограмм.

Печально, мне инструкции с rep'ом всегда нравились своей простотой и лаконичностью.

DRVTiny ★★★★★
(07.12.15 15:32:16 MSK) автор топика