Новая самая быстрая реализация QuickSort на AVX2

arm, x86

Вышла железная сортировка для целых чисел максимально полно использующая расширение процессоров x86 AVX2. На данный момент это самая быстрая сортировка вообще. Так же автор щепетильно подошел к вопросу формальной верификации алгоритма. Доступна версия для int32, но по заверениям автора алгоритм легко перенести на другие битности. Особо отмечено что алгоритм можно использовать в криптографических приложениях.

Также автор обещает порт на ARM NEON

>>> Подробности

Ссылка

← Canonical представил Minimal Ubuntu, новую минималистичную редакцию дистрибутива

Debian 9.5 →

← 1 2 3 4 →

AVR NEON

ARM NEON.

~~a1batross~~ ★★★★★
(11.07.18 14:26:35 MSK)

Ответ на: комментарий от a1batross 11.07.18 14:26:35 MSK

Пофиксил. Спасибо.

bga_ ★★★★
(11.07.18 21:44:01 MSK) автор топика

Ссылка

Так же

Также

~~jazzman~~
(12.07.18 07:56:28 MSK)

Ссылка

Микрооптимизация - зло. Какой смысл вообще оптимизировать этот убогий алгоритм, у которого худший случай - n^2? Heapsort, Mergesort - лучше.

~~FilosofeM~~ ★★
(12.07.18 13:36:01 MSK)
Последнее исправление: FilosofeM 12.07.18 13:36:44 MSK (всего исправлений: 1)

Ответ на: комментарий от FilosofeM 12.07.18 13:36:01 MSK

Сразу видно что ты анскильный. Mergesort требует ещё O(N) памяти сверху и её выделение не бесплатно, Heapsort медленнее Quicksort-а, несмотря на худший случай n log n, поэтому есть Intorspective-sort который является наибольее оптимальным для общего случая. А он, в свою очередь использует Quicksort и Heapsort, при том Quicksort идёт в дело первым и только в худшем случае происходит переключение на Heapsort, так что оптимизация Quicksort штука очень нужная и полезная. Ну и да, есть случаи, где заведомо известно что массив не может содержать худшего случая, и тогда Heapsort проигрывает на пару с Mergesort-ом. Или случай когда размер контейнера статичен, тогда Mergesort выигрывает у остальных двух.

anonymous
(13.07.18 03:47:22 MSK)

Ссылка

Ответ на: комментарий от FilosofeM 12.07.18 13:36:01 MSK

А я рад что есть люди которым не все равно

loz ★★★★★
(13.07.18 11:38:07 MSK)

Ссылка

Ответ на: комментарий от FilosofeM 12.07.18 13:36:01 MSK

Реальность сложнее самообмана О-нотацией.

anonymous
(13.07.18 11:42:54 MSK)

Ссылка

На данный момент это самая быстрая сортировка вообще

В лучшем случае это может быть самая быстрая быстрая сортировка, но никак не самая быстрая сортировка вообще

Звучит неплохо

~~Crocodoom~~ ★★★★★
(13.07.18 11:44:19 MSK)

Ссылка

Призыв к владельцам Phenom, Celeron и гиперпней переходить на Core i3?

iZEN ★★★★★
(13.07.18 12:08:54 MSK)

сколько дураков не учишь, они игры всё равно в однопоток делают

~~darkenshvein~~ ★★★★★
(13.07.18 12:28:25 MSK)

Ответ на: комментарий от darkenshvein 13.07.18 12:28:25 MSK

Как записаться в твою школу скилла?

anonymous
(13.07.18 12:41:53 MSK)

Ответ на: комментарий от iZEN 13.07.18 12:08:54 MSK

Владельцам феномо-кукурузы же.

anonymous
(13.07.18 12:45:44 MSK)

Ссылка

Ответ на: комментарий от anonymous 13.07.18 12:41:53 MSK

сначала расскажи, как кодишь ты сам. пьяным, надеюсь?

~~darkenshvein~~ ★★★★★
(13.07.18 12:53:49 MSK)

Ссылка

Ответ на: комментарий от anonymous 13.07.18 12:41:53 MSK

Получить сотый левел в вов очевидно жи.

anonymous
(13.07.18 13:03:01 MSK)

Ссылка

Ответ на: комментарий от iZEN 13.07.18 12:08:54 MSK

Призыв к владельцам Phenom, Celeron и гиперпней переходить на Core i3?

нахрена? чтобы дома было теплее? эйвекс2 же на штеудах неюзабельные, просто для галочки стоят. в каком то тесте на хоботе, вроде, они нагрели адски бедный штеуд.

~~darkenshvein~~ ★★★★★
(13.07.18 13:05:15 MSK)

Ответ на: комментарий от darkenshvein 13.07.18 13:05:15 MSK

Но это же святой параллелизм, у него не может быть недостатков.

anonymous
(13.07.18 13:07:52 MSK)

Ссылка

Ответ на: комментарий от iZEN 13.07.18 12:08:54 MSK

гиперпней

AVX ИНСТРУКЦИИ! AVX ИНСТРУКЦИИ !AVX ИНСТРУКЦИИ! AVX ИНСТРУКЦИИ! AVX ИНСТРУКЦИИ! AVX ИНСТРУКЦИИ! AVX ИНСТРУКЦИИ!

*агрессивные крики князя*

Для тех кто в танке, линк.

https://www.youtube.com/watch?v=x3eFaf3pf6E

~~oriko32~~ ★
(13.07.18 13:34:25 MSK)

Ответ на: комментарий от darkenshvein 13.07.18 13:05:15 MSK

Я уже объяснял, что TDP процессоров в спецификации не учитывает их постоянную загрузку и задействование всех блоков. Поэтому кулер для 65 Вт процессора нужно покупать с серьёзным запасом по теплоотведению - 125-150 Вт оптимально. Но нет - будут ставить боксовые «демонстраторы».

iZEN ★★★★★
(13.07.18 13:37:02 MSK)

DJB!

AnDoR ★★★★★
(13.07.18 13:46:31 MSK)

Ссылка

Ответ на: комментарий от oriko32 13.07.18 13:34:25 MSK

Ты покажи, ткни. Вон штуку из оп-поста вообще только написали.

anonymous
(13.07.18 13:46:35 MSK)

Ответ на: комментарий от anonymous 13.07.18 13:46:35 MSK

Суть не в том что нет. Довольно много игр под маздаи их требуют. Не вторую итерацию конечно, но на гиперпне и первой то нет. Плюс сегодня нет, а завтра есть и всем этим экономщикам по губам проведут. Как уже с было с тем же SSE

~~oriko32~~ ★
(13.07.18 14:13:47 MSK)

Ссылка

Ответ на: комментарий от iZEN 13.07.18 12:08:54 MSK

Да вам сколько не ори, вы уже подоглохшие слегка.

t184256 ★★★★★
(13.07.18 14:23:42 MSK)

Ссылка

Ура! Теперь искать минимальное/максимальное значение в массиве станет ещё быстрей!

anonymous
(13.07.18 14:37:50 MSK)

Ссылка

На данный момент это самая быстрая сортировка вообще.

при условии что данные влазят в кэш второго уровня полностью. Было бы интресно сравнить на обьемах на порядок-два превышающих обьем кэша третьего уровня.

cvv ★★★★★
(13.07.18 16:26:13 MSK)

Ссылка

На AMD Zen два блока SSE работают гораздо быстрее чем один AVX2, т.к. при использовании SMT задействуются оба SSE блока, а AVX там синтетический микрокод загружаемый из AGESA, фактически исполняющийся на паре SIMD блоков.

steemandlinux ★★★★★
(13.07.18 17:25:31 MSK)
Последнее исправление: steemandlinux 13.07.18 17:27:26 MSK (всего исправлений: 2)

Новая самая быстрая реализация QuickSort

Ага: © — > © в 2 раза быстрее :)

quickquest ★★★★★
(13.07.18 18:34:00 MSK)
Последнее исправление: quickquest 13.07.18 18:34:30 MSK (всего исправлений: 1)

Ссылка

Только это ни разу не QuickSort, у него время сортировки зависит только от длины массива, но не от содержимого.

----

The NTRU Prime paper explained how to make constant-time sorting software

----

mike666 ★
(13.07.18 20:01:34 MSK)
Последнее исправление: mike666 13.07.18 20:02:37 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от darkenshvein 13.07.18 12:28:25 MSK

сколько дураков не учишь, они игры всё равно в однопоток делают

Зачем ты что то пытаешься высирать если ты ничерта не понимаешь в вопросе? Сколько ты не сетуй на разработчиков игр планировщик задач Windows магическим образом не научится ПРАВИЛЬНО синхронизировать потоки многопоточных приложений, правильно обрабатывать тайминги потока .... e.t.c К тому же ты наверно не учитываешь что пискать многопоточное «AppName» стоит сотни нефти ибо дофигища процессорного и ядерного матана (готовых либ многопотка НЕТ).

anonymous
(13.07.18 21:16:22 MSK)

Ссылка

абсолютно непонятно, зачем «самой быстрой реализации на AVX2» для инсталляции требуется... пистон. я так понимаю, чтобы это работало быстро, там просто должен быть обычный ассемблер с соответствующими инструкциями. ничего такого секретного там нет. и пистон там нигде даже рядом не лежал, что самое главное.

Iron_Bug ★★★★★
(13.07.18 22:14:09 MSK)

Ответ на: комментарий от Iron_Bug 13.07.18 22:14:09 MSK

абсолютно непонятно

Иди посуду подметай.

anonymous
(13.07.18 22:30:53 MSK)

Ссылка

Ответ на: комментарий от Iron_Bug 13.07.18 22:14:09 MSK

Может для сборки нужен? Ну там, написали собственный make на удаве например

MrClon ★★★★★
(13.07.18 22:45:23 MSK)

Ссылка

Ответ на: комментарий от Iron_Bug 13.07.18 22:14:09 MSK

Это же DJB, у него всё не как у людей. Гений, понимать надо. Возьми и перепакуй как тебе угодно. Суть не в пайтоне.

~~Legioner~~ ★★★★★
(13.07.18 22:59:57 MSK)

Ответ на: комментарий от steemandlinux 13.07.18 17:25:31 MSK

На AMD Zen два блока SSE работают гораздо быстрее чем один AVX2

Кто виноват в том, что на амд палёный авх?

т.к. при использовании SMT задействуются оба SSE блока

SMT не имеет никакого отношения к блокам и существует совершенно в другом месте.

~~LjubaSherif~~
(13.07.18 23:17:21 MSK)

Ответ на: комментарий от Legioner 13.07.18 22:59:57 MSK

Суть не в пайтоне.

вот и я о том же. зачем пихать что попало в пакеты, а потом удивляться, что никто не юзает. кому всрался этот пистон, если нужна быстрая сортировка? пистон и скорость - это по определению несовместимые вещи.

Iron_Bug ★★★★★
(13.07.18 23:42:42 MSK)

Ответ на: комментарий от LjubaSherif 13.07.18 23:17:21 MSK

SMT не имеет никакого отношения к блокам и существует совершенно в другом месте.

Щаз, у AMD можно загрузить SSE в 16 потоков на 8 ядерном проце и прирост будет почти 2 раза, при условии отсутствия ветвлений конечно же.

steemandlinux ★★★★★
(14.07.18 00:06:39 MSK)

Ответ на: комментарий от Iron_Bug 13.07.18 23:42:42 MSK

вот и я о том же. зачем пихать что попало в пакеты, а потом удивляться, что никто не юзает. кому всрался этот пистон, если нужна быстрая сортировка? пистон и скорость - это по определению несовместимые вещи.

Ну ты разберись сначала, что там на пайтоне. Небось инсталлятор, файло распихивающий по нужным местам. Просто возьми исходник сортировки и вкорячь себе в проект, вот и всё.

~~Legioner~~ ★★★★★
(14.07.18 01:50:48 MSK)

Ссылка

Ответ на: комментарий от steemandlinux 14.07.18 00:06:39 MSK

SMT не имеет никакой фактической ценности по части загрузки чего бы то ни было. SMT это некий кастыль, который позволять сливать два потока говнокода в один двойной поток говнокода, тем самым увеличивая его параллельность в 2раза. Всё это работает на одном единственном ядре.

~~LjubaSherif~~
(14.07.18 04:33:57 MSK)

Ответ на: комментарий от Iron_Bug 13.07.18 23:42:42 MSK

Такие вещи никто не пишет руками, хотя( судя по коду) пациент её писал руками. Естественно, что юзать такую парашу как пистон нормальный человек не будет, но пацан просто стал жертвой. Бывает.

~~LjubaSherif~~
(14.07.18 04:43:13 MSK)

Ответ на: комментарий от Iron_Bug 13.07.18 23:42:42 MSK

Пайтон сейчас - самый популярный язык программирования в среде искусственного интеллекта и массивной параллелизации.

Конечно, Пайтон всего лишь скрипт, но который оказался удобным для управления исполнением нативных процедур, написанных, в свою очередь, на ассемблере и оформленных в виде библиотек с API, доступным из Пайтона.

iZEN ★★★★★
(14.07.18 12:27:25 MSK)

Ссылка

А какой практический смысл в сортировке исключительно чисел?

~~bbk123~~ ★★★★★
(14.07.18 16:56:52 MSK)

Ответ на: комментарий от bbk123 14.07.18 16:56:52 MSK

«Под капотом» другим объектам назначают соответствующее им число.

anonymous
(14.07.18 17:24:11 MSK)

Ответ на: комментарий от anonymous 14.07.18 17:24:11 MSK

Каким другим объёктам? Какие числа ты назначишь строкам текста? Хеш для этого не подходит.

~~bbk123~~ ★★★★★
(14.07.18 18:00:40 MSK)

Ответ на: комментарий от bbk123 14.07.18 18:00:40 MSK

Такие, по которым их сортировать, например длину.

anonymous
(14.07.18 18:04:09 MSK)

Ответ на: комментарий от anonymous 14.07.18 18:04:09 MSK

Ты что дурак? Причём тут длина?

~~bbk123~~ ★★★★★
(14.07.18 18:52:25 MSK)

Ответ на: комментарий от bbk123 14.07.18 18:52:25 MSK

Это ты так порвался в потугах задать как можно наиболее неосмысленный вопрос?

anonymous
(14.07.18 19:09:30 MSK)

Ответ на: комментарий от anonymous 14.07.18 19:09:30 MSK

Ты не знаешь, что такое сортировка строк? Ты таки дурак.

~~bbk123~~ ★★★★★
(14.07.18 19:13:49 MSK)

Ответ на: комментарий от bbk123 14.07.18 19:13:49 MSK

Ты забыл слово «лексикографическая»? Или просто тупой?

anonymous
(14.07.18 19:32:22 MSK)

Ответ на: комментарий от anonymous 14.07.18 19:32:22 MSK

Ты забыл о том, какая сортировка строк подразумевается по умолчанию. Ведь ты просто дурак.

~~bbk123~~ ★★★★★
(14.07.18 19:37:05 MSK)

Ответ на: комментарий от bbk123 14.07.18 19:37:05 MSK

Какому умолчанию, маня? Это уже твои манёвры пост-фактум.

anonymous
(14.07.18 19:41:00 MSK)

Ответ на: комментарий от anonymous 14.07.18 19:41:00 MSK

За своими манёврами следи, дурачок ;-))

~~bbk123~~ ★★★★★
(14.07.18 21:11:12 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 →

← Canonical представил Minimal Ubuntu, новую минималистичную редакцию дистрибутива

Разработка

Debian 9.5 →

Похожие темы