Итерация по unordered_set быстрее чем по vector?

0

4

Ковыряю алгоритмы на Leetcode. Преобразую vector в unordered_set для кеширования и поиска элементов, ничего сложного. Далее собственно итератор по vector, и проверка есть ли каждый элемент в unordered_set и далее логика если есть.

Запуск кода вываливается на платформе с ошибкой мол алгоритм отработал слишком медленно.

Барабанная дробь - меняем итерацию по массиву на итерацию по unordered_set - алгоритм укладывается во временные рамки. Что за? Есть разумное объяснение? А то все говорят что итерации по массиву быстрее быть не может за счёт кеширования в CPU и предвыборки элементов массива загодя в кеш. Оказывается может.

int func(vector<int>& nums) {
    unordered_set<int> set;

    for (auto n : nums) {
        set.insert(n);
    }

    // Итерация по nums медленнее чем по 'set' !!!
    for (auto n : nums) {
    ...

←	Лучший способ загрузки key-value из yaml и передача их в bash функцию

Есть ли «правильный» способ опакетить то, что нужно собирать. Или где об этом почитать?

→

← 1 2 3 4 5 →

В nums много дублей?

utf8nowhere ★★★★
(30.03.25 19:53:50 MSK)
Последнее исправление: utf8nowhere 30.03.25 19:54:08 MSK (всего исправлений: 1)

Ответ на: комментарий от utf8nowhere 30.03.25 19:53:50 MSK

Нет дублей.

former_anonymous ★★★
(30.03.25 19:57:30 MSK) автор топика

Тормозит не итерация, а проверка каждого элемента в unordered_set. Только я не понял, зачем проверять, есть ли элемент в set, если там есть все элементы?

m0xf ★
(30.03.25 19:57:52 MSK)

Ответ на: комментарий от m0xf 30.03.25 19:57:52 MSK

Немного не точно объяснил, но суть с проверкой не меняется от этого.

Тормозит не итерация, а проверка каждого элемента в unordered_set.

Проверка осталась внутри for, она никуда делась. Проверяются абсолютно все элементы по алгоритму.

Для ускорения алгоритма меняем только одно слово. Вместо nums в for пишем set. Всё.

former_anonymous ★★★
(30.03.25 20:00:58 MSK) автор топика

nums из кеша вытеснило

anonymous
(30.03.25 20:02:02 MSK)

вы код покажите, где оно «быстрей». set сделан для того, чтобы быстро определять наличие элемента в данном множестве, а не для быстрой «итерации» по всем элементам этого множества.

в силу специфики реализации скорость итерации там не может(с чего бы?) быть выше скорости итерации на непрерывном массиве.

скорее всего ваш код делает не то, что вам кажется.

alysnix ★★★
(30.03.25 20:20:17 MSK)

А элементов сколько?

И я б гонял у себя локально а не ХЗ на чем удаленно непойми как собранное.

~~AntonI~~ ★★★★★
(30.03.25 20:26:24 MSK)

итератор по vector, и проверка есть ли каждый элемент в unordered_set и далее логика если есть

По этому коду - всегда есть, можно не проверять. Ваш К.О.;-)

~~AntonI~~ ★★★★★
(30.03.25 20:29:10 MSK)

Какая задача?

Reset ★★★★★
(30.03.25 20:40:38 MSK)

Ответ на: комментарий от alysnix 30.03.25 20:20:17 MSK

Задача https://leetcode.com/problems/longest-consecutive-sequence

Локальный код:

#include <vector>
#include <unordered_set>

using namespace std;

int longestConsecutive(const vector<int>& nums) {
    unordered_set<int> set;

    for (auto n : nums) {
        set.insert(n);
    }

    int longest = 0;

    // Итерация по nums медленнее чем по 'set' !!!
    for (auto n : nums) {
        // Start of a chain
        if (set.find(n - 1) == set.end()) {
            int length = 0;
            while (set.find(n + length) != set.end()) {
                length++;
            }
            longest = max(longest, length);
        }
    }

    return longest;
}

Тест:

nums содержит 50’000 элементов https://pastebin.com/diqtqMP4

Время отработки с nums в for - порядка 5000 мс на моём ПК.

Время отработки с set в for - порядка 10 мс на моём ПК.

Код main на Qt:


int main(int argc, char *argv[])
{
    const vector<int> nums = ...

    qint64 v = QDateTime::currentMSecsSinceEpoch();

    int longest = longestConsecutive(nums);

    qDebug() << nums.size() << longest << QDateTime::currentMSecsSinceEpoch() - v;

    return 0;
}

former_anonymous ★★★
(30.03.25 20:41:58 MSK) автор топика
Последнее исправление: former_anonymous 30.03.25 20:54:22 MSK (всего исправлений: 2)

Ответ на: комментарий от AntonI 30.03.25 20:26:24 MSK

Локально или нет - без разницы, см. код, добавил. Разница - НА ПОРЯДОК.

former_anonymous ★★★
(30.03.25 20:42:36 MSK) автор топика

Ответ на: комментарий от Reset 30.03.25 20:40:38 MSK

https://leetcode.com/problems/longest-consecutive-sequence

former_anonymous ★★★
(30.03.25 20:50:15 MSK) автор топика

Ответ на: комментарий от anonymous 30.03.25 20:02:02 MSK

nums из кеша вытеснило

скорее всего

former_anonymous ★★★
(30.03.25 20:51:24 MSK) автор топика

Ответ на: комментарий от former_anonymous 30.03.25 20:51:24 MSK

50к * 4 = 200кб, в L2 должен помещаться

cobold ★★★★★
(30.03.25 20:53:37 MSK)

Ответ на: комментарий от former_anonymous 30.03.25 20:51:24 MSK

50000*4 = 200000 ~= 200к.

Какой процессор? Какой размер L1 cache? Если 256к, то здесь:

    for (auto n : nums) {
        set.insert(n);
    }

при записи set вытесняется nums из L1.

anonymous
(30.03.25 20:58:39 MSK)

Ответ на: комментарий от cobold 30.03.25 20:53:37 MSK

Если nums помещается в L1, а set вытесняется в L2, то вот и потеря производительности. Если мы итерируем по set вместо nums, то весь set помещается в L1, и более мы никуда не лезем. Отсюда и прирост производительности в 50 раз

former_anonymous ★★★
(30.03.25 21:01:05 MSK) автор топика
Последнее исправление: former_anonymous 30.03.25 21:06:14 MSK (всего исправлений: 1)

Ответ на: комментарий от anonymous 30.03.25 20:58:39 MSK

Кэш L1/L2/L3 = 384Kb/8Mb/8Mb

former_anonymous ★★★
(30.03.25 21:03:34 MSK) автор топика

Ответ на: комментарий от former_anonymous 30.03.25 20:41:58 MSK

вы ищете максимальную монотонно возрастающую подстроку чисел в исходном массиве

а вот это выражение вовсе не про подстроку, а просто про наличие следующего числа в произвольном месте исходного массива.

while (set.find(n + length) != set.end()) {
                length++;
            }

например если текущее число 10 - вы ищете 11 во всей последовательности. а не на следующем месте. то есть вы решаете какую-то не ту задачу.

alysnix ★★★
(30.03.25 21:09:08 MSK)

Ответ на: комментарий от alysnix 30.03.25 21:09:08 MSK

вы ищете 11 во всей последовательности

по условиям задачи так и должно быть.

Для исходного массива [8, 5, 10, 6, 20, 7] монотонная последовательность будет [5,6,7,8]

former_anonymous ★★★
(30.03.25 21:13:06 MSK) автор топика

Ответ на: комментарий от former_anonymous 30.03.25 21:13:06 MSK

а, ну да. это я условие криво прочитал. тогда код примерно правильный. и что? это быстрей, чем какой код? откуда там еще некая «итерация по массиву»?

в данном случае вам интересен факт наличия следующего числа в множестве. для того set и предназначен, чтобы быстро это вычислить(не перебирая все элементы).

откуда у вас берется какая-то «итерация по массиву»? если вы пытаетесь найти перебором - находится ли след. число в массиве, то это очевидно неправильно, с точки зрения производительности. а через множество - правильно. и кеши там не причем.

alysnix ★★★
(30.03.25 21:22:17 MSK)

Ответ на: комментарий от alysnix 30.03.25 21:22:17 MSK

Возьми код и посмотри на строку «Итерация по nums медленнее чем по ‘set’»

former_anonymous ★★★
(30.03.25 21:23:55 MSK) автор топика

Ответ на: комментарий от former_anonymous 30.03.25 20:41:58 MSK

You must write an algorithm that runs in O(n) time.

for (auto n : nums) {
    set.insert(n);
}

Незачет.

anonymous
(30.03.25 21:29:51 MSK)

Ответ на: комментарий от anonymous 30.03.25 21:29:51 MSK

Тебе незачёт за незнание big-O 😂

former_anonymous ★★★
(30.03.25 21:31:55 MSK) автор топика

Лол кек лор ужо не торт, эт же медиум лор упал в чьих глозах

qulinxao3 ★☆
(30.03.25 21:32:55 MSK)

Ответ на: комментарий от former_anonymous 30.03.25 20:41:58 MSK

Время отработки с nums в for - порядка 5000 мс на моём ПК.

Время отработки с set в for - порядка 10 мс на моём ПК.

никакие кеши такие цифры не дадут. разница в 500 раз что-ли???

это или систематическая некая ошибка, ну или на крайняк - какая-то мегаоптимизация(там какие ключи компиляции-то?), когда компилятор, видя что работают только в set, сумел свернуть код так, что получилась такое вот ускорение. хотя уж слишком хорошо получилось.

set в принципе не должен давать быструю итерацию, поскольку он не для этого, и там элементы хранятся в корзинах. но это вопрос реализации конечно, что они там в stl наворотили и смотреть лень.

alysnix ★★★
(30.03.25 21:35:55 MSK)
Последнее исправление: alysnix 30.03.25 21:37:45 MSK (всего исправлений: 1)

Ответ на: комментарий от alysnix 30.03.25 21:35:55 MSK

Дело не в stl, а в cache-friendly коде, который да, может дать 500 раз прироста. Магия! Возьми код и скомпилируй у себя, экспериментируй 🙂

former_anonymous ★★★
(30.03.25 21:37:52 MSK) автор топика
Последнее исправление: former_anonymous 30.03.25 21:39:25 MSK (всего исправлений: 1)

Ответ на: комментарий от former_anonymous 30.03.25 21:37:52 MSK

Магия!

с какой стати set стал cache friendly. он не более friedly чем vector, а то и менее, поскольку сложней устроен.

alysnix ★★★
(30.03.25 21:40:20 MSK)
Последнее исправление: alysnix 30.03.25 21:40:36 MSK (всего исправлений: 1)

Ответ на: комментарий от former_anonymous 30.03.25 21:31:55 MSK

Вставка в хэштаблицу имеет амортизированную O(1), в худшем случае - квадрат, если очень постараться то квадрат логарифмов.

Сперва докажи, что у тебя хорошие хэши подходящие под задачу.

anonymous
(30.03.25 21:41:24 MSK)

Ответ на: комментарий от anonymous 30.03.25 21:41:24 MSK

там N вставок - то есть O(n).

потом сканирование массива c поиском в set- опять порядка O(n).
итого - общее O(n).

alysnix ★★★
(30.03.25 21:45:33 MSK)

Ответ на: комментарий от alysnix 30.03.25 21:40:20 MSK

Код который использует контейнеры должен быть cache-friendly. Когда ты итерируешь по nums, а внутри цикла обращаешься к set, то nums и set постоянно выталкивают друг друга на кеш другого уровня. Теоретически, просто исходя из их размеров. Если ты итерируешь по set, то весь этот set спокойно лежит в L1 весь цикл, и цикл работает со скоростью света.

former_anonymous ★★★
(30.03.25 21:46:52 MSK) автор топика

Ответ на: комментарий от anonymous 30.03.25 21:41:24 MSK

Ты угараешь, какой квадрат? https://en.cppreference.com/w/cpp/utility/hash

Notably, some implementations use trivial (identity) hash functions which map an integer to itself.

former_anonymous ★★★
(30.03.25 21:51:11 MSK) автор топика

Ответ на: комментарий от former_anonymous 30.03.25 21:51:11 MSK

https://en.m.wikipedia.org/wiki/Hash_table

Operation	Average	Worst case
Insert	        Θ(1)	O((log n)2)

В общем, примерно ясен уровень задач и их решателей.

anonymous
(30.03.25 21:58:00 MSK)

Ответ на: комментарий от former_anonymous 30.03.25 21:46:52 MSK

Когда ты итерируешь по nums, а внутри цикла обращаешься к set, то nums и set постоянно выталкивают друг друга на кеш другого уровня.

когда у тебя итерация и по nums и set, у тебя просто в два раза больше размер данных, чем только по nums.

можно сказать, что в первом случае эффективный размер кеша в два раза меньше, чем во втором.

но это не даст 500 раз по производительности. и не будут они выталкивать «друг друга», а разлягутся в своих половинках неким статистическим образов.

alysnix ★★★
(30.03.25 21:59:22 MSK)

Ответ на: комментарий от former_anonymous 30.03.25 20:41:58 MSK

Я конечно давно в крестах не ковырялся, но может у тебя при векторе auto n копирует значение из массива в локальную переменную на стеке, а потом использует (не константа). А в случае с сетом загружает сразу в регистр (как константу).

no-such-file ★★★★★
(30.03.25 22:00:22 MSK)

Ответ на: комментарий от no-such-file 30.03.25 22:00:22 MSK

но может у тебя при векторе auto n копирует значение из массива в локальную переменную на стеке

не. это если вообще нет оптимизации. с оптимизацией он будет держать переменные в регистрах. и даже если б от что-то клал на стек - 500 раз это бы не дало. ну максимум какие-нить 20 процентов может и дало бы.

alysnix ★★★
(30.03.25 22:06:08 MSK)

Ответ на: комментарий от former_anonymous 30.03.25 21:01:05 MSK

Латентность доступа между L1 и L2 отличается в 2.5-3 раза, а не в 50. А между L1 и L3 в 10 раз, а не в 50. В конце концов возьмите профайлер да посмотрите, больше разговоров

cobold ★★★★★
(30.03.25 22:20:44 MSK)
Последнее исправление: cobold 30.03.25 22:21:27 MSK (всего исправлений: 1)

Ответ на: комментарий от cobold 30.03.25 22:20:44 MSK

Так я не против 🙂 Объясни исходя из этого разницу в 500 раз?

former_anonymous ★★★
(30.03.25 22:22:15 MSK) автор топика

Ответ на: комментарий от former_anonymous 30.03.25 22:22:15 MSK

Объясни исходя из этого разницу в 500 раз?

паленая водка с элементами галлюцинаций.

alysnix ★★★
(30.03.25 22:23:09 MSK)

Ответ на: комментарий от anonymous 30.03.25 21:58:00 MSK

Можно тупо валить на одинаковых алгоритмах с хэш-таблицами, просто подобрав плохие исходные данные (случайно или намеренно).

anonymous
(30.03.25 22:25:27 MSK)

Ответ на: комментарий от former_anonymous 30.03.25 22:22:15 MSK

Так это тебе нужно, а не мне

cobold ★★★★★
(30.03.25 22:28:47 MSK)

Ответ на: комментарий от former_anonymous 30.03.25 19:57:30 MSK

Нет дублей.

nums содержит 50’000 элементов https://pastebin.com/diqtqMP4

В конце массива куча нолей. На глаз 1/4 массива.

imatveev13 ★
(30.03.25 22:30:31 MSK)

Ответ на: комментарий от imatveev13 30.03.25 22:30:31 MSK

Согласен, только это мало что объясняет 😂

former_anonymous ★★★
(30.03.25 22:31:29 MSK) автор топика

Ответ на: комментарий от former_anonymous 30.03.25 20:41:58 MSK

Локальный код

Жесть. И квадрата в своём алгоритме вы конечно не видите?

bugfixer ★★★★★
(30.03.25 22:38:44 MSK)

Ответ на: комментарий от bugfixer 30.03.25 22:38:44 MSK

Неа. Может его там и нет?

former_anonymous ★★★
(30.03.25 22:41:17 MSK) автор топика

Ответ на: комментарий от former_anonymous 30.03.25 20:41:58 MSK

Это же O(n^2) Там в тэгах union find. Объединяй последовательности с помощью union find, а потом выдай максимальную. Тогда O(n) будет

Reset ★★★★★
(30.03.25 22:58:15 MSK)

   unordered_set<int> set;

   for (auto n : nums) {
       set.insert(n);
   }

unordered_set<int> set(nums.begin(), nums.end());, раз уж НАТО пошло?

utf8nowhere ★★★★
(30.03.25 23:00:36 MSK)

Ответ на: комментарий от Reset 30.03.25 22:58:15 MSK

Это же O(n^2)

Докажи построчно. Алгоритм не самый оптимальный мб, но O(n).

former_anonymous ★★★
(30.03.25 23:05:14 MSK) автор топика

Ответ на: комментарий от former_anonymous 30.03.25 20:42:36 MSK

Локально или нет - без разницы, см. код, добавил. Разница - НА ПОРЯДОК.

У меня разницы вообще нет (в пределах погрешности). Упс? Я правда вектор забил от 0 до N-1. Если есть дубли, то разумеется set будет короче и это может сыграть.

Но вообще на таких смешных размерах (5e4) че то достоверно померять сложно.

~~AntonI~~ ★★★★★
(30.03.25 23:06:27 MSK)
Последнее исправление: AntonI 30.03.25 23:12:40 MSK (всего исправлений: 2)

Ответ на: комментарий от former_anonymous 30.03.25 23:05:14 MSK

Для ввода 1,2,3,4,5,6,…,n будет n*(n-1)/2 операций, так как каждая итерация будет проходить все элементы начиная с i.

Reset ★★★★★
(30.03.25 23:07:26 MSK)

Ответ на: комментарий от Reset 30.03.25 23:07:26 MSK

Там поц-счёт делается только при условии if (set.find(n - 1) == set.end()), т.е. в данном случае только для 1

utf8nowhere ★★★★
(30.03.25 23:10:57 MSK)

← 1 2 3 4 5 →

←	Лучший способ загрузки key-value из yaml и передача их в bash функцию

Development

Есть ли «правильный» способ опакетить то, что нужно собирать. Или где об этом почитать?

→

Похожие темы