Итерация по unordered_set быстрее чем по vector?

0

4

Ковыряю алгоритмы на Leetcode. Преобразую vector в unordered_set для кеширования и поиска элементов, ничего сложного. Далее собственно итератор по vector, и проверка есть ли каждый элемент в unordered_set и далее логика если есть.

Запуск кода вываливается на платформе с ошибкой мол алгоритм отработал слишком медленно.

Барабанная дробь - меняем итерацию по массиву на итерацию по unordered_set - алгоритм укладывается во временные рамки. Что за? Есть разумное объяснение? А то все говорят что итерации по массиву быстрее быть не может за счёт кеширования в CPU и предвыборки элементов массива загодя в кеш. Оказывается может.

int func(vector<int>& nums) {
    unordered_set<int> set;

    for (auto n : nums) {
        set.insert(n);
    }

    // Итерация по nums медленнее чем по 'set' !!!
    for (auto n : nums) {
    ...

←	Лучший способ загрузки key-value из yaml и передача их в bash функцию

Есть ли «правильный» способ опакетить то, что нужно собирать. Или где об этом почитать?

→

← 1 2 3 4 5 →

Ответ на: комментарий от bugfixer 12.04.25 08:20:26 MSK

дык оригинальный тест ваще к задаче с псевдоалгокачки чисто понимание ТС чё

в самой задачке(как оказалось с фигой в кармане) тесты более чтоли равновероятные

qulinxao3 ★☆
(12.04.25 08:50:48 MSK)

Ответ на: комментарий от bugfixer 12.04.25 08:46:09 MSK

но на практике

O(nlogn) алгоритм с сортировкой проходит тест на O(n).

И у меня свой интерес и своя практика, чужими практиками пусть занимаются чужие

anonymous
(12.04.25 08:57:10 MSK)

Ответ на: комментарий от bugfixer 01.04.25 16:57:28 MSK

boost::unordered_flat_set

и раздвинул бы табличку 2x - 4x

Медленнее, чем просто инициализация.

anonymous
(12.04.25 09:06:02 MSK)

Ответ на: комментарий от anonymous 12.04.25 08:57:10 MSK

И у меня свой интерес и своя практика

Дык, а толку то гонять на входе без дупликатов? Когда вы в миллиарды уходите дырок в вас практически не остаётся. Это очень и очень вырожденный случай. Я даже не до конца понимаю какую практическую пользу из этого извлечь можно.

bugfixer ★★★★★
(12.04.25 09:07:11 MSK)

Ответ на: комментарий от anonymous 12.04.25 09:06:02 MSK

Медленнее, чем просто инициализация.

Вот здесь не понял. Что значит «просто инициализация»?

bugfixer ★★★★★
(12.04.25 09:09:33 MSK)

Ответ на: комментарий от bugfixer 12.04.25 09:07:11 MSK

Я даже не до конца понимаю какую практическую пользу из этого извлечь можно.

Практическое значение «идеального» хеша. Превращение О(1) в O(logn), там где не ждали.

anonymous
(12.04.25 09:13:17 MSK)

Ответ на: комментарий от bugfixer 12.04.25 09:09:33 MSK

boost::unordered_flat_set(arr.begin(), arr.end());

против

boost::unordered_flat_set(arr.begin(), arr.end(), 2*arr.size());

anonymous
(12.04.25 09:16:03 MSK)

https://en.wikipedia.org/wiki/Van_Emde_Boas_tree

qulinxao3 ★☆
(12.04.25 20:49:26 MSK)

12 сентября 2025 г.

Ответ на: комментарий от former_anonymous 30.03.25 19:57:30 MSK

как же нет, если в примерах к задаче, указанной ниже имеются дубли, а так же в условиях задачи не указывается, что входной массив уникальных чисел...

safocl ★★
(12.09.25 10:21:10 MSK)

вроде бы верно зарефакторил:
https://godbolt.org/z/xEbYK3dvz

#include <vector>
#include <unordered_set>
#include <algorithm>
#include <ranges>
#include <functional>
#include <string>

int longestConsecutive(const std::vector<int>& nums) {
    std::unordered_set<int> set(std::from_range_t(), nums);
    
    auto comparatorFn = [&]( auto v  ){ return set.contains( v - 1 ); };
    auto transformToCountFn  = [&]( auto el ){
                            int length = 0;
                            while ( set.contains( el + length ) )
                                length++;
                            return length;
                        };
    auto counts = set   | std::views::filter(comparatorFn)
                        | std::views::transform(transformToCountFn)
                        | std::ranges::to<std::vector>();

    return std::ranges::max(counts);
}

предлагаю затестить

safocl ★★
(12.09.25 16:12:28 MSK)

Ответ на: комментарий от former_anonymous 30.03.25 23:11:11 MSK

это же асимптотическая сложность — не отражающая относительность реальной скорости — O(1) может занимать больше времени чем O(n) в каких то примерах.

safocl ★★
(12.09.25 16:19:25 MSK)

Не вникал особо в суть постов.
Не проще ли отсотировать набор элементов?

anonymous
(12.09.25 16:33:08 MSK)

Ответ на: комментарий от anonymous 12.09.25 16:33:08 MSK

std::ranges::sort
Complexity
𝓞(N·log(N)) comparisons and projections, where N = ranges::distance(first, last)
-- в условиях задачи

You must write an algorithm that runs in O(n) time.

safocl ★★
(12.09.25 17:11:27 MSK)

Ответ на: комментарий от safocl 12.09.25 16:12:28 MSK

тут имеется ошибка — в ретурне нужно +1 сделать поскольку тут не учитывается один инкремент для каждой из последовательностей...

safocl ★★
(12.09.25 17:12:18 MSK)

Ответ на: комментарий от anonymous 10.04.25 10:01:45 MSK

std::unordered_set<Key,Hash,KeyEqual,Allocator>::erase
References and iterators to the erased elements are invalidated. Other iterators and references are not invalidated.

и https://eel.is/c draft/stmt.ranged#1
иными словами короче — это UB

safocl ★★
(12.09.25 23:02:26 MSK)
Последнее исправление: safocl 12.09.25 23:09:22 MSK (всего исправлений: 1)

Ответ на: комментарий от utf8nowhere 10.04.25 23:43:55 MSK

vector<byte> buf(2 * sizeof(void*) * nums.size());
pmr::monotonic_buffer_resource mbr{buf.data(), buf.size()};;
pmr::polymorphic_allocator<int> pa{&mbr};
pmr::set<int> set(nums.begin(), nums.end(), pa);

это ты https://en.cppreference.com/w/cpp/container/flat_set.html изобрёл?

safocl ★★
(12.09.25 23:24:49 MSK)

Ответ на: комментарий от anonymous 11.04.25 05:49:33 MSK

тут даже не с range-based-for-loop UB — модифицируется контейнер, по которому итерация идёт, и инвалидируется как минимум итератор, по которому эрейзится.

safocl ★★
(12.09.25 23:29:29 MSK)

Ответ на: комментарий от safocl 12.09.25 23:24:49 MSK

Нет, не я

utf8nowhere ★★★★
(14.09.25 02:26:18 MSK)

Ответ на: комментарий от anonymous 01.04.25 19:08:59 MSK

Инициализировать надо уникальными значениями, union-find - это лес непересекающихся множеств, по началу единичных множеств из уникальных элементов. Также придется создать map числа на элемент-ноду union-find, возможно также обратный map. И всё это - не линейная сложность

во-первых линейная при условии нормальной реализации хэш-таблицы и/или валидации входных данных. Во-вторых это задача для собеседования, придуманная специально для того чтобы проверить твои знания в нескольких вопросах и поставить не просто «решил/не решил», а более детальный грейд.

Т.е. типичный сценарий собеседования - кандидат реализует что-то с помощью сортировки, если там не ошибок - то у него спрашивают «а можешь придумать алгоритм быстрее», если он не додумывается до системы непересекающихся множеств - то ему попытаются повысить грейд вопросами про хэш-таблицы.

Если ты правильно реализовываешь СНМ, то получаешь оффер программистом в гугл; если нет, но справляешься с сортировкой и отлично рассказываешь про хэш-таблицы - то тебе могут попытаться подобрать другую позицию (например SRE вместо SWE); во всех остальных случаях - отказ.

По крайней мере так было до ковида. Сейчас все наверняка сложнее, а если ты из России, то думаю вообще не пригласят на собес))

Lrrr ★★★★★
(14.09.25 06:41:13 MSK)

Ответ на: комментарий от Lrrr 14.09.25 06:41:13 MSK

лишь однажды вопрос — накой это на собесе вообще спрашивать для реализации, если таковое уже придумано очень давно и реализации уже имеются? — бессмысленное — просто юзаешь в коде то что уже сделано, зачем самому что-то таковое делать? — вот и вырастают поколения разрабов-костылеровщиков, которые делают явные циклы в коде вместо уже имеющихся готовых решений.

лучше бы исследовали знания в части использования памяти, кастов, юнионов и подобного, что как раз может сделать качественную оценку для того, как может тот или иной разработчик сделать код, — поскольку в случае незнания (непонимания) такового и происходят все эти «запинки» с багами в коде, которые очень сложно отследить (хотя бывает и достаточно тривиально, если нормально поиском по кодовой базе пройтись по очевидным сценариям частых ошибок).

ну и лично моё мнение — что попросту наоборот на счёт использования явных «реализаций» в коде нужно «ругать», что бы использовали уже написанное — иначе кодовые базы вот и превращаются в многомиллионные строки вместо использования до сотен раз меньшего количества.

все эти «олимпиадовские» «замашки» должны пресекаться на отборе — ну и во время отслеживания возделанного кода тимлидами. — А тут я порой читаю что как раз «тимлид-подобные» лица наоборот поощрают написание «встроенного явного цикла», вместо использования уже готового алгоритма. Да и даже на олимпиадах я считаю необходимо снижать оценки сильно для неспособных применять уже имеющийся код (как минимум в стандартной либе).

safocl ★★
(14.09.25 15:30:57 MSK)
Последнее исправление: safocl 14.09.25 15:39:15 MSK (всего исправлений: 4)

← 1 2 3 4 5 →

←	Лучший способ загрузки key-value из yaml и передача их в bash функцию

Development

Есть ли «правильный» способ опакетить то, что нужно собирать. Или где об этом почитать?

→

Похожие темы