Оптимально создать словарь с суммами по ключам на основе списка пар ключ:значение?

1

6

На вход в функцию подаются пары ключ:значение

func('a', 1)
func('b', 2)
func('a', 5)

надо их просуммировать по ключам, т.е. в итоге должен получится словарь

{'a':6, 'b':2}

Как это сделать оптимальным (с т.з. производительности) образом?

Мне всегда казалось что Ъ вариант такой

D = {}
...
D.setdedault(key, [0])[0] += value

потому что одно обращение к словарю. Можно еще вот так вот попроще

D[key] = D.get(key, 0)+value

М.б. есть еще какие то более феншуйные варианты?

Ссылка

← «Перспективные» и малоизвестные проекты ЯП

обясните за c# →

Смотря что тебе надо, феншуй он разный. Бывает что надо код красивый написать, а бывает что надо производительный. Тебе какой вариант нужен? А всё увидел. Уточнить надо затык в производительности или в потреблении памяти?

У тебя 2 обращения же. Не 1. Ты должен взять значение что там было и прибавляя сохранить новое.

peregrine ★★★★★
(28.03.24 19:39:36 MSK)
Последнее исправление: peregrine 28.03.24 19:44:28 MSK (всего исправлений: 3)

Ответ на: комментарий от peregrine 28.03.24 19:39:36 MSK

В производительности.

Через setdefault обращение одно, но тормозит прилично.

~~AntonI~~ ★★★★★
(28.03.24 19:46:00 MSK) автор топика

Ответ на: комментарий от AntonI 28.03.24 19:46:00 MSK

Ну у тебя не так много вариантов. dict сам по себе довольно быстрый. Если бы у тебя пары суммировать не надо было, то можно было бы проще сделать - собирая всё в строку, а потом её в словарь конвертнуть, ХЗ иногда это быстрее https://stackoverflow.com/questions/40694470/is-there-anything-faster-than-dict но особо вариантов не вижу если от самого dict-а к какой-то другой структуре данных не переходить.

https://stackoverflow.com/questions/4156392/fastest-way-to-update-a-dictionar...

Если через dict update действовать, то быстрее всего будет, но у тебя надо суммировать же, а не просто менять. А значит сверху оверхед будет, надо смотреть есть ли в этом толк.

peregrine ★★★★★
(28.03.24 19:48:14 MSK)
Последнее исправление: peregrine 28.03.24 19:54:30 MSK (всего исправлений: 2)

Ответ на: комментарий от peregrine 28.03.24 19:48:14 MSK

ну это update, это другое…

Спасибо!

~~AntonI~~ ★★★★★
(28.03.24 19:58:42 MSK) автор топика

Ссылка

https://docs.python.org/3/library/collections.html#collections.defaultdict

FishHook
(28.03.24 20:08:19 MSK)

Ссылка

А там нельзя ключи в растопыренном дереве хранить?

С т.з. производительности тут две работы:

добавить ключ
найти ключ

Оптимизация 1 и 2 делается по-разному, соотв. на основе предварительных знаний о характере данных можно пытаться оптимизировать что-то одно.

soomrack ★★★★★
(28.03.24 20:59:23 MSK)

Ответ на: комментарий от soomrack 28.03.24 20:59:23 MSK

Что такое растопыренное дерево?:-)

В некоторых случаях набор ключей заранее известен, наверное можно взять named tuple. В других неизвестен.

Я для расширения кругозора решил спросить, а то сейчас уткнулись в производительность на ровном в общем то месте…

~~AntonI~~ ★★★★★
(28.03.24 21:05:05 MSK) автор топика

collections.Counter.update

anonymous
(28.03.24 21:06:58 MSK)

Ссылка

Ответ на: комментарий от AntonI 28.03.24 21:05:05 MSK

splay tree, я почему-то его называю растопыренным. одна из структур для кеширования, можно в корень подтягивать как добавляющиеся данные, так и последние к которым было обращение.

https://en.wikipedia.org/wiki/Splay_tree

PS: с практической т.з. я бы для начала просто распараллелил, если нужна скорость, а потом слил результаты, если в серваке 100+ потоков, то ускорение будет хорошим.

soomrack ★★★★★
(28.03.24 21:14:13 MSK)
Последнее исправление: soomrack 28.03.24 21:22:13 MSK (всего исправлений: 3)

Что значит оптимально? В бидоне?

В бидоне не бывает оптимального, интерпретатор бидона в любом случае будет тормозить и жрать память.

Если вдруг понадобилась скорость или что-то такое, то значит не надо было брать бидон.

lovesan ★★☆
(28.03.24 21:16:44 MSK)

Ответ на: комментарий от soomrack 28.03.24 21:14:13 MSK

С параллельностью там алгоритмическте сложности, кмк проще будет уже на плюсах переписать после отработки алгоритма.

Там довольно спецефический разбор входящего потока.

~~AntonI~~ ★★★★★
(28.03.24 21:26:39 MSK) автор топика

Ссылка

Ответ на: комментарий от soomrack 28.03.24 21:14:13 MSK

Глянул про это дерево - интересно, спасибо, не знал.

Но у меня в работе много маленьких деревьев, мне кажется надо брать какие то стандартные структуры данных.

~~AntonI~~ ★★★★★
(28.03.24 21:29:21 MSK) автор топика

Ответ на: комментарий от AntonI 28.03.24 21:29:21 MSK

Десять лет назад, когда я пытался сделать хороший курс по алгоритмам, я составил такой вот список, часть которого я знал, часть планировал освоить:

https://habr.com/ru/articles/340044/#comment_10472088

может что из раздела кеширования подойдет под задачу, или что-то другое какие-то мысли / ассоциации вызовет…

Часть этого курса мне даже удалось пару раз прочитать, но сравнительно небольшую, а потом там все окончательно развалилось…

soomrack ★★★★★
(28.03.24 21:43:26 MSK)

ты упрлс?

Counter ибо реализовано https://github.com/python/cpython/blob/main/Lib/collections/__init__.py#L545


from collections import Counter

d=Counter(int)

#и суммируй:

d['a']+=3

qulinxao3 ★☆
(28.03.24 21:57:47 MSK)

Ссылка

Ответ на: комментарий от soomrack 28.03.24 21:43:26 MSK

Просто аналог Кнутовской библии можно написать:-)

Смотрел бегло - сходу не увидел задачи коммивояжера, машины изинга, SAT/maxSAT, Z-кривой Мортона.

Но вообще конечно в этом можно утонуть…

~~AntonI~~ ★★★★★
(29.03.24 06:28:34 MSK) автор топика

Ответ на: комментарий от AntonI 29.03.24 06:28:34 MSK

А по графам в той программе был отдельный жирный курс.

soomrack ★★★★★
(29.03.24 09:23:14 MSK)

Ссылка

Ответ на: комментарий от lovesan 28.03.24 21:16:44 MSK

интерпретатор бидона в любом случае будет тормозить и жрать память

Поэтому есть PyPy и Nuitka.

DarkAmateur ★★★★★
(29.03.24 13:34:12 MSK)

D = defaultdict(int)
D[key] += value

Int по умолчанию ноль

Либо counter, та же фигня по сути

upcFrost ★★★★★
(29.03.24 14:18:38 MSK)
Последнее исправление: upcFrost 29.03.24 14:19:56 MSK (всего исправлений: 1)

Ответ на: комментарий от lovesan 28.03.24 21:16:44 MSK

интерпретатор бидона в любом случае будет тормозить и жрать память

Если аккуратно все делать - не будет. А то люди юзают пандас чтоб два словаря смержить, а потом удивляются куда память делась. Там один импорт сожрёт все что можно

upcFrost ★★★★★
(29.03.24 14:21:30 MSK)

Ссылка

Ответ на: комментарий от upcFrost 29.03.24 14:18:38 MSK

и @FishHook, @qulinxao3, @peregrine - фигня эти ваши Counter/defaultdict(int)

Т.е. юзать удобно, но медленней процентов на 20 чем

D.setdefault(k, [0])[0] += v

вариант

D[k] = D.get(k, 0)+v

оказался почти таким же быстрым как и

D.setdefault(k, [0])[0] += v

~~AntonI~~ ★★★★★
(30.03.24 15:38:45 MSK) автор топика

Ответ на: комментарий от AntonI 30.03.24 15:38:45 MSK

Слушай, ну если надо вот прям чтоб совсем быстро и частью удобств можно пожертвовать - возьми сразу cython или вообще кресты с ctypes. Ну или builtins, но это по читабельности даже хуже крестов

upcFrost ★★★★★
(31.03.24 00:24:58 MSK)

Ответ на: комментарий от upcFrost 31.03.24 00:24:58 MSK

На плюсы я перейти всегда успею:-)

~~AntonI~~ ★★★★★
(31.03.24 06:00:06 MSK) автор топика

Ссылка

Claude 3:

Для решения этой задачи оптимальным образом можно использовать словарь (dict) в Python. Вот как это можно реализовать:

def func(key, value):
    result = {}
    for k, v in ((key, value), ):
        result[k] = result.get(k, 0) + v
    return result

result = {}
for key, value in [('a', 1), ('b', 2), ('a', 5)]:
    result.update(func(key, value))

print(result)

Выход:

{'a': 6, 'b': 2}

Разберем код:

Функция func принимает ключ и значение. Внутри функции создается пустой словарь result.
Используется генератор ((key, value), ) для создания итерируемого объекта с одним кортежем (key, value).
В цикле for k, v in ((key, value), ): этот кортеж распаковывается в переменные k и v.
Для каждого ключа k мы получаем текущее значение из словаря result.get(k, 0) или 0, если ключа нет в словаре. Затем к нему прибавляется новое значение v.
Обновленное значение сохраняется в словаре result[k].
Функция func возвращает обновленный словарь result.
В основном коде создается пустой словарь result.
В цикле for key, value in [('a', 1), ('b', 2), ('a', 5)] мы проходим по списку пар ключ-значение.
Для каждой пары key, value вызывается функция func(key, value), которая возвращает промежуточный словарь.
Промежуточный словарь объединяется с основным словарем result с помощью метода result.update(func(key, value)).
После завершения цикла в result содержится итоговый словарь с суммами значений для каждого ключа.

Этот подход является оптимальным, потому что он использует словари, которые обеспечивают быстрый доступ к элементам по ключу (время доступа O(1) в среднем случае). Также, операция result.get(k, 0) избегает ненужных проверок на наличие ключа в словаре, что также оптимизирует производительность.

yvv1 ★
(31.03.24 06:06:03 MSK)

Ответ на: комментарий от yvv1 31.03.24 06:06:03 MSK

Вообще то про O(1) неправда - есть хэш-коллизии. И этот вариант в исходном посте есть:-)

~~AntonI~~ ★★★★★
(31.03.24 06:19:40 MSK) автор топика

Ссылка

Как это сделать оптимальным (с т.з. производительности) образом?

Зависит от двух факторов:

Реализация словаря.
Стоимость сравнения ключей.

За то, как реализованы словари в python не скажу, так как не знаю, но могу предположить, что реализован самый распространённый вариант: хеш таблица -> сбалансированное дерево -> список. Т.е. стоимость доступа в лучшем случае O(1) и O(n) - в случае полной коллизии хешей ключей. Если в реализацию встроен механизм кеширования пути к последнему запрошенному ключу, то стоимость повторного доступа к последнему ключу будет O(1) даже при полной коллизии хешей ключей.

Передача модифицирующего функтора, позволяет избежать повторных обращений к словарю, но сильно заметно это будет только при высокой стоимости сравнения ключей, частым случаям коллизий и отсутствии механизма кеширования пути в словаре. В остальных случаях, выигрыш будет мал, либо вообще незаметен.

QsUPt7S ★★★
(31.03.24 09:22:44 MSK)