hash map с заранее известным множеством ключей.

1

4

Суть такова: есть потребность в хэш мапе, но есть условие, которое по идее может позволить сделать более эффективное решение, чем хэш мап для общих случаев: множество возможных ключей известно заранее, количество естественно тоже. Было бы круто, если бы можно было обойтись вообще без аллокаций памяти, разрешения коллизий и тд. Но как по умному использовать факт известного набора ключей для такой оптимизации, придумать не удалось, нагуглить тоже. И да, ключи - строковые.

Ссылка

← Старая проблема кросскомпиляции.‘mutex’ is not a member of ‘std’

Что-то не могу достучаться до модели по идентификатору →

Это нужно сделать в рантайме или можно на этапе компиляции / сборки пакета сделать?

andreyu ★★★★★
(14.02.18 14:35:28 MSK)

Так не подойдет?

std::map<int, int> testMap {{1,1}, {2,2}};
std::unordered_map<std::string, int> testMap2{{«1», 1}, {«2», 2}};

ymuv ★★★★
(14.02.18 14:37:20 MSK)
Последнее исправление: ymuv 14.02.18 14:40:17 MSK (всего исправлений: 1)

gperf?

~~RazrFalcon~~ ★★★★★
(14.02.18 14:39:23 MSK)

придумать не удалось, нагуглить тоже

Perfect hash function?

xaizek ★★★★★
(14.02.18 14:39:58 MSK)

множество возможных ключей известно заранее, количество естественно тоже

Тебе значит нужен конкретный совет, но данные ты приводишь абстрактные. Ну-ну. Давай будем гадать: какой характер имеют ключи?

anonymous
(14.02.18 14:44:48 MSK)

Ссылка

Ответ на: комментарий от andreyu 14.02.18 14:35:28 MSK

Ключи все известны на этапе компиляции. Значения, связанные с ними, на этапе компиляции не известны

CatsCantFly ★
(14.02.18 14:55:45 MSK) автор топика

Ответ на: комментарий от xaizek 14.02.18 14:39:58 MSK

Проблема похожа, стоит разобраться

CatsCantFly ★
(14.02.18 14:58:02 MSK) автор топика

Ссылка

Используй struct. /thread

legolegs ★★★★★
(14.02.18 14:59:48 MSK)

Ссылка

Ответ на: комментарий от ymuv 14.02.18 14:37:20 MSK

Эти структуры есть реализация общих случаев map, которым не известно ничего о множестве потенциально возможных ключей и они полагают его бесконечным. Соответственно, перед ними будет проблема разрешения коллизий (второй случай), аллокаций множества кусков памяти и т.д.

CatsCantFly ★
(14.02.18 15:05:50 MSK) автор топика

Ссылка

Тебе нужна хеш-функция, которая для переданного ключа будет возвращать число, которое является индексом массива, в котором хранятся данные. Поскольку набор ключей известен заранее, то хеш-функция будет довольно простая в реализации.

hippi90 ★★★★★
(14.02.18 15:13:36 MSK)

Ссылка

Ответ на: комментарий от CatsCantFly 14.02.18 14:55:45 MSK

Ключи все известны на этапе компиляции. Значения, связанные с ними, на этапе компиляции не известны

Тогда можно на этапе компиляции создать hash-table, а уже в рантайме сделать ссылки на соответствующие значения.

andreyu ★★★★★
(14.02.18 15:28:29 MSK)

Ссылка

Ответ на: комментарий от CatsCantFly 14.02.18 14:55:45 MSK

Ключи все известны на этапе компиляции. Значения, связанные с ними, на этапе компиляции не известны

Да, деталей не хватает, но пока выглядит как обыкновенный массив. А ключи - имена констант, за которыми кроются индексы массива. Или constexpr функция по трансформации ключа в индекс массива (кстати, по идее не очень оптимально). Но это при условии, что эти ключи не приходят откуда-то извне, если массив заполнен изначально + и уйма других assumption'ов.
Вобщем, примерь эту идею: подходит ли?

Kroz ★★★★★
(14.02.18 15:34:14 MSK)

Ответ на: комментарий от Kroz 14.02.18 15:34:14 MSK

Строки, по которым должен быть поиск в таблице, приходят в рантайме (известно о них то, что они не могут быть никакими, кроме тех, что есть в таблице, то есть они все из заранее известного в момент написания кода набора), так что сделать соответствие строки константе не получится

CatsCantFly ★
(14.02.18 15:46:13 MSK) автор топика

Ссылка

Тебе не нужен хэш, тебе нужно построить конечный автомат. Он не только будет быстрее и проще, он сможет вернуть результат даже не читая весь ключ. Например, на множестве ключей { «a», «b» } он сможет сказать что ключа «cccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccc» в мапе нет прочитав всего один байт.

slovazap ★★★★★
(14.02.18 15:48:46 MSK)

Если бы были еще известны вероятности запроса по заданным ключам, то можно было бы оптимизировать. Забыл детали, но что-то по типу кода Хаффмана

~~dave~~ ★★★★★
(14.02.18 16:31:56 MSK)

Ссылка

Ответ на: комментарий от slovazap 14.02.18 15:48:46 MSK

Как вариант - подобрать идеальную или близкую к идеальной хеш-функцию. Без коллизий и с минимальным диапазоном.

Elyas ★★★★★
(14.02.18 16:32:36 MSK)

Хотя фиг знает, будет ли быстрее, чем просто сбалансированное двоичное дерево или хештаблица

~~dave~~ ★★★★★
(14.02.18 16:34:00 MSK)
Последнее исправление: dave 14.02.18 16:37:41 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Elyas 14.02.18 16:32:36 MSK

Это и будет автомат.

slovazap ★★★★★
(14.02.18 16:44:18 MSK)

Ссылка

То есть фактически нужно быстро матчить строки и получать их идентификатор? Тогда берите какой-нибудь лексический анализатор.

re2c ( http://re2c.org ) генерирует довольно быстрый direct code. С большой вероятностью это будет быстрее вычисления хэша

Deleted
(14.02.18 19:41:37 MSK)

Для упрощения работы можно вместо gperf заюзать re2c, он строго говоря не идеальные хэши создает, но близкие к этому. Для re2c не нужен отдельный входной файл, директивы пишутся внутри комментариев в С или С++ коде, что упрощает интеграцию. Особенно удобно если это хэш будет использовать при парсинге, тогда на re2c можно сделать лексер, выделяющий клбчевые слова из потока и выполняющий на них определенные действия

annulen ★★★★★
(14.02.18 19:43:18 MSK)

Ссылка

Ответ на: комментарий от Deleted 14.02.18 19:41:37 MSK

У gperf тоже вполне себе direct code

annulen ★★★★★
(14.02.18 19:44:18 MSK)

Ссылка

Для генерации автомата лучше взять ragel.

slovazap ★★★★★
(15.02.18 00:32:15 MSK)

Ссылка

gperf - если ключей меньше 10^3 (gperf долго генерит исходник), иначе - bsearch из glibc.

anonymous
(15.02.18 01:47:23 MSK)

Ссылка

Ответ на: комментарий от RazrFalcon 14.02.18 14:39:23 MSK

gperf?

Кстати, может знаешь как в секции декларации вставить значение с пробелом? Т.е.

%define initializer-suffix , INVALID_INDEX

Ибо в таком виде валится с ругательствами:

hasher.gperf:22: junk after declaration

KennyMinigun ★★★★★
(15.02.18 12:39:47 MSK)

Ответ на: комментарий от KennyMinigun 15.02.18 12:39:47 MSK

Не сталкивался.

~~RazrFalcon~~ ★★★★★
(15.02.18 14:51:48 MSK)

Ссылка

Можно сделать двоичный поиск в массиве структур вида {ключ, значение}, отсортированных по ключам, а потом получить значение, соответствующее этому ключу. Типа:

{{"aaa", "val1"}, {"aab", "val2"}, {"aac", "val3"}}

«aaa» «aab» «aac» это ключи, двоичным поиском за логарифмическое время можно найти структуру с нужным ключом и из нее извлечь значение

SZT ★★★★★
(15.02.18 23:43:17 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Старая проблема кросскомпиляции.‘mutex’ is not a member of ‘std’

Development

Что-то не могу достучаться до модели по идентификатору →

Похожие темы