Это чудное слово «словарь»...

Что можно было бы использовать для словаря слов вместо чего-нибудь древовидного?

До последнего времени использовал в качестве структуры словаря дерево, где каждый узел - буква слова.

Плюсы были «очевидны»:
- Размер нода = размер символа
- Размер словаря байтах не превышает суммарный размер слов
- Поиск - логарифмический, десятки (раньше, на пнях вторых) и сотни тыщ слов в секунду щас.
- Легко скинуть в файл, прочесть из файла.

Вот, в очередной раз задумался - мож я отстал от жизни и давно есть структура, превосходящая банальное древо по указанным качествам?

Ссылка

← Ищу книжку по крестам

Почему user agent stylesheet перекрывает мои стили →

Смотря какой поиск, есть такое: https://secure.wikimedia.org/wikipedia/en/wiki/Directed_acyclic_word_graph

anonymous
(23.05.12 00:26:15 MSK)

Ссылка

- Поиск - логарифмический

Не логарифический от количества слов, а линейный от длины слова. Количество хранимых слов не важно. Ы?

В качестве альтернативы дереву иногда удобно использовать хеш-таблицу (она будет быстрее дерева за счет меньшего количества промахов в кэше процессора).

Manhunt ★★★★★
(23.05.12 00:45:43 MSK)

Принципиально ничего менять не надо и всё правильно, разве что ещё раз почитать про suffix trie, patricia trie (например чтобы оптимизировать размер) и иже с ними.

invy ★★★★★
(23.05.12 00:50:37 MSK)

Ссылка

Ответ на: комментарий от Manhunt 23.05.12 00:45:43 MSK

Ы?

Ы. Да, с логарифмом по поиску мой память дал маху.

она будет быстрее дерева

Ну эт если хеш вменяемый брать. Один мой коллэга лишь за счет смены хеш-функции для строки в своем проекте уменьшил время вычислений с суток до часа.

malbolge ★★
(23.05.12 00:56:25 MSK) автор топика

Ответ на: комментарий от malbolge 23.05.12 00:56:25 MSK

Один мой коллэга лишь за счет смены хеш-функции для строки в своем проекте уменьшил время вычислений с суток до часа.

Есть техника DOS-атак на приложения путем эксплуатации коллизий в хеш-функции. Парируется это путём подмешивания соли. Кроме того, можно хранить конфликтующие элементы ячейки хэш-таблицы в дереве :)

Manhunt ★★★★★
(23.05.12 01:09:02 MSK)

Ответ на: комментарий от Manhunt 23.05.12 01:09:02 MSK

Тут же про подбор коллизий для dos пока не вспоминали. Или это превентивные меры?)

anonymous
(23.05.12 01:22:23 MSK)

Ссылка

Есть одна интересная штука — skip list. На ней построен QMap в Qt.

Nightwalker
(23.05.12 09:35:47 MSK)

Ссылка

если хочется изврата - можно почитать работы Phil Bagwell

shty ★★★★★
(23.05.12 12:26:27 MSK)

Ссылка

Размер нода = размер символа

Это как??? Вообще то размер нода - длина алфавита на размер пойнтера??

Размер словаря байтах не превышает суммарный размер слов

Умноженный на длину алфавита на размер пойнтера???

Еще есть либо хэш-таблица, либо rb_tree. Хотя большинство хэшей к-е я видел (я правда с ними мало работал), это вычисление хэша (long) + то же дерево по хэшу + разрешение коллизий. В STL std::map (rb_tree) на порядок тормознутее std::unordered_map (хэш + дерево по хэш-значениям), пока коллизии не начинаются.

Для строк ИМНО разумный хэш без коллизий лучше дерева (не надо строки сравнивать, это м.б. долго), но теряется упорядоченность.

~~AIv~~ ★★★★★
(23.05.12 13:53:52 MSK)

Ссылка

Хардкор: http://judy.sourceforge.net/

DonkeyHot ★★★★★
(23.05.12 19:55:19 MSK)

Ссылка

Медленный поиск какой-то. Хеш таблица должна десятки-сотни миллионов поисков в секунду легко выдавать.

~~Legioner~~ ★★★★★
(23.05.12 20:07:07 MSK)

Ответ на: комментарий от Legioner 23.05.12 20:07:07 MSK

Хеш таблица не подойдет по требованию компактности. В дереве у нас префиксы одинаковые не повторяются, а вот в указанном выше DAWG - еще и суффиксы слов объединяются. В хеш таблице такого «сжатия» нет.

malbolge ★★
(28.05.12 22:00:02 MSK) автор топика