Нужно быстро(до 5 часов) проиндексировать(и удалить дубликаты) 140.000.000 текстовых ключей размером 32 байта. Базы данных(Oracle, MySql, со всей известной оптимизацией) даже не успевают загрузить в таблицу за время < 5 часов. Perl-вые файловые базы тоже отдыхают, вместе с Berkeley DB. Кто нибудь знает библиотеку или алгоритм на хэшах, способные справиться с данной задачей за время < 5 часов?



Ответ на:
комментарий
от anonymous





Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.
Похожие темы
- Форум Создание собственного движка БД (2007)
- Новости В ZFS появилась поддержка исключения дубликатов (2009)
- Новости Вышел Ora2Pg 6.3 (2010)
- Форум Специфическая БД (2005)
- Новости Релиз memcached 1.4.18 (2014)
- Форум быстрый текстовый редактор (2006)
- Форум Посоветуйте быстрый текстовый процессор (2014)
- Форум Индексирование видеофайла. (2013)
- Форум индексирование десктопа (2015)
- Форум Задача индексирования (2010)