LINUX.ORG.RU

История изменений

Исправление shty, (текущая версия) :

имеется в виду поиск вообще (что-то около data mining) или именно реляционная модель?

не, конкретно здесь не data mining, и не реляционная модель (хотя, скорее всего, тут пофиг), интересуют книги по построению backend для хранения данных, то есть структуры для хранения данных, подходы и т.д.

у меня просто есть задача похожая на ту, что описал ТС, в смысле наличия относительно большого количества данных, которые могут неспешно добавляться

собственно:
1) необходимо построить по ним индекс, на основе чего-то типа z-order curve, чтобы делать по ним пространственную выборку
2) данные версионированы по времени
3) может существовать несколько типов данных, которые привязаны к пространственным координатам, надо уметь их доставать совместно
4) есть куча метаданных, которые необходимо тоже засунуть в отдельный индекс(ы)

собственно что-то похожее уже как-то есть - это SciDb, но оно написано «норкоманами» и не совсем мне подходит

да, для решения этой задачи можно натянуть каракатицу на существующие решения (типа все данные в hbase по ключу, а индекс построить рядом и положить тоже куда-нибудь), но настоящие джедаи ездят на великах + мне интересно разобраться в теме + у меня есть 1-3 года на построение базового решения

да, есть hard-way - изучать сорцы, благо все есть в доступе, собственно план и был изначально такой, но если есть книга (кстати, не обязательно книга, может быть любой материал), которая бы базовые основы объясняла, мне бы это сэкономило кучу времени

Исходная версия shty, :

имеется в виду поиск вообще (что-то около data mining) или именно реляционная модель?

не, конкретно здесь не data mining, и не реляционная модель (хотя, скорее всего, тут пофиг), интересуют книги по построению backend для хранения данных, то есть структуры для хранения данных, подходы и т.д.

у меня просто есть задача похожая на ту, что описал ТС, в смысле наличия относительно большого количества данных, которые могут неспешно добавляться

собственно:
1) необходимо построить по ним индекс, на основе чего-то типа z-order curve, чтобы делать по ним пространственную выборку
2) данные версионированы по времени
3) может существовать несколько типов данных, которые привязаны к пространственным координатам, надо уметь их доставать совместно
4) есть куча метаданных, которые необходимо тоже засунуть в отдельный индекс(ы)

собственно что-то похожее уже как-то есть - это SciDb, но оно написано «норкоманами» и не совсем мне подходит

да, для решения этой задачи можно натянуть каракатицу на существующие решения (типа все данные в hbase по ключу, а индекс построить рядом и положить тоже куда-нибудь), но настоящие джедаи ездят на великах + мне интересно разобраться в теме + у меня есть 1-3 года на построение базового решения

да, есть hard-way, изучать сорцы, благо все есть в доступе, собственно план и был изначально такой, но если есть книга (кстати, не обязательно книга, может быть любой материал), которая бы базовые основы объясняла, мне бы это сэкономило кучу времени