Дерево с быстрым доставанием родителей ноды

java, алгоритмы, математика., структуры данных

0

2

Дерево произвольного количества нод на каждой ветке. Допустим, у каждой ноды есть какой-то набор какого-то добра, т.е. добро ноды на уровне k + 1 состоит из ее добра и добра всех ее предков.

Еще нужно эту структуру хранить как какую-то персистентнуюю опердень, но нет условия на конкретную реализацию - т.е., если будет удобно в mysql, то mysql, если имеется какое-то дерево, которое может быть персистентным, было бы отлично. Еще (опционально) было бы неплохо иметь возможность шардить.

Важно вот что - в любой предложенной реализации должна присутствовать возможность получить для ноды список всех предков при уловии, что у каждой ноды один родитель, что очевидно, до корня. (банально записать просто плоской структурой в sql не катит, ибо если у дерева высота 1к, то это 1к запросов - ну его). И второй ключевой момент - оязательна возможность перекидывать ноды (как по соседству, так и с уровня на уровень), и чтоб при этом их добро менялось в соответствии с новым положением, в т.ч. и добро их детей.

(добавил в теги «математика», ибо математики обычно и подстказывают годные идеи, но если вас зацепило - простите)

Ссылка

← Нужен скрипт запускающий программу вместе со скринсейвером

Вывод русских символов в консоль.(с++) →

Дерево — одна из наиболее широко распространённых структур данных в информатике, эмулирующая древовидную структуру в виде набора связанных узлов. Является связанным графом, не содержащим циклы.

Более одного родителя это ведь цикл ?

hidden_4003 ★
(04.12.13 20:40:43 MSK)

Ответ на: комментарий от hidden_4003 04.12.13 20:40:43 MSK

Я некорректно сказал - имелось в виду «всех предков при уловии, что на каждом уровне один предок». Вношу исправления.

cdshines ★★★★★
(04.12.13 21:10:04 MSK) автор топика

Ссылка

OODB? Когда-то были популярными. Может быть, и сейчас используются в системах CAD/CAM, но это - не моя область.

~~dave~~ ★★★★★
(04.12.13 21:17:57 MSK)

Ссылка

В нормальных базах есть рекурсивные запросы, одним запросом достанешь всех предков, если это единственное, что тебя не устраивает в самом простом и наглядном способе хранения.

~~Legioner~~ ★★★★★
(04.12.13 21:19:45 MSK)

Ответ на: комментарий от Legioner 04.12.13 21:19:45 MSK

Для MySQL такого костыля нет? Мне здесь отвечают, что в реляционных бд так делать не нужно: http://stackoverflow.com/questions/20382012/a-rather-specific-design-for-a-cu...

sudo cast ~~subwoofer~~, ~~vertexua~~.

cdshines ★★★★★
(04.12.13 21:50:00 MSK) автор топика

Ответ на: комментарий от cdshines 04.12.13 21:50:00 MSK

Про мускуль не знаю, погугли, постгрес, оракл и дб2 точно умеют.

А на СО фигню написали. Все хранят в реляционных базах иерархию и никаких особых проблем не возникает.

http://stackoverflow.com/questions/4048151/what-are-the-options-for-storing-h... тут ещё поботай, он там много способов написал разных, Nested Sets любопытный, возможно подойдёт, сейчас вспоминать, как он устроен, не хочу.

~~Legioner~~ ★★★★★
(04.12.13 22:03:27 MSK)

Ответ на: комментарий от cdshines 04.12.13 21:50:00 MSK

в постгресе есть (также можно разрулить анонимной или не очень процедурой),

с другой стороны, если ноды жирные, то как вариант отделить структуру от данных - отдельно таблица nodes с (id, data) отдельно structure (id, parentId) и тут, значит финт ушами - таблицу structure грузишь одним запросом в память и там выбираешь что тебе хочется, выборка данных по вкусу - запросами с кешированием, генерацией временных таблиц или как еще, зависит от объемов данных

с другой стороны http://www.codeproject.com/Articles/521713/Storing-Tree-like-Hierarchy-Struct...

Deleted
(04.12.13 22:12:02 MSK)

Ответ на: комментарий от Legioner 04.12.13 22:03:27 MSK

Все хранят в реляционных базах иерархию и никаких особых проблем не возникает.

Эти убогие все в реляционках и произвольные объекты хранят, графы и все что угодно, а потом это пыхтит и тормозит, просто альтернативы нема 8)

Deleted
(04.12.13 22:13:20 MSK)

Ссылка

Ответ на: комментарий от Deleted 04.12.13 22:12:02 MSK

Там и так от нод отделены сущности, которые юзают их пейлод. В ноде лежит строка, по сути. Я вот раздумывают над чем-то типа nested sets, ибо как раз же такая функциональность. Тогда У меня чем ниже нода в дереве, тем она представляет собой большее множество (много добра), и ее родители имею его меньше, поэтому они как бы ее вложенные подмножества. Но тогда встает проблема с хранением вообще всего множества (дерево здесь уже никуда не налазит вообще), а также с переносами. Но если подобрать подходящее представление, то это будет просто. Только я не могу его подобрать:/

Может, jackrabbit?

cdshines ★★★★★
(04.12.13 22:24:27 MSK) автор топика

Ответ на: комментарий от cdshines 04.12.13 22:24:27 MSK

jackrabbit

у него унутрях таже субд

ты лучше скажи какой у тебя объем данных

Deleted
(04.12.13 22:26:20 MSK)

Ответ на: комментарий от Deleted 04.12.13 22:26:20 MSK

Насколько я понял из сказанного - совершенно произвольный, т.е. такое дерево может быть вообще поставлено в соответствие ФС (не факт, что просто локальной) (в смысле, по ноде на файл). И да, желательно еще иметь хотя бы базовые возможности для шардинга или какого-то другого способа масштабировать.

тоже субд

Так мне не обязательно не пользоваться обертками.

cdshines ★★★★★
(04.12.13 22:32:10 MSK) автор топика

Ответ на: комментарий от cdshines 04.12.13 22:32:10 MSK

тогда лучше уж постгрес и рекурсивный запрос

Deleted
(04.12.13 22:37:01 MSK)

Ответ на: комментарий от Deleted 04.12.13 22:26:20 MSK

https://wiki.apache.org/jackrabbit/PersistenceManagerFAQ

Jackrabbit uses the org.apache.jackrabbit.core.fs.FileSystem interface as a file system abstraction.

Вот, я посмотрел - там есть обертки поверх дерби, оракла и т.д. Думаю, там свелосипедили получше, чем я смогу. По крайней мере, у ноды есть метод getParent() :), и я не думаю, что если я напишу что-то вроде того, что ниже, оно развернется в 100500 вызовов к бд на каждую ноду.

for(Node pNode = currwntNode; !pNode.hasParent(), pNode = pNode.next() {
    nodes.add(pNode);
}

Можно потестить, в любом случае.

cdshines ★★★★★
(04.12.13 22:40:46 MSK) автор топика

Ссылка

Ответ на: комментарий от Deleted 04.12.13 22:37:01 MSK

В некоторых модулях проекта уже есть MySQL, не думаю, что все будут рады видеть мою инициативу по повышению гетерогенности)

cdshines ★★★★★
(04.12.13 22:41:37 MSK) автор топика

Ответ на: комментарий от cdshines 04.12.13 22:41:37 MSK

http://dba.stackexchange.com/questions/7147/find-highest-level-of-a-hierarchi...

Deleted
(04.12.13 22:42:45 MSK)

Ссылка

Уж не альтернативу ли биткоинам ты задумал?

Adonai ★★★
(05.12.13 00:13:59 MSK)

Ссылка

Это дерево ведь надо ещё как-то создавать и модифицировать, не? Плясать нужно именно от набора операций. Может, тебе вообще подойдёт хранить таблицу пар вида (node, ancestor). Ну да, при добавлении элемента на уровне 1k придётся вставить в эту таблицу 1k записей. Но в твоей задаче это может быть разумно.

Miguel ★★★★★
(05.12.13 00:21:02 MSK)

Ответ на: комментарий от Miguel 05.12.13 00:21:02 MSK

Ну да, при добавлении элемента на уровне 1k придётся вставить в эту таблицу 1k записей.

http://stackoverflow.com/questions/20382012/a-rather-specific-design-for-a-cu...

я вот здесь описал операции. попробую еще sudo cast Reset

cdshines ★★★★★
(05.12.13 00:52:03 MSK) автор топика

Не очень просто шардить эффективное дерево. Это делают крайне редко. Обычно граф представляют в виде какого-то key-value и следят чтобы запросов приходилось делать не много.

Тебе не нужно решать задачу как сделать меньше 1к запросов для дерева глубины 1к. Твоя задача - выкосить дерево глубины 1к.

Базы есть, Neo4j, но не уверен что они вот так прямо супер будут шардиться. Там профиты в хранении прямых адресов элементов в образе на одной машине, потому вместо В+ индекса получаешь О(1)

Реальные размеры, описание задачи в студию. Бизнес задачи

~~vertexua~~ ★★★★★
(05.12.13 01:49:04 MSK)
Последнее исправление: vertexua 05.12.13 01:49:12 MSK (всего исправлений: 1)

Ответ на: комментарий от vertexua 05.12.13 01:49:04 MSK

Шардинг - это опционально. Насчет реальной задачи - не могу распространяться, к сожалению. Neo4j - тоже смотрел. Размеры уже сказал - потенциально каждая нода может представлять некую сущность, поставленную в соответствие, например, каждому файлу из (может быть и) распределенной ФС. (это вырожденный асимптотически крайний случай, но все же)

Я не знаю, как конкретнее описать, чтобы не выложить все вообще) Суть в том, что для получения полной информации по ноде к ней нужно дойти, как в префиксном дереве, по пути. Хм, может, подумать в эту сторону? Завтра, если получится, постараюсь подробнее описать.

А что ты думаешь про уже упомянутый jackrabbit?

cdshines ★★★★★
(05.12.13 02:09:33 MSK) автор топика

Ссылка

должна присутствовать возможность получить для ноды список всех предков при уловии, что у каждой ноды один родитель, что очевидно, до корня

если в рел.базе нет отдельных фич для работы с деревьями, то делают через nested-sets - храниться компактно, наборы из «предков» или «детей» реализуются одним запросом.

добавил в теги «математика»

добавь ещё «русский язык» и «поток сознания» - очень тяжело читать ваш текст :-)

MKuznetsov ★★★★★
(05.12.13 02:57:41 MSK)

Ответ на: комментарий от MKuznetsov 05.12.13 02:57:41 MSK

Да, я уже заметил, но мне что-то лень переписывать по-человечески. Я что, становлюсь как ~~qulinxao~~?

cdshines ★★★★★
(05.12.13 03:05:04 MSK) автор топика

Ссылка

и чтоб при этом их добро менялось в соответствии с новым положением, в т.ч. и добро их детей.

а как это понимать? Ты же не собираешься хранить в каждой ноде весь список добра, а будешь доставать его рекуррентно, или? а почему бы не записать добро нод в sql, а само дерево в отдельную структуру, и все операции проводить уже на ней? Ну а список родителей ноды хранить как информацию к каждой ноде, ну и пересчитывать при перескоке нод с одной на другую.

~~dikiy~~ ★★☆☆☆
(05.12.13 05:09:47 MSK)
Последнее исправление: dikiy 05.12.13 05:12:03 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от cdshines 05.12.13 00:52:03 MSK

Ещё такой момент — как ты собираешься адресовать ноды?

Если, например, ты будешь ходить по дереву как по файловой системе и иногда восклицать «а подать мне всех предков текущей ноды!», то будет иметь смысл просто хранить список предков и инкрементально его апдейтить при смене ноды.

Или у тебя будет какой-то внешний способ адресации нод, т.е., они шарятся между деревом и чем-то ещё?

Miguel ★★★★★
(05.12.13 09:01:34 MSK)

Ответ на: комментарий от Miguel 05.12.13 09:01:34 MSK

На ноды будут ссылки извне от тех объектов, которым как раз и нужна информация из нод.

cdshines ★★★★★
(05.12.13 15:19:00 MSK) автор топика

Ссылка

Ответ на: комментарий от vertexua 05.12.13 01:49:04 MSK

Я щас сравниваю neo4j, jackrabbit, mysql и orientdb на предмет этой фигни на дереве примерно 1м. нод, и прикидываю, что это составляет какие-то жалкие проценты от реальной задачи.

cdshines ★★★★★
(05.12.13 19:21:50 MSK) автор топика