Быстрые деревья

6

3

Имеется структура данных: дерево из 100 тысяч узлов. Самая длинная ветвь — 50 тысяч. Число дочерних узлов не ограничено. Требуется быстро найти наинизшую общую вершину для примерно миллиарда пар узлов.

Для менее асимметричного дерева из 10 тысяч узлов и 20 миллионов пар я тупо построил список списков предков и сравнил для каждой пары. Но для большого дерева не хватит памяти.

Вопрос: есть ли готовая библиотека, способная быстро искать общую вершину?

Ссылка

← В скрипте несколько вызовов datetime.now() выдает одинаковое время

Аналог PascalABC.net под linux →

← 1 2 →

https://www.tutorialspoint.com/lowest-common-ancestor-of-a-binary-tree-in-python

Насколько быстро хз

anonymous
(21.06.21 09:01:58 MSK)

Ответ на: комментарий от anonymous 21.06.21 09:01:58 MSK

А, че то я не увидел, что у тебя количество дочерних веток не ограничено. Тогда это не пойдет. Он для бинарных вариантов.

anonymous
(21.06.21 09:05:36 MSK)

Ссылка

Вопрос: есть ли готовая библиотека, способная быстро искать общую вершину?

Добавьте в node ссылку на предка и не нужно будет искать …

anonymous
(21.06.21 09:07:47 MSK)

Ссылка

100 тысяч узлов
примерно миллиарда пар узлов

Т.е. примерно почти все возможные пары?
Тогда наверное можно тупо просто обходить дерево, начиная с корня, и на каждой развилке обходить поддеревья, и для всех пар (где одна вершина из одного поддерева, а другая из другого) записывать общего предка. По идее, количество операций в этом случае порядка квадрата числа вершин (и всех возможных пар), возможно ещё как-то можно оптимизировать

TheAnonymous ★★★★★
(21.06.21 09:19:57 MSK)

Посмотри binary lifting.

Zubok ★★★★★
(21.06.21 09:21:10 MSK)

https://e-maxx.ru/algo/lca
https://e-maxx.ru/algo/lca_simpler
https://e-maxx.ru/algo/lca_linear
https://e-maxx.ru/algo/lca_linear_offline

anonymous
(21.06.21 09:56:51 MSK)

Хм, если хранить список предков как односвязный список, из глубины наружу, и шарить по максимуму, то памяти должно хватить.

Miguel ★★★★★
(21.06.21 10:13:16 MSK)

Ответ на: комментарий от Miguel 21.06.21 10:13:16 MSK

а если еще и поля структур повыравнивать... ах, мы не знаем что за яп.

deep-purple ★★★★★
(21.06.21 10:15:25 MSK)

Ответ на: комментарий от Zubok 21.06.21 09:21:10 MSK

Посмотри binary lifting.

Спасибо, уже смотрю.

question4 ★★★★★
(21.06.21 10:51:53 MSK) автор топика

Ссылка

Ответ на: комментарий от Miguel 21.06.21 10:13:16 MSK

если хранить список предков как односвязный список, из глубины наружу, и шарить по максимуму, то памяти должно хватить.

Но по моим прикидкам потребуется несколько тысяч часов.

question4 ★★★★★
(21.06.21 10:53:35 MSK) автор топика

Ответ на: комментарий от deep-purple 21.06.21 10:15:25 MSK

мы не знаем что за яп.

Пока Питон. Можно любой другой не слишком экзотический.

question4 ★★★★★
(21.06.21 10:54:35 MSK) автор топика

Возможно, выбранное дерево не подходит для хранения этих данных, раз такая разбалансировка?

~~izzholtik~~ ★★★
(21.06.21 10:56:27 MSK)

Ответ на: комментарий от TheAnonymous 21.06.21 09:19:57 MSK

100 тысяч узлов
примерно миллиарда пар узлов

Т.е. примерно почти все возможные пары?

Нет, менее десятой части. 5+5=10, а не 9.

question4 ★★★★★
(21.06.21 10:56:41 MSK) автор топика

Ответ на: комментарий от question4 21.06.21 10:53:35 MSK

Что-то больно много.

Пока Питон

Понял, ухожу.

Miguel ★★★★★
(21.06.21 10:57:08 MSK)

Ответ на: комментарий от question4 21.06.21 10:54:35 MSK

тут вроде уже мелькало в советах сделать бек референс на парента. да, это правильное направление.

добавлю еще, что надо заранее собрать в цепочку всех, кто без чайлдов, и вот с них и начинать перебор. естественно, после прохода и успешного нахождения, ставить им нужные статусы, а в идеале - изымать из цепочки, так последующие итерации поиска с меньшим колвом элементов в цепочке будут все быстрее.

deep-purple ★★★★★
(21.06.21 11:24:43 MSK)

Ответ на: комментарий от question4 21.06.21 10:56:41 MSK

Вот тебе голубчик, для изучения тулупчик.

algolist.manual.ru
algorithm.narod.ru
compgeom.cs.uiuc.edu
ecss.nl
forum.algolist.ru
kvodo.ru
math.nist.gov
matt.might.net
neerc.ifmo.ru вики-конспекты
rain.ifmo.ru
www.algosort.com
www.chorochronos.org
www.coders-library.ru
www.coq.inria.fr
www.cs.cmu.edu
www.cs.princeton.edu
www.cs.sunysb.edu
www.cs.usfca.edu
www.e-maxx.ru
www.fourmilab.ch
www.geom.uiuc.edu
www.intuit.ru
www.iproc.ru
www.keithschwarz.com
www.link.cs.cmu.edu
www.maths.surrey.ac.uk
www.okmij.org
www.people.csail.mit.edu
www.sorting-algorithms.com
www.theory.esm.rochester.edu
www.tproger.ru
www3.cs.stonybrook.edualgorith
xlinux.nist.gov
yury.name

anonymous
(21.06.21 11:42:37 MSK)

Ответ на: комментарий от Zubok 21.06.21 09:21:10 MSK

Посмотри binary lifting.

Заранее составить список предков для каждого узла? С этого и начал, не хватает памяти.

question4 ★★★★★
(21.06.21 12:09:22 MSK) автор топика

а тупо маркировать 2-мя битиками путь не судьба ?

бежиш по пути инкрементишь счётчик в проходном узле ..счётчик==2, переходишь к следующему из дохулиарда ветвей.

ближайший к корню узел с счётчик=2 есть искомое

O(log) при мин.требований по памяти

MKuznetsov ★★★★★
(21.06.21 12:22:28 MSK)

Какая нахрен библиотека? Такую задачку на собеседованиях дают на 10 минут. Есть решение за O(глубины) времени и O(1) памяти. Готовое решение давать не буду, потому что ты позорник.

slovazap ★★★★★
(21.06.21 13:08:30 MSK)

Ответ на: комментарий от question4 21.06.21 10:56:41 MSK

всего пар 100000*99999/2, миллиард чуть более пятой части, но вообще да, в 5 раз меньше

TheAnonymous ★★★★★
(21.06.21 13:12:27 MSK)

Ссылка

На сайтах и в книгах по алгоритмам полно примеров обхода деревьев.
Не нужно здесь ни каких списков строить …

anonymous
(21.06.21 13:14:22 MSK)

Ссылка

Дерево какое? Бинарное?

Harald ★★★★★
(21.06.21 13:17:49 MSK)

Ссылка

Ответ на: комментарий от question4 21.06.21 12:09:22 MSK

Там предки не все нужны, а только (2^i)-е, их количество максимум логарифм

TheAnonymous ★★★★★
(21.06.21 13:21:02 MSK)

Ссылка

Ответ на: комментарий от izzholtik 21.06.21 10:56:27 MSK

Возможно, выбранное дерево не подходит для хранения этих данных, раз такая разбалансировка?

Дерево отражает хитрый физический смысл. Оно нужно только для установления общих предков. Можно ли перебалансировать дерево, сохранив возможность искать их?

question4 ★★★★★
(21.06.21 13:21:16 MSK) автор топика

Ответ на: комментарий от Miguel 21.06.21 10:57:08 MSK

Давай быстрое решение на твоём любимом языке.

question4 ★★★★★
(21.06.21 13:21:49 MSK) автор топика

Ответ на: комментарий от question4 21.06.21 13:21:49 MSK

Быстрые деревья (комментарий)

anonymous
(21.06.21 13:24:57 MSK)

Ссылка

Ответ на: комментарий от question4 21.06.21 13:21:16 MSK

Дерево отражает хитрый физический смысл. Оно нужно только для установления общих предков. Можно ли перебалансировать дерево, сохранив возможность искать их?

Конечно можно, не сомневайтесь …
Структуру опубликуйте.
А то какие-то кошки, мышки …

anonymous
(21.06.21 13:36:54 MSK)

Ответ на: комментарий от deep-purple 21.06.21 11:24:43 MSK

бек референс на парента

Есть с самого начала.

надо заранее собрать в цепочку всех, кто без чайлдов, и вот с них и начинать перебор. естественно, после прохода и успешного нахождения, ставить им нужные статусы, а в идеале - изымать из цепочки

По ним и так пробегает только один раз, когда ищут их.

Хотя имеет смысл все вызовы листовых узлов заменить на вызовы их предков. Кроме вызовов, когда аргуметны совпадают. Попробую.

question4 ★★★★★
(21.06.21 13:37:16 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 21.06.21 13:36:54 MSK

Структуру опубликуйте.

https://stepik.org/media/attachments/lesson/541855/test3.zip

Вторая строка — массив предков для узлов, начиная со 2-го. 1-й узел предков не имеет, 0-й отсутствует. 999999 чисел. Можно строить из него дерево, можно работать с массивом. 3-я строка — веса узлов.

Узлы, для которых надо искать предков, перечислены с 5-й по 10004-ю строку и с 10006-й до конца, кроме левой колонки. Первая группа — 2-й аргумент, 2-я — 1-й. Списки генов, связанных с болезнями и симптомами.

Да, это тестовое задание. Срок сдачи истёк. Хочу попытаться решить, не заглядывая в официальный ответ.

question4 ★★★★★
(21.06.21 14:08:45 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 21.06.21 09:56:51 MSK

https://e-maxx.ru/algo/lca https://e-maxx.ru/algo/lca_simpler https://e-maxx.ru/algo/lca_linear https://e-maxx.ru/algo/lca_linear_offline

Выглядит многообещающе, но на препроцессинг не хватает памяти. Хотя ещё не дочитал.

question4 ★★★★★
(21.06.21 14:11:31 MSK) автор топика

А может построить нечто вроде «дерева групп». Все узлы делятся на группы. В группе есть ограничение на максимальное количество участников. Группа - это структура со счетчиком участником, указателем на узел-родитель группы и указателем на группу предков. Пускай корневой узел создает первую группу и туда добавляются все его потомки первой линии, потом второй, потом третьей и так до тех пор, пока не будет превышен предел участников. Узлы-потомки, которые не смогли влезть в группу, создают свою, занося в структуру своей группы указатель на группу предков. И так всё продолжается по-новой.

В итоге получается дерево групп. Все участники одной группы имеют общего предка - создателя группы. Это необязательно ближайший общий предок, но довольно близкий. Потом ищем общего предка внутри этой группы.

Если в группе 1000 узлов. То дерево групп будет в 1000 раз меньше, чем исходное дерево. Если исходное дерево узлов сильно не сбалансировано, то порожденное дерево групп по идее должно быть более сбалансированным.

В самом дереве стоит таже задача - найти группу - общего предка. Т.е. можно повторить прием. Сделать дерево групп деревьев групп.

pathfinder ★★★★
(21.06.21 14:16:42 MSK)
Последнее исправление: pathfinder 21.06.21 14:20:06 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от slovazap 21.06.21 13:08:30 MSK

Идущие нахрен приветствуют программиста, порождающего мусор!

Реальные научные задачи отличаются от собеседований тем, что гигабайтов и гигагерц всегда не хватает. Когда начинает хватать — берутся за задачи, которые считались неподъёмными :)

Для O(1) не хватает памяти. Знаешь способ найти компромисс скорости и потребления памяти — тащи сюда.

question4 ★★★★★
(21.06.21 14:46:22 MSK) автор топика

Ответ на: комментарий от question4 21.06.21 14:46:22 MSK

Да, это тестовое задание. Срок сдачи истёк. Хочу попытаться решить, не заглядывая в официальный ответ.

Реальные научные задачи

Siborgium ★★★★★
(21.06.21 15:06:10 MSK)

Ссылка

Ответ на: комментарий от question4 21.06.21 14:46:22 MSK

Реальные научные задачи отличаются от собеседований тем, что гигабайтов и гигагерц всегда не хватает

Ничем они не отличаются, гигагерцы везде одинаковые.

Для O(1) не хватает памяти.

Для O(1) не может не хватать памяти. Нет, у тебя нигде не было O(1).

Знаешь способ найти компромисс скорости и потребления памяти — тащи сюда.

Чем тебя не устраивает общеизвестный алгоритм LCA?

https://en.wikipedia.org/wiki/Lowest_common_ancestor

Хочешь ускорить - сохраняй глубину в узлах, сложность будет не O(глубина), а O(расстояние до LCA).

Binary lifting уже посоветовали - там логарифм памяти и логарифм CPU.

Дальше матрица с квадратом памяти и константным временем, квадрат на расчёт. При таком количестве запросов кажется что это будет самый выгодный вариант. Не хватает памяти - храни на диске.

На питоне не надо ничего считать. Никогда.

Заранее составить список предков для каждого узла?

Список предков для каждого узла не нужно составлять, он у тебя хранится в самом дереве.

С этого и начал, не хватает памяти.

Не всех предков, а только логарифма предков.

slovazap ★★★★★
(21.06.21 15:35:46 MSK)

Ссылка

Ответ на: комментарий от MKuznetsov 21.06.21 12:22:28 MSK

общий ближайший предок может быть не на одинаковом уровне, т.к. искать общего предка надо только среди тех у кого нет потомков.

тс верно?

deep-purple ★★★★★
(21.06.21 17:15:57 MSK)

Ответ на: комментарий от deep-purple 21.06.21 17:15:57 MSK

общий ближайший предок может быть не на одинаковом уровне

В смысле? Если «может находиться на неодинаковом расстоянии от двух анализируемых потомков», то да, верно.

искать общего предка надо только среди тех у кого нет потомков.

А вот это не понял.

question4 ★★★★★
(21.06.21 20:39:53 MSK) автор топика

Ссылка

А причем тут пары узлов? Чем «найти наинизшую общую вершину для миллиарда пар узлов» отличается от «найти наинизшую общую вершину для двух миллиардов (или сколько их там будет) узлов»?

~~AntonI~~ ★★★★★
(21.06.21 21:39:43 MSK)

neo4j? или не то?

proveryam
(21.06.21 23:45:02 MSK)

Ссылка

Ответ на: комментарий от question4 21.06.21 14:11:31 MSK

на препроцессинг не хватает памяти

На N*logN не хватает? У тебя её 640 КБ?

anonymous
(22.06.21 02:34:04 MSK)

Ссылка

Заполнить вторую такую же структуру теми же данными попутно на каждои итерации заполнения выявляя наинизшую общую, хранить её и при обновлении данных просто обновлять. Тоесть она всегда должна быть найдена в любой момент времени. Итого O(1) сложность.

А так, у тебя просто мусорные данные раскинутые как получилось и среди этого гуана птичек ты пытаешься найти козью какашку в виде шарика.

Короче любой поиск по данным должен быть готов до того как поиск будет запрошен. Всё уже должно быть готово заранее, а точнее всё должно быть найдено при каждом изменнении. И если это делать в самом начале заполнения данных и всегда потом то это делается считай бесплатно.

anonymous
(22.06.21 02:46:06 MSK)

Ссылка

Ответ на: комментарий от question4 21.06.21 13:21:49 MSK

Давай денег, будет решение.

Miguel ★★★★★
(22.06.21 02:50:27 MSK)

Ссылка

Ответ на: комментарий от question4 21.06.21 14:11:31 MSK

не хватает памяти на 10^5 узлов, чтоа?

Lrrr ★★★★★
(22.06.21 06:51:37 MSK)

Ответ на: комментарий от anonymous 21.06.21 11:42:37 MSK

Спасибо за подборку.

anonymous
(22.06.21 07:34:37 MSK)

Ссылка

Ответ на: комментарий от Lrrr 22.06.21 06:51:37 MSK

100 килобайт нынче роскошь, ты чё. 64кб хватит всем же было сказано, больше только на топовых пк. Придётся Амигу покупать или платы расширения впиховать, но их раскупили майне…. хотя стоп маёнеры только через Дцать лет появятся! Мляяяяяяя опять машина времени сломалась и нетуда я попал.!

anonymous
(22.06.21 07:37:13 MSK)

Ссылка

Ответ на: комментарий от AntonI 21.06.21 21:39:43 MSK

Чем «найти наинизшую общую вершину для миллиарда пар узлов» отличается

Я так понял, что для каждой пары своя общая вершина. Берем первую пару узлов, находим общую вершину. Берем вторую пару узлов, находим общую вершину. И так миллиард раз.

pathfinder ★★★★
(22.06.21 08:50:44 MSK)

дерево из 100 тысяч узлов. Самая длинная ветвь — 50 тысяч

Я правильно понимаю, что это характерная особенность деревьев, с которыми надо работать? Т.е. сильная несбалансированность, одна ветвь сильно доминирует над остальными.

pathfinder ★★★★
(22.06.21 09:02:35 MSK)
Последнее исправление: pathfinder 22.06.21 09:03:09 MSK (всего исправлений: 1)

Быстрые деревья - Медленные люди

anonymous
(22.06.21 09:05:52 MSK)

Ссылка

Ответ на: комментарий от pathfinder 22.06.21 09:02:35 MSK

Вангую тут вообще тупо связный список абсолютно никак не балансированный тоесть деревом не является просто выглядит как дерево =)

anonymous
(22.06.21 09:14:59 MSK)

Ответ на: комментарий от pathfinder 22.06.21 08:50:44 MSK

Ну тогда вообще все тривиально решается через ссылку на предка узла.

идем от первого узла вверх до корня помечая все что встретится
идем от второго узла вверх до корня и ищем первый помеченный узел
обнуляем все отметки

~~AntonI~~ ★★★★★
(22.06.21 10:13:01 MSK)

Ответ на: комментарий от AntonI 22.06.21 10:13:01 MSK

Ну тогда вообще все тривиально решается

Ага, и так 20 миллионов раз. Если дерево плохо сбалансировано, то «подъемов вверх» может быть не десятки, а десятки тысяч.

Есть подозрение, что алгоритм всё время будет упираться в подсистему памяти.

Но для нормальных, более-менее сбалансированных деревьев ИМХО предложенный алгоритм хороший.

pathfinder ★★★★
(22.06.21 10:27:56 MSK)
Последнее исправление: pathfinder 22.06.21 10:28:27 MSK (всего исправлений: 1)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

← В скрипте несколько вызовов datetime.now() выдает одинаковое время

Development

Аналог PascalABC.net под linux →

Похожие темы