Как устроено выделение/освобождение блоков (страниц) в СУБД на b-tree деревьях?

dbms, tree, диск

B-tree лежит в файле в виде россыпи блоков. Дерево оперирует блоками (хранит в одних блоках указатели на другие) в виде ID этих блоков (а не поинтеров в памяти), по которым (ID) код ходит в некий кеш блоков. Если в кеше нет, то кеш знает по какому смещению на диске блок лежит. Блок (страница) имеет фиксированный размер, допустим.

Блоки надо иногда выделять, и обычно сильно реже освобождать.

Выделять блоки можно тупо с конца файла, либо из каталога свободных блоков - данный пост как раз об этом. При освобождении блока, он, естественно, продолжает занимать на диске в файле место какое и занимал, не сдвигать же содержимое файла назад и не фиксить же все ID блоков после него.

Как нормальные люди управляют удалением и переиспользованием удалённых блоков в хранилках СУБД? Первое что приходит на ум:

1) Есть тупой односвязный список удалённых блоков. В заголовке файла лежит один ID, ссылающийся на голову этого списка. Если блок удаляется, мы ставим в качестве головы его, а предыдущую голову крепим к этому. Если надо выделить блок, смотрим не пуст ли этот список. Если да, то потребляем голову этого списка. Недостатки: лишние обращения к диску: чтобы выделить какой-то блок, надо его зачитать в память (чтобы взять из него указатель на следующий блок, дабы поставить теперь его на роль головы этого списка). То есть выделение нового блока - всегда какая-то возня с диском, забивание кеша блоков ненужными данными с диска. Хотелось бы так: мы знаем что по такому-то смещению лежит блок, его статус «свободен», но читать его не нужно, возможно только что мы его потом запишем уже с новыми данными.

2) Хранить специальные блоки, выделяя их на общих правах со всеми, в которых будет тупо лежать FILO очередь свободных блоков. Ну то есть, это такой массив, побитый на блоки, наращиваемый блоками, поддерживающий только push_back + pop_back, хранящий ID свободных блоков. Массив может расти, потребляя блоки, сокращаться, освобождая блоки. Тут рекурсивная проблема хранения уже этих свободных блоков... Плюсы: в памяти всегда есть страничка с кучей ID свободных блоков.

3) Хранить в начале файла специальный массив фиксированного размера на неск. мегабайт, куда можно добавить лимитированное число свободных блоков. Какая-то жопная идея... Про битмаску на все блоки я молчу...

4) Как-то запилить серию специальных ключей в само B-дерево, хранить их на равных правах со всеми остальными ключами и в них как-то держать инфу про свободные блоки. Будут прикольный эффекты: ты освобождаешь блок, пытаешься записать на эту тему новый ключ, а эта операция сразу же потребляет только что освободившийся блок и ключ уже не нужен и блок снова надо освободить )

Пока самым перспективным кажется направление (2). Некий линейный тупой массив INT-ов (ID-шников свободных блоков), без пределов роста, хранящийся как последовательность блоков и блоки эти формируют список. В памяти всегда закеширован хвост этого списка блоков, т.е. большой задний кусок этого массива ID-шников, в нём легко совершать частые манипуляции без похода на диск (возможно отражая оперции в WAL-логе), а новый такой блок нужен только если исчерпали последний. Может понадобиться освобождать и эти блоки и как-то хранить уже их ID. Возможно можно резервировать место под них в их самих...

Ссылка

https://www.amazon.com/Designing-Data-Intensive-Applications-Reliable-Maintai...

Ждесь написано практически про все современные стораджи. Читать можно с третьей главы.

xpahos ★★★★★
(01.09.18 03:11:05 MSK)

Можно залезть в исходники того же MySQL или PostgreSQL и посмотреть. Если увидите, что можно предложить что-то пооптимальнее, с разработчиками пообщайтесь - будет всем конкретная польза.

Вообще, работа с диском в СУБД-шках устроена немного посложнее - там же, как правило, свой кэш и «redo logs» используются.
Полезно глянуть:
InnoDB Buffer Pool Optimization
Optimizing InnoDB Disk I/O

~~vinvlad~~ ★★
(01.09.18 05:47:04 MSK)

Ответ на: комментарий от vinvlad 01.09.18 05:47:04 MSK

Да, там всё посложнее, ибо всякие транзакции и т.п. У меня поскромнее требования пока что.

hlamotron ★
(01.09.18 21:50:21 MSK) автор топика

Ответ на: комментарий от hlamotron 01.09.18 21:50:21 MSK

Да, а требования-то какие?

anonymous
(02.09.18 00:59:58 MSK)

Про битмаску на все блоки я молчу...

Ну, спецы из Oracle к этому делу более оптимистично относятся )

Глянь:
https://docs.oracle.com/database/121/CNCPT/logical.htm
и погугли: oracle ASSM MSSM freelist

Может чего и пригодится в идейном плане.

~~vinvlad~~ ★★
(02.09.18 09:22:24 MSK)

Пилишь СУБД или просто интересуешься? )

foror ★★★★★
(03.09.18 20:24:34 MSK)

Похожие темы