[слияние]Внешняя сортировка

0

0

Что-то меня некоторые лекции ввели в заблуждение http://video.google.com/videoplay?docid=-978892635109400080 . Там, довольно бородатый лектор, начинает перечислять какие качества нужны для внешней сортировки : среди них есть также inplace(сортировка на месте без привлечения дополнительной памяти). В качестве алгоритма он описывает сортировку слинянием, причем описывает на протяжении всей лекции, потом придумывает всяческие оптимизации(двойная буферизация, n-way merge).

Вопрос : как он делает слияние inplace, потому что известные алгоритмы слияния работают с O(n) дополнительной памяти, и для реализации его примера с 100 милионами записей, на последней итерации прийдется выделить второй файл такого же размера.

Как быть? Есть ли слияние с O(1) дополнительной памятью, и более-менее приспособленое для внешней сортировки?

Кстати он говорит что большинство СУБД используюут как раз внешнюю сортировку слиянием.

Ссылка

← [PostgreSQL][libpq] Статья «Учимся использовать вместе типы SQL и языка программирования C/C++»

Конструктор матрицы С++ →

В Википедии написано про сортировку слияением:

Sorting in-place is possible (e.g., using lists rather than arrays) but is very complicated, and will offer little performance gains in practice, even if the algorithm runs in O(n log n) time. In these cases, algorithms like heapsort usually offer comparable speed, and are far less complex. Additionally, unlike the standard merge sort, in-place merge sort is not a stable sort. In the case of linked lists the algorithm does not use more space than that the already used by the list representation, but the O(log(k)) used for the recursion trace.

Ну и собственно в сравнении разных методов сортировки написано:

Тип: In-place merge sort
Худший случай: n*log(n)
В среднем: n*log(n)
Память: 1
Стабильная: Depends
Метод: Merging

Ну и ссылки даны, можешь глянуть.

gizzka ★★
(09.05.10 18:28:35 MSK)

Вместо тупого сидения в интернете надо осилить Д. Кнута и Р. Седжвика.

anonymous
(09.05.10 19:17:43 MSK)

Ответ на: комментарий от anonymous 09.05.10 19:17:43 MSK

было интересно мнение «ослившего» ЛОРа, и вопрос был именно про слияние в контексте внешней сортировки, потому как она обладает некоторыми специфическими особенностями(про алгоритм Пратта я знаю, но он выглядит не очень для внешней сортировки, нашел получше)

recon88 ★
(09.05.10 20:32:58 MSK) автор топика

Ссылка

Ответ на: комментарий от gizzka 09.05.10 18:28:35 MSK

Спасибо, использую этот алгоритм слияния: время O(n), память O(1)

http://docs.google.com/viewer?a=v&q=cache:XeE62nr2mbkJ:citeseerx.ist.psu.edu/...

recon88 ★
(09.05.10 21:59:59 MSK) автор топика

Ссылка

вот тебе пример для inplace Субж.: Mergesort For Linked Lists

beastie ★★★★★
(10.05.10 18:59:16 MSK)

Ответ на: комментарий от beastie 10.05.10 18:59:16 MSK

он не требует дополнительной памяти, но он не inplace

and also preparing an empty list L which we will add elements to the end of as we finish dealing with them.

А дополнитеьлная память не требуется за счет того что обработанные элементы удаляются, в общем с external sort такой финт не пройдет

recon88 ★
(10.05.10 19:34:16 MSK) автор топика

Ответ на: комментарий от beastie 10.05.10 18:59:16 MSK

в статье даже слова такого нету - inplace

recon88 ★
(10.05.10 19:35:16 MSK) автор топика

Ответ на: комментарий от recon88 10.05.10 19:35:16 MSK

читай внимательней:

It avoids the need for the auxiliary space, and becomes a simple, reliably O(N log N) sorting algorithm.

там есть и пример, сам проверь: listsort.c

beastie ★★★★★
(10.05.10 19:48:59 MSK)

Ответ на: комментарий от beastie 10.05.10 19:48:59 MSK

вы не видите разницы между «не требует дополнительной памяти» и «сортировка на месте(inplace)»?

recon88 ★
(10.05.10 19:58:26 MSK) автор топика

Ответ на: комментарий от beastie 10.05.10 19:48:59 MSK

а тут моя реализация того же алгоритма: lsort.c, она попроще и покороче

beastie ★★★★★
(10.05.10 20:00:04 MSK)

Ссылка

Ответ на: комментарий от recon88 10.05.10 19:58:26 MSK

в данном контексте я и в самом деле разницы не вижу, ибо дополнительная память не аллоцируется и ни что ни куда не копируется, а идёт просто жонглированиями поинторами с элементами исходного списка.

у вас какое-то своё особенное определение inplace? будьте добры — обьясните, что вы имеете тогда ввиду.

beastie ★★★★★
(10.05.10 20:05:43 MSK)

Ссылка

Ответ на: комментарий от recon88 10.05.10 19:34:16 MSK

А дополнитеьлная память не требуется за счет того что обработанные элементы удаляются

неверно

beastie ★★★★★
(10.05.10 20:06:49 MSK)

Ответ на: комментарий от beastie 10.05.10 20:06:49 MSK

Что бы понять разницу попробуйте слить каким-либо алгоритмом последовательности в 10Gb(которые расположены на диске, в одном файле, первая, потом вторая). Особенно детально рассмотрите тот случай, когда все элементы второй последовательности меньше всех элементов первой последовательности.

- Remove that element, e, from the start of its list, by advancing p or q to the next element along, and decrementing psize or qsize. - удаляем элемент из исходного списка

- Add e to the end of the list L we are building up. - вставляем элемент в конец нового списка

recon88 ★
(10.05.10 20:14:28 MSK) автор топика

Ответ на: комментарий от recon88 10.05.10 20:14:28 MSK

Wikipedia sayz:

In computer science, an in-place algorithm (or in Latin in situ) is an algorithm which transforms input using a data structure with a small, constant amount of extra storage space. The input is _usually_ overwritten by the output as the algorithm executes.

тобиш под это определение поподают как алгоритмы переписывающие входной поток (как вам хочется), так и этого не делающие (мой пример), главное что бы обьём используемой памяти при сортировке был константен (и мал).

посему очевидно, что ваше определение inplace, к сожелению неверно.

beastie ★★★★★
(10.05.10 20:51:25 MSK)

Ответ на: комментарий от beastie 10.05.10 20:51:25 MSK

an algorithm which transforms input

к чему тут слово usually, не понятно. Суть в том что результат помещается на место исходных данных, и делается за констатнтное место. Ваш алгоритм под это определение не подходит(попробуйте реализовать мой пример).

recon88 ★
(10.05.10 20:55:13 MSK) автор топика

Ответ на: комментарий от recon88 10.05.10 20:55:13 MSK

не согласен, читаем дальше там же:

An algorithm is sometimes informally called in-place as long as it overwrites its input with its output. In reality this is _not sufficient_ (as the case of quicksort demonstrates) _nor is it necessary_; the output space may be constant, or may not even be counted, for example if the output is to a stream.

beastie ★★★★★
(10.05.10 20:58:39 MSK)

Ответ на: комментарий от beastie 10.05.10 20:58:39 MSK

quicksort как раз перезаписывает входной массив. И в вашем алгоритме не получится за констатное дополнительное пространоство слить две последовательности(см мой пример)

recon88 ★
(10.05.10 21:02:59 MSK) автор топика

Ответ на: комментарий от recon88 10.05.10 20:55:13 MSK

к тому же не вижу противоречия — место константно но не равно нуль, что прекрасно подходит под определение. вы же желаете не использовать дополнительное место совсем. для этого есть другие алгоритмы.

beastie ★★★★★
(10.05.10 21:03:44 MSK)

Ответ на: комментарий от recon88 10.05.10 21:02:59 MSK

почему?

beastie ★★★★★
(10.05.10 21:04:45 MSK)

Ссылка

Ответ на: комментарий от beastie 10.05.10 21:03:44 MSK

ок, с таким определением согласен(с константным местом). Но все же inplace логичнее относить к переписыванию входного потока.

recon88 ★
(10.05.10 21:15:27 MSK) автор топика

Ответ на: комментарий от recon88 10.05.10 21:02:59 MSK

к сожалению ваше утверждение не верно. ознакомьтесь ещё раз с алгоритмом.

данные при сортировке ни куда не перемещаются, используется один список поитеров константкой длины N по количеству элементов в списке.

итого потребляемая память: input + output + sizeof(void *) * N. и вы утверждаете, что оно не константно? o_O

beastie ★★★★★
(10.05.10 21:16:32 MSK)

Ответ на: комментарий от recon88 10.05.10 21:15:27 MSK

Хотя конечно это довольно странная классификация, к тому-же на странице в вики есть только две ссылки на статьи. И подобного определения я нигде до этого не встречал, поэтому вопрос о подобной классификации еще не закрыт

recon88 ★
(10.05.10 21:18:39 MSK) автор топика

Ссылка

Ответ на: комментарий от beastie 10.05.10 21:16:32 MSK

а список поинтеров длинны N - это не дополнительная память. Если у меня есть 100 милионов записей в файле, мне надо будет заводить список из 100 милионов поинтеров для вашего алгоритма? Может при работе над списками этот алгоритм и имеет постоянное место, но вы вобще читали исходный вопрос? Там упоминаются массивы, и внешняя сортировка.

И подобная наивная реализация слияния не пойдет(вместо списков вобще можно подставить любую структуру).

recon88 ★
(10.05.10 21:21:52 MSK) автор топика

Ответ на: комментарий от recon88 10.05.10 21:21:52 MSK

вопрос был про Merge Sort с O(1) по месту. я вам предоставил частное решение и пример для списков, что вполне пересекается с вашим исходным вопросом. в чём проблема то?

beastie ★★★★★
(10.05.10 21:29:41 MSK)

Ответ на: комментарий от beastie 10.05.10 21:29:41 MSK

> Есть ли слияние с O(1) дополнительной памятью, и более-менее приспособленое для внешней сортировки?

Ваш алгоритм подходит _только_ для списков. Для массивов он не работает.

recon88 ★
(10.05.10 21:37:46 MSK) автор топика

Ответ на: комментарий от recon88 10.05.10 21:37:46 MSK

и работает только благодаря свойствам списков, не более. Алгоритмы слиняния за O(1) дополнительной памяти для массивов сложнее этого алгоритма.

recon88 ★
(10.05.10 21:46:20 MSK) автор топика

Ссылка

Ответ на: комментарий от beastie 10.05.10 21:29:41 MSK

кстати если использовать этот алгоритм для списков, появится как раз O(N) дополнительного места(для указателей).

recon88 ★
(10.05.10 22:03:45 MSK) автор топика

Ответ на: комментарий от recon88 10.05.10 22:03:45 MSK

конечно же я имел ввиду для массивов

recon88 ★
(10.05.10 22:22:36 MSK) автор топика

Ссылка

Ответ на: комментарий от recon88 10.05.10 22:03:45 MSK

ну так переведите массив в список. всё таки дополнительное место под указатели гораздо меньше чем место под данные.

beastie ★★★★★
(11.05.10 00:03:41 MSK)

Ответ на: комментарий от beastie 11.05.10 00:03:41 MSK

пример для 100 милионов - мне выделить дополнительно 100 милионов указателей для слияния? это получается 381 мегабайт в RAM, зачем, если есть эффективные алгоритмы слияния на месте? Да и место под указатели совсем не гораздо меньше чем под данные. Пример - сортировка целочисленных ключей, в которых данные - 4 байта на ключ. Да и масштабироваться такой алгоритм не будет

recon88 ★
(11.05.10 00:57:09 MSK) автор топика

Ответ на: комментарий от beastie 11.05.10 00:03:41 MSK

в общем, заканчиваем спорить - ваш алгоритм для внешней сортировки не годится, тем более что я уже нашел нужные алгоритмы

recon88 ★
(11.05.10 01:06:49 MSK) автор топика

Ссылка

Ответ на: комментарий от beastie 11.05.10 00:03:41 MSK

тем более что вы сами согласились с тем что ваш алгоритм требует O(N) дополнительного места(в виде указателей). А маленькое потребление, или не маленькое не особо волнует.

recon88 ★
(11.05.10 01:08:56 MSK) автор топика