Сортирующий итератор

1

4

Кто знает как сделать ленивый итератор по существующему массиву, который не меняя сам массив и используя минимальное количество памяти будет выдавать элементы в отсортированом порядке? Под минимальным можно считать «не порядка размера самого массива». Или на крайняк не в худшем случае

Мне абсолютно не приходит ничего в голову кроме полной пересортировки или совсем всяких дурацких алгоритмов. Может таки нельзя так?

Производительность желательно чтобы хоть и не обязательно n log n, но не совсем ужасная, главное памяти поменьше. Let the battle begin

Ссылка

← Диапазон 0xA000.0000 – BFFF.FFFF и кэш инструкций

Переложить CURL скрипт на Python. Facebook graph api. →

← 1 2 3 →

На правах /dev/random, использовать быструю сортировку, но держать только самый край. По необходимости досортировывая.

anonymous
(23.10.13 18:58:05 MSK)

Ответ на: комментарий от anonymous 23.10.13 18:58:05 MSK

Ну так не понятно, я собрал 10 элементов, они разбросаны хрен знает где. Я или храню все 10 или просто не знаю видел я элемент уже или нет.

Ну или третий вариант - магия о которой стоит узнать в этом треде. Уже приходят в голову всякие фильтры Блума и битовые вектора

~~vertexua~~ ★★★★★
(23.10.13 18:59:55 MSK) автор топика
Последнее исправление: vertexua 23.10.13 19:00:09 MSK (всего исправлений: 1)

Ответ на: комментарий от vertexua 23.10.13 18:59:55 MSK

Да, с использованием памяти будет не ок. Но я бы вечером или завтра попробовал бы на perl. Но мне кажется, что можно выкрутится через рекурсивное определение.

anonymous
(23.10.13 19:07:02 MSK)

Ответ на: комментарий от anonymous 23.10.13 19:07:02 MSK

Ну и память занимаемую рекурсией тоже не забыть померять, читы нам не нужны

~~vertexua~~ ★★★★★
(23.10.13 19:17:11 MSK) автор топика

Ответ на: комментарий от vertexua 23.10.13 19:17:11 MSK

Корошо.

anonymous
(23.10.13 19:27:38 MSK)

Ответ на: комментарий от anonymous 23.10.13 19:27:38 MSK

Что-то мне кажется что фундаментально тут не выкрутиться, эвристики, читы и подобное.

~~vertexua~~ ★★★★★
(23.10.13 19:32:26 MSK) автор топика

йопт, сделай новый массив и отсортируй.

anonymous
(23.10.13 19:35:04 MSK)

Ответ на: комментарий от anonymous 23.10.13 19:35:04 MSK

Спасибо за совет, так каждый лох может.

~~vertexua~~ ★★★★★
(23.10.13 19:36:28 MSK) автор топика

Ответ на: комментарий от vertexua 23.10.13 19:32:26 MSK

не реально, особенно для произвольных данных.

qnikst ★★★★★
(23.10.13 19:36:36 MSK)

Ссылка

Ответ на: комментарий от vertexua 23.10.13 19:32:26 MSK

Угу. Но по дороге к max/min можно же попробовать выстроить часть цепочки. Но худший случай будет давать по рукам.

anonymous
(23.10.13 19:38:51 MSK)

Ссылка

Ответ на: комментарий от vertexua 23.10.13 19:36:28 MSK

Хотя, ты же жабокодер... Ладно, вот тебе рецепт: делаешь поток ввода-вывода и N тредов, по количеству элементов массива. Каждый тред ждёт M секунд, где M - значение элемента массива, соответствующее данному треду, после чего выплёвывает это самое M в поток. А собственно сам итератор возвращает значения из потока.

http://rosettacode.org/wiki/Sorting_algorithms/Sleep_sort#Java

вот тебе даже примерная реализация.

anonymous
(23.10.13 19:43:06 MSK)

Ответ на: комментарий от vertexua 23.10.13 18:59:55 MSK

Ну так не понятно, я собрал 10 элементов, они разбросаны хрен знает где. Я или храню все 10

Зачем? Чем тебя хранение только одного крайнего не устраивает?

Suntechnic ★★★★★
(23.10.13 19:46:35 MSK)

Ответ на: комментарий от anonymous 23.10.13 19:43:06 MSK

делаешь поток ввода-вывода и N тредов, по количеству элементов массива. Каждый тред ждёт M секунд, где M - значение элемента массива, соответствующее данному треду, после чего выплёвывает это самое M в поток

Где-то я уже такое видел... Причем реализацию. Зачем издеваешься над ТС?

Suntechnic ★★★★★
(23.10.13 19:48:50 MSK)

Ответ на: комментарий от Suntechnic 23.10.13 19:48:50 MSK

Зачем издеваешься над ТС?

Чтобы чувака, который потом будет поддерживать этот код, не посадили за убийство ТС.

anonymous
(23.10.13 19:50:16 MSK)

Ссылка

n^2 это ужасная?

~~xeiph~~
(23.10.13 19:55:56 MSK)

Ответ на: комментарий от Suntechnic 23.10.13 19:46:35 MSK

Вся задача - спортивный интерес, в голову взбрело. На работе только годные и эффективные штуки

~~vertexua~~ ★★★★★
(23.10.13 19:58:05 MSK) автор топика

Ссылка

Ответ на: комментарий от xeiph 23.10.13 19:55:56 MSK

По памяти? Да. По времени? Нет, я пытаюсь только на минимуме памяти выехать

~~vertexua~~ ★★★★★
(23.10.13 19:58:36 MSK) автор топика

Ответ на: комментарий от vertexua 23.10.13 19:58:36 MSK

Ну так делай, как говорит анонимус, хотя это не пузырьковая сортировка, а скорее модифицированная выбором. Хранишь последний элемент и его позицию, каждый раз бежишь от начала массива, ну ты понел.

~~xeiph~~
(23.10.13 20:01:42 MSK)

Ответ на: комментарий от xeiph 23.10.13 20:01:42 MSK

Думаю можно, только еще нужно запомнить последнюю позицию при дубликатах.

~~vertexua~~ ★★★★★
(23.10.13 20:02:58 MSK) автор топика

Ответ на: комментарий от vertexua 23.10.13 20:02:58 MSK

Можно ещё буфер сделать некоторой длины, должно в среднем соптимизировать.

~~xeiph~~
(23.10.13 20:06:23 MSK)

Ответ на: комментарий от xeiph 23.10.13 20:06:23 MSK

А как кокретно вы предлагает буфер использовать?

~~vertexua~~ ★★★★★
(23.10.13 20:10:04 MSK) автор топика

Ответ на: комментарий от vertexua 23.10.13 20:10:04 MSK

Если в массиве есть отсортированная подпоследовательность, то можно выловить её за один проход. Естественно, если он, например, отсортирован наоборот, то никакой оптимизации не будет.

~~xeiph~~
(23.10.13 20:12:06 MSK)

Ответ на: комментарий от vertexua 23.10.13 20:10:04 MSK

Хотя у упорот. Можно вообще с начала не ходить и всё норм будет.

~~xeiph~~
(23.10.13 20:14:12 MSK)

Ответ на: комментарий от xeiph 23.10.13 20:12:06 MSK

Я думаю если уже есть буфер, то что-то можно похитрее запилить. Да хоть даже подумать о heap sort кусочка.

~~vertexua~~ ★★★★★
(23.10.13 20:14:54 MSK) автор топика

Ссылка

Ответ на: комментарий от vertexua 23.10.13 19:58:36 MSK

Ну по минимуму памяти тебе уже предложили, назвав почему-то это «пузырьком», самый примитивный метод - держать последний выданный и сравнивать весь массив с ним. Выйдет по проходу на каждый элемент зато памяти действительно минимум. Думаю кстати что можно доказать что это так.

Suntechnic ★★★★★
(23.10.13 20:15:18 MSK)

Ответ на: комментарий от xeiph 23.10.13 20:14:12 MSK

Но квадрат всё равно, тут ничего не поделаешь.

~~xeiph~~
(23.10.13 20:15:38 MSK)

Ответ на: комментарий от Suntechnic 23.10.13 20:15:18 MSK

Да, все так, плюс позицию для того чтобы дубликаты не пропускать. Вот дальше думаем как ускорять )

~~vertexua~~ ★★★★★
(23.10.13 20:17:18 MSK) автор топика

Ответ на: комментарий от xeiph 23.10.13 20:15:38 MSK

Квадрат квадрату рознь.

~~vertexua~~ ★★★★★
(23.10.13 20:17:35 MSK) автор топика

Ссылка

Ответ на: комментарий от vertexua 23.10.13 20:02:58 MSK

Если у тебя там дубли... То даже в этом случае не нужно ничего запоминать. Вообще тебе достаточно помнить только последний элемент!

Suntechnic ★★★★★
(23.10.13 20:18:09 MSK)

Ссылка

Ответ на: комментарий от vertexua 23.10.13 20:17:18 MSK

Не надо! Выбрасывай все дубликаты подряд сразу - и позицию хранить не надо и устойчивость на халяву получаешь.

Suntechnic ★★★★★
(23.10.13 20:19:49 MSK)

Ответ на: комментарий от vertexua 23.10.13 20:17:18 MSK

В буфер суй начало и конец уже выбрашенного куска если такой имеется чтобы не проходить его повторно.

Suntechnic ★★★★★
(23.10.13 20:21:01 MSK)

Ссылка

Ответ на: комментарий от vertexua 23.10.13 20:17:18 MSK

Позицию хранить не только для этого полезно, можно ходить от этой позиции по кругу, если данные распределены случайно, то это должно быть немного быстрее (а если уже отсортированы, то совсем быстро).

Можно ещё предположить такой вариант. Если данные хоть немного близки к равномерному распределению, то находим число минимум + (максимум - минимум) / (размер_массива / размер_буфера), забираем те элементы, что меньше этого числа (но не больше размера буфера) в буфер, сортируем.

~~xeiph~~
(23.10.13 20:22:13 MSK)

Ответ на: комментарий от xeiph 23.10.13 20:22:13 MSK

Забираем не больше размера буфера, а не элементы меньше размера буфера, естественно.

~~xeiph~~
(23.10.13 20:23:47 MSK)

Ссылка

Ответ на: комментарий от vertexua 23.10.13 20:17:18 MSK

сужать границы по ходу проходов

anonymous
(23.10.13 20:24:16 MSK)

Ответ на: комментарий от Suntechnic 23.10.13 20:19:49 MSK

Не понял как, может туплю. Я дошел до элемента 50 равного 28. Я бы не хотел идти дальше, та как может быть это последний вызов итератора, но я запомню позицию 50 и начну искаьб следующий 28 начиная с него. Параллельно могу найти следующий элемент. Но если у меня дубликат не найден, а найдено значение больше 28, то прийдется проверить еще начало.

Тут в зависимости от допущений о характеристиках чисел можно делать по разному

~~vertexua~~ ★★★★★
(23.10.13 20:26:14 MSK) автор топика

Ответ на: комментарий от xeiph 23.10.13 20:22:13 MSK

можно ходить от этой позиции по кругу

Ты уже опередил, но будет помогать только на дубликатах, иначе вроде та же средняя производительность.

Зато как красиво сработает большой массив из одинаковых элементов.

~~vertexua~~ ★★★★★
(23.10.13 20:27:28 MSK) автор топика

Ответ на: комментарий от anonymous 23.10.13 20:24:16 MSK

Ну это тоже имеет свой worst case

~~vertexua~~ ★★★★★
(23.10.13 20:27:58 MSK) автор топика

Ссылка

ТС, а расскажи, почему нельзя менять сам массив?

qnikst ★★★★★
(23.10.13 20:28:35 MSK)

Ответ на: комментарий от qnikst 23.10.13 20:28:35 MSK

Спорт интерес.

~~vertexua~~ ★★★★★
(23.10.13 20:30:23 MSK) автор топика

Ответ на: комментарий от vertexua 23.10.13 20:27:28 MSK

но будет помогать только на дубликатах, иначе вроде та же средняя производительность.

Да, я затупил.

~~xeiph~~
(23.10.13 20:34:08 MSK)

Ссылка

Ответ на: комментарий от xeiph 23.10.13 20:22:13 MSK

По поводу распределения, можно ещё его оценить, то есть держать ещё массив на (размер_массива / размер_буфера) + 1 чисел, у которого в первом элементе минимум, в последнем максимум, а остальные каким-либо образом подобрать так, чтобы они делили исходный массив на равные части. Это может быть долго, но на сложность не повлияет, потому что делается один раз.

Это если в массиве числа, конечно...

~~xeiph~~
(23.10.13 20:37:54 MSK)

Ответ на: комментарий от xeiph 23.10.13 20:37:54 MSK

Учитывая что пишем итератор, то долгие операции вначале лучше попытаться избегать. Вдруг кто-то 3 элемента возьмет и все

~~vertexua~~ ★★★★★
(23.10.13 20:39:18 MSK) автор топика

Ссылка

Кстати вот вполне реальный пример использования сабжа: есть неотсортированый массив, занимающий почти всю память, порядок важен именно такой какой там есть. Иногда нужно сделать сортированый дамп по каким-то причинам. Так что сабж не совсем ненужен.

Альтернатива - external sort

~~vertexua~~ ★★★★★
(23.10.13 20:52:09 MSK) автор топика
Последнее исправление: vertexua 23.10.13 20:52:42 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от vertexua 23.10.13 20:30:23 MSK

Может быть, есть такой хитро-вывернутый View в Scalа? Не смотрел в тамошней библиотеке коллекций?

~~dave~~ ★★★★★
(23.10.13 20:54:10 MSK)

Ответ на: комментарий от dave 23.10.13 20:54:10 MSK

Не смотрел, но я думал приблизительно такими же категориями, но чтобы не понтоваться всякими View назвал это итератором. Охватывает терминологию большего количества ЯП

Думаю в Scala рубят с плеча, а в построении такого View так и нужно в большинстве случаев. Так как сабж в такой формулировке быстро работать не будет, следовательно такое пихать в дефолт грешно

~~vertexua~~ ★★★★★
(23.10.13 20:55:00 MSK) автор топика
Последнее исправление: vertexua 23.10.13 20:56:45 MSK (всего исправлений: 3)

Ссылка

Ответ на: комментарий от vertexua 23.10.13 18:59:55 MSK

Я или храню все 10 или просто не знаю видел я элемент уже или нет.

Если элемент меньше текущего - видел, больше текущего - не видел;-)

Проход за O(N^2) пишется тупо в лоб. Дальше начинаются изыски... а размер элемента какой вообще говоря, и сколько элементов в массиве?

~~AIv~~ ★★★★★
(23.10.13 22:22:54 MSK)

Ссылка

Сортировка массива указателей на элементы исходного массива. По памяти N * sizeof_ptr. Т.е. ~4-8 Мб для миллиона элементов.

nerdogeek ★
(23.10.13 22:28:39 MSK)

Ответ на: комментарий от vertexua 23.10.13 20:26:14 MSK

Я бы не хотел идти дальше

но я запомню позицию 50 и начну искаьб следующий 28 начиная с него

Тебе не кажется что что-то тут не так? Тебе все равно придется пройти до конца весь массив. Но ты предлагаешь сначала запомнить позицию где остановились, покурить, а потом продолжить заново. Ну же.

Suntechnic ★★★★★
(23.10.13 22:49:03 MSK)

Ответ на: комментарий от Suntechnic 23.10.13 22:49:03 MSK

Чем больше дубликатов, тем больше ускорение если ходить по кругу. Подумай что будет с массивом из полностью одинаковых элементов

~~vertexua~~ ★★★★★
(23.10.13 23:28:28 MSK) автор топика

Ответ на: комментарий от nerdogeek 23.10.13 22:28:39 MSK

Если intы, то равносильно созданию нового массива

~~vertexua~~ ★★★★★
(23.10.13 23:28:53 MSK) автор топика

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 →

← Диапазон 0xA000.0000 – BFFF.FFFF и кэш инструкций

Development

Переложить CURL скрипт на Python. Facebook graph api. →

Похожие темы