Хитрая выборка

0

0

Есть массив A из N чисел [0; 1.0] (распределние неизвестно)

Нужно выбрать из него K << N чисел так, чтобы их сумма была максимальной (на самом деле не строго, нужно как можно больше), причем массив A можно пройти только один раз - никаких нескольких проходов, сортировок и т.д.

(Чтобы не думали что это задача из ВУЗа - на самом деле нужно из просто из огромного массива данных выбрать K "хороших" элементов, хорошесть определяется функцией, возвращающей float [0; 1.0]).

Ткните в подходящий алгоритм.

У меня из идей только из каждой пачки (N/K) элементов выбирать лучший, но это не идеальное решение и чую должен быть вероятностный алгоритм.

Ссылка

← [gtk2][компиляция][оффтопик]Статическая линковка

с++, long double, непонятное поведение →

← 1 2 →

гугли по кллючевым словам "задача о рюкзаке" ... только с однократным проходом по исходному массиву это как-то врядли получится ...

anonymous
(11.11.08 19:07:28 MSK)

Ссылка

если однократность прохода по исходному массиву так уж критична, и его нельзя скопировать, то надо думать какой-то собственный алгоритм, возможно находящий не самое оптимальное решение, как алгоритм рюкзака, но хотябы какое-то хорошее ... в любом случае рюкзак надо посмотреть, на основе его мож сделать че-то ...

anonymous
(11.11.08 19:10:27 MSK)

решение в лоб -- очередь с приоритетами размером K.

Наверно, ты хотел потребовать не просто одного прохода, а такого прохода, чтобы на каждый элемент сразу в онлайне выдавать ответ -- берем/не берем.

dilmah ★★★★★
(11.11.08 19:11:37 MSK)

Ответ на: комментарий от anonymous 11.11.08 19:10:27 MSK

имхо рюкзак тут ни при чем..

dilmah ★★★★★
(11.11.08 19:12:26 MSK)

Ответ на: комментарий от dilmah 11.11.08 19:12:26 MSK

точно, походу я прогнал ... в рюкзаке ещё стоимость ... признаю, протупил ...

anonymous
(11.11.08 19:13:57 MSK)

Ссылка

Ответ на: комментарий от dilmah 11.11.08 19:11:37 MSK

> Наверно, ты хотел потребовать не просто одного прохода, а такого прохода, чтобы на каждый элемент сразу в онлайне выдавать ответ -- берем/не берем.

Точно. Поэтому очередь не подходит. Задача о рюкзаке тут вообще никаким боком.

anonymous
(11.11.08 19:14:18 MSK)

Ответ на: комментарий от anonymous 11.11.08 19:14:18 MSK

обобщение алгоритма невесты:) которая хочет лучшего жениха выбрать

dilmah ★★★★★
(11.11.08 19:16:31 MSK)

Ответ на: комментарий от anonymous 11.11.08 19:14:18 MSK

> Задача о рюкзаке тут вообще никаким боком.

раз сам такой умный че блин ходишь спрашивать на форумы тада ...

anonymous
(11.11.08 19:16:55 MSK)

Ответ на: комментарий от anonymous 11.11.08 19:16:55 MSK

правильно регистрат говорит, приоритетная очередь (читай массив) длины К, раз К небольшое ... по исходному массиву достаточно пройтись один раз ...

anonymous
(11.11.08 19:18:09 MSK)

Ссылка

Ответ на: комментарий от anonymous 11.11.08 19:16:55 MSK

> раз сам такой умный че блин ходишь спрашивать на форумы тада

На что обижаться-то?

> правильно регистрат говорит, приоритетная очередь (читай массив) длины К, раз К небольшое ... по исходному массиву достаточно пройтись один раз ...

Нет, K << N, но совсем не небольшое. Считаем что ни N ни K элементов не влезут в память.

anonymous
(11.11.08 19:22:25 MSK)

Ответ на: комментарий от anonymous 11.11.08 19:22:25 MSK

> На что обижаться-то?

да потому что блин тут пытаешься помочь буквально как анонимус анонимусу, так не блин, "никаким боком" ... могут же и анонимусы ошибаться ...

> Нет, K << N, но совсем не небольшое. Считаем что ни N ни K элементов не влезут в память.

тогда если функция распределяет вес каждого элемента примерно равномерно, тупо брать каждый N/K-й элемент ...

anonymous
(11.11.08 19:31:28 MSK)

Ответ на: комментарий от anonymous 11.11.08 19:31:28 MSK

а - не ... не каждый N/K-ый ... лучше те у которых функия возвращает знчение больше 1-K/N

anonymous
(11.11.08 19:33:42 MSK)

Ответ на: комментарий от anonymous 11.11.08 19:31:28 MSK

> да потому что блин тут пытаешься помочь буквально как анонимус анонимусу, так не блин, "никаким боком" ... могут же и анонимусы ошибаться ...

Я и сказал что задача о рюкзаке не подходит. Только и всего.

> тогда если функция распределяет вес каждого элемента примерно равномерно

Совсем неравномерно.

> тупо брать каждый N/K-й элемент...

Тупо брать каждый N/K-й элемент - получим K элементов вообще без учета веса.

anonymous
(11.11.08 19:35:46 MSK)

Ссылка

Ответ на: комментарий от anonymous 11.11.08 19:33:42 MSK

> а - не ... не каждый N/K-ый ... лучше те у которых функия возвращает знчение больше 1-K/N

Да, что-то вроде, только распределение как я уже писал неравномерно.

anonymous
(11.11.08 19:36:49 MSK)

Ответ на: комментарий от dilmah 11.11.08 19:16:31 MSK

> обобщение алгоритма невесты:) которая хочет лучшего жениха выбрать

Это что? Где почитать?

anonymous
(11.11.08 19:41:46 MSK)

Ответ на: комментарий от anonymous 11.11.08 19:36:49 MSK

> Да, что-то вроде, только распределение как я уже писал неравномерно.

тогда смотреть функцию надо ... надо найти y такое, что интеграл по функции от y до 1 деленный на интеграл по функции от 0 до 1, равнялось бы K/N ... имхо ...

anonymous
(11.11.08 19:54:50 MSK)

Ответ на: комментарий от anonymous 11.11.08 19:54:50 MSK

брать оответственно элементы больше y

anonymous
(11.11.08 19:57:01 MSK)

Ссылка

Ответ на: комментарий от anonymous 11.11.08 19:41:46 MSK

Я конечно можт ганю сильно, всего лишь учусь, а нельзя делать так (далеко не оптимальный алгоритм конечно) берем 1 элемент массива N кладем, берем второй если он лудше первого кладем, если нет , то не кладем и берем след. Потом берем когда есть 2 элемента уже, то сравниваем следующий элемент с суммой хорошести первых двух деленное на 2. В итоге когда хотим положить k-ый мы берем сумму хорошестей предыдущих k-1 элементов делим на k-1 и получаем типо среднею хорошесть всех элементов и если k больше средней хорошести, то берем. Тем самым на каждом шаге хорошесть суммарная увеличивается. Массив N >> K вполне реально его набить.
Приму критику:)

DDR ★★
(11.11.08 19:59:03 MSK)

Ответ на: комментарий от DDR 11.11.08 19:59:03 MSK

видимо, первые элементы нужно поскипать, накапливая статистику. Сколько первых элементов нужно поскипать это некая функция от K и N.

Оставшиеся элементы выше некой квантили нужно принимать, одновременно подправляя статистику. Как-то так наверно..

dilmah ★★★★★
(11.11.08 20:17:34 MSK)

Ответ на: комментарий от dilmah 11.11.08 20:17:34 MSK

dilmah, кстати да. Можно первый не брать а статистику накапливать, вот только проблема а чо будет если N вдруг кончится все-таки? Брать все последние элемента? И Знаем ли мы это N?

DDR ★★
(11.11.08 20:22:08 MSK)

Ответ на: комментарий от DDR 11.11.08 20:22:08 MSK

Может тогда так:
kol - кол-во элементов.
например первые N\(k*L) пропускаем(как говорил dilmah) и по ним накапливаем некоторых средюю хорошесть пропущенных элементов. где L>1.
Разбить весь массив на N/K подмассивов как предлагал топикфаундер.
Идем и смотрим хорошесть элементов, если она выше средней то тогда берем и пересчитываем среднюю и делаем kol++, если нет то параллельно делаем например пузырек(нам нужен только 1 максимальный элемент) на макс элемент на данном N/Kом куске. Если мы дошли до конца куска N/K и kol=0 то тогда берем максимальный элемент, который мы нашли с помощью пузырька но среднюю хорошесть не пересчитываем (чтобы ее не ухудшать) и kol все также остается равным 0. Типо взяли в экстренном случае, чтобы не получилось так что N кончился,а K не набрали.
Покритикуйте:)

DDR ★★
(11.11.08 20:36:51 MSK)

Ссылка

Ответ на: комментарий от anonymous 11.11.08 19:54:50 MSK

> тогда смотреть функцию надо ... надо найти y такое, что интеграл по функции от y до 1 деленный на интеграл по функции от 0 до 1, равнялось бы K/N... имхо...

Да, какие-то такие мысли летают. Только тут нужно распределение, а оно неизвестно.

> видимо, первые элементы нужно поскипать, накапливая статистику. Сколько первых элементов нужно поскипать это некая функция от K и N.

Так можно накопить эту самую статистику, да, но распределение может сильно меняться в разных частях входного массива, так что не очень хорошо. Алгоритм должен быть пусть не оптимальным, но хорошо адаптирующимся.

> Я конечно можт ганю сильно, всего лишь учусь, а нельзя делать так

Вот это уже очень близко. Такая мысль есть:
- храним средний вес всех взятых элементов = M
- следующий элемент берем, если его вес >= M * ((n/N) / (k/K))

Таким образом, алгоритм старается брать все лучшие и лучшие элементы, но при `недоборе' планка снижается.

anonymous
(11.11.08 20:37:00 MSK)

Ответ на: комментарий от anonymous 11.11.08 20:37:00 MSK

Ну если мы не знаем ф-цию распределения элементов и не можем ее посчитать (1 раз по массиву идем), то можт стоит забить на нее и считать что примерно на всей протяженности массива она примерно одинаковая.

DDR ★★
(11.11.08 20:39:14 MSK)

Ответ на: комментарий от DDR 11.11.08 20:39:14 MSK

*kol в первый момент времени =0 и увеличивается только в том случае если взяли элемент при увеличенной хорошести. Уменьшается он только в том случае если мы перешли границу N/K подмассива и если kol был >0.

DDR ★★
(11.11.08 20:40:45 MSK)

Ответ на: комментарий от DDR 11.11.08 20:40:45 MSK

*kol уменьшается при переходе границы на 1, т.е. kol--.
И еще при пересчете средней хорошесть брать макс из текущей хорошести и новой пересчитаной, потомучто мы можем набрать неочень хороших элементов (по 1 с N/K подмассива), которые нам могут портить хорошесть, а так она у нас будет либо прежняя, либо расти.
Это я думаю работать будет плохо, если все таки самые хорошие из хороших элементов находятся в конце массива N.

DDR ★★
(11.11.08 20:48:17 MSK)

Ссылка

Ответ на: комментарий от anonymous 11.11.08 20:37:00 MSK

> а оно неизвестно.

ну так блин, если ниче неизвестно, то ниче и не получится ...

anonymous
(11.11.08 20:59:52 MSK)

Ответ на: комментарий от anonymous 11.11.08 20:37:00 MSK

> ну так блин, если ниче неизвестно, то ниче и не получится

Все, успокойся. Несешь чушь, а потом еще и обижаешься.

> - храним средний вес всех взятых элементов = M > - следующий элемент берем, если его вес >= M * ((n/N) / (k/K))

Провел эксперименты, этот алгоритм работает замечательно, на нем и остановлюсь.

Всем спасибо за идеи.

anonymous
(11.11.08 21:26:01 MSK)

Ответ на: комментарий от DDR 11.11.08 20:39:14 MSK

> Ну если мы не знаем ф-цию распределения элементов и не можем ее посчитать (1 раз по массиву идем), то можт стоит забить на нее и считать что примерно на всей протяженности массива она примерно одинаковая.

Нет, ибо она не одинаковая.

anonymous
(11.11.08 21:27:25 MSK)

Ссылка

Ответ на: комментарий от anonymous 11.11.08 20:59:52 MSK

Кстати если захочешь использовать то что я написал, можно немного оптимизировать, например использовать сортировку только для тех подмассивов , если на входе его kol=0, иначе можно не сортировать, ибо мы мы либо возьмем хороший элемент, либо у нас есть запас и мы уже набрали хороших элементов с предыдущих подмассивов.

DDR ★★
(11.11.08 21:30:38 MSK)

Ссылка

Ответ на: комментарий от anonymous 11.11.08 21:26:01 MSK

> Все, успокойся. Несешь чушь, а потом еще и обижаешься.

валерьяночки уже выпил, полегчало ... никакой возможности тут с вами без аптеки общаться ...

anonymous
(11.11.08 21:31:09 MSK)

Ссылка

ну если просто сумма, то почему не взять просто K самых больших чисел из исходного массива?

alex4
(12.11.08 00:39:47 MSK)

Ответ на: комментарий от alex4 12.11.08 00:39:47 MSK

> ну если просто сумма, то почему не взять просто K самых больших чисел из исходного массива?

именно это и пытаются сделать:)

Но сделать это нужно за один проход, и по каждому элементу сразу принимать решение -- взять его или выкинуть.

dilmah ★★★★★
(12.11.08 00:51:44 MSK)

Ответ на: комментарий от dilmah 12.11.08 00:51:44 MSK

что за бред. ну и в чем тогда проблема? выбрать контейнер для 
хранения K чисел? да хоть обычный массив. этот код можно написать за 
20 минут!
охрененно хитрая выборка.

alex4
(12.11.08 00:54:09 MSK)

Ответ на: комментарий от alex4 12.11.08 00:54:09 MSK

> что за бред. ну и в чем тогда проблема? выбрать контейнер для хранения K чисел? да хоть обычный массив. этот код можно написать за 20 минут!

ты чего то не понял. Идет поток чисел. Тебе нужно на каждый элемент тут же отреагировать -- берешь его или выкидываешь. Если возьмешь, то есть риск что дальше будут лучшие элементы. Если выкинешь, то есть риск то дальше будут худшие элементы. Нужна стратегия выбора которая будет хорошо работать.

dilmah ★★★★★
(12.11.08 01:03:25 MSK)

Ответ на: комментарий от dilmah 12.11.08 01:03:25 MSK

смотрим есть ли в массиве меньшее число - если есть то заменяем.
ну сохраняя массив отсортированным.

alex4
(12.11.08 01:06:48 MSK)

Ответ на: комментарий от alex4 12.11.08 01:06:48 MSK

> смотрим есть ли в массиве меньшее число - если есть то заменяем.

ответ по каждому элементу (берем или выбрасываем) надо сразу дать, нельзя смотреть вперед.

Если можно заглядывать вперед, то это совсем другое дело -- упоминавшейся очередью с приоритетами делается.

dilmah ★★★★★
(12.11.08 01:19:43 MSK)

Ответ на: комментарий от dilmah 12.11.08 01:19:43 MSK

>ответ по каждому элементу (берем или выбрасываем) надо сразу дать, нельзя смотреть вперед.

И это при том что о потоке заранее ничего неизвестно так как проход возможен всего один ? Это надо было сразу на форум волшебников вопрос :)

koTuk ☆
(12.11.08 01:48:46 MSK)

Ответ на: комментарий от koTuk 12.11.08 01:48:46 MSK

Имхо чтобы использовать вероятностный алгоритм надо хотя бы математическое ожидание максимальной величины оценить.

koTuk ☆
(12.11.08 02:02:02 MSK)

Ссылка

Ответ на: комментарий от dilmah 12.11.08 01:19:43 MSK

а зачем заглядывать вперед? сначала выбираем первые K чисел из последовательности, потом в зависимости от вновь прочитанного числа - либо заменяем одно из этих K чисел на него, либо нет. результат - K максималных чисел в последовательности

alex4
(12.11.08 02:10:47 MSK)

Ответ на: комментарий от alex4 12.11.08 02:10:47 MSK

Это конечно очень логично но если размер исходного массива данных N и размер выборки K очень велики то вычисление по твоему алгоритму рискует затянуться во времени :)

koTuk ☆
(12.11.08 02:20:20 MSK)

> Ткните в подходящий алгоритм.

google quickselect -- дальше ясно будет, если не ошибаюсь.

Die-Hard ★★★★★
(12.11.08 02:32:58 MSK)

Ответ на: комментарий от koTuk 12.11.08 02:20:20 MSK

K по условию не велик. если N очень большой, то можно брать числа из 
него случайно некотрое количество чисел (по усл, нам нужна не точная 
выборка, кроме того любой алгоритм просматривающий весь массив будет 
иметь сложность не меньше O(N)). сложность того что я предложил O(N*K)
разумеется если применить другой контейнер - можно уменьшить 
сложность.

alex4
(12.11.08 02:55:03 MSK)

Ответ на: комментарий от Die-Hard 12.11.08 02:32:58 MSK

2 Die-Hard
зачем здесь это?

alex4
(12.11.08 03:02:30 MSK)

> Чтобы не думали что это задача из ВУЗа

Не надо только гнать тут, да. Таких граничных условий на практике не бывает.

anonymous
(12.11.08 03:14:21 MSK)

Ссылка

Ответ на: комментарий от anonymous 11.11.08 19:22:25 MSK

> Нет, K << N, но совсем не небольшое. Считаем что ни N ни K элементов не влезут в память.

Тогда предварительно сортируй всё.

anonymous
(12.11.08 03:15:23 MSK)

Ответ на: комментарий от anonymous 12.11.08 03:15:23 MSK

Или считай среднее арифметическое. С отбрасыванием меньшей половины после каждого прохода, пока N не станет меньше 2K.

В любом случае без данных о структуре массива (тупо последовательно цифры) других алгоритмов не будет.

Все алгоритмы на больших объёмах требуют индексирования.

anonymous
(12.11.08 03:19:59 MSK)

Ссылка

Ответ на: комментарий от anonymous 12.11.08 03:15:23 MSK

> Нет, K << N, но совсем не небольшое. Считаем что ни N ни K элементов не влезут в память.

вот это я не читал. но поскольку K всеравно придется гдето хранить и
K сразу сортируется, ничего менять не надо

alex4
(12.11.08 03:21:39 MSK)

Ссылка

Ответ на: комментарий от alex4 12.11.08 02:55:03 MSK

> можно брать числа из него случайно

И выйдет быдлокод. Лучше пусть медленнее, но зато эту медлительность можно будет оправдать, чем быстро делать всякую х..ню.

// не ОП

anonymous
(12.11.08 03:22:07 MSK)

Ответ на: комментарий от anonymous 12.11.08 03:22:07 MSK

>чтобы их сумма была максимальной (на самом деле не строго, нужно как можно больше)

быдло код не выйдет

alex4
(12.11.08 03:27:19 MSK)

Ссылка

Ответ на: комментарий от alex4 12.11.08 02:10:47 MSK

> результат - K максимальных чисел в последовательности

> сначала выбираем первые K чисел из последовательности, потом в зависимости от вновь прочитанного числа - либо заменяем одно из этих K чисел на него

минимальное из K заменяем на максимальное из {считанного и имеющегося}

anonymous
(12.11.08 12:10:03 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

← [gtk2][компиляция][оффтопик]Статическая линковка

Development

с++, long double, непонятное поведение →

Похожие темы