Приблизительный статистический анализ большого объема данных

0

1

Предположим, у нас есть много статистических данных. Например, время отклика нагруженного сервиса для множества запросов. Мы хотим их как-то обработать: посчитать перцентили, понять, есть ли выбросы и т.д. То есть просто матожидания и дисперсии недостаточно.

При этом:

Данные не влезают в память (и, к примеру, хадуп тоже не из чего построить)
Данные легко могут иметь разброс на порядки

У меня нарисовался велосипед, который выдает правдоподобные квантили, не имея всех данных в памяти. При этом, однако, теряется точность. Грубо говоря, в результатах будет фиксированная (заранее заданная) относительная погрешность.

Но при анализе производительности это как будто и не страшно. В крайнем случае, можно прогнать ещё раз данные, вырезать интересный интервал и получить для него более детальную картину.

Возникает вопрос - а есть ли подобные (вероятно, лучшие) решения вообще-то? Гугл по «statistical approximate algorithm large data» выдает море информации, по понять что из этого то, а что нет, я не смог.

Поиск осложняется тем, что матстатистику я не знаю, что знал всё забыл.

Ссылка

←	это ад (помогите разобрать)

как лучше всего добавить per-process переменную?

→

Разбиваешь на подвыборки, читаешь про критерий Стьюдента и прочую взаимосвязь между статистическими величинами большой выборки и ее произвольных подвыборок,

~~Eddy_Em~~ ☆☆☆☆☆
(24.10.12 18:11:57 MSK)

Ссылка

Данные не влезают в память

mmap отменили? Или они не влезают и в 2^64 байт?

buddhist ★★★★★
(24.10.12 18:13:55 MSK)

Строите ф-ю распределения от времени отклика и каких-то-ма-еще-интересных-Вам-параметров

СТроится за один проход, т.е. заводите сетку (равномерную, прямоугольную, нужной размерности), забиваете ее нулями, а потом начинаете накидывать по единичке для каждого отсчета в соотв ячейку.

~~AIv~~ ★★★★★
(24.10.12 18:14:21 MSK)

Ответ на: комментарий от AIv 24.10.12 18:14:21 MSK

Строится за один проход, т.е. заводите сетку (равномерную, прямоугольную, нужной размерности), забиваете ее нулями, а потом начинаете накидывать по единичке для каждого отсчета в соотв ячейку.

Я примерно это и сделал, только ещё прологарифмировал (откуда и «фиксированная относительная погрешность»). Про статистику бы ещё почитать что-нибудь толковое...

lodin ★★★★
(24.10.12 18:28:27 MSK) автор топика

Ответ на: комментарий от lodin 24.10.12 18:28:27 MSK

Ну и нормально. Дальше от задачи надо идти, но ф.р. это как бы наиболее исчерпывающее представление, дальше смотрите на нее и анализируете что откуда берется.

~~AIv~~ ★★★★★
(24.10.12 18:42:55 MSK)

Ссылка

Ответ на: комментарий от buddhist 24.10.12 18:13:55 MSK

mmap отменили? Или они не влезают и в 2^64 байт?

Все равно, чтобы посчитать что-то интересное, придется по этим данным интенсивно ползать. Жалко диск!

А хочется один раз прочитать данные и построить относительно маленький агрегат, который уже тягать и анализировать.

lodin ★★★★
(24.10.12 18:50:39 MSK) автор топика

Ссылка

время отклика нагруженного сервиса...

В простейшем случае это пуассоновский процесс. Распределение времен будет экспоненциальным. Если нужно смотреть что-то более сложное, то можно глянуть

http://en.wikipedia.org/wiki/Queueing_theory

и для эстетов по ссылкам

http://en.wikipedia.org/wiki/Queueing_model

anonymous
(24.10.12 18:51:00 MSK)

Ответ на: комментарий от anonymous 24.10.12 18:51:00 MSK

PS: критерий стьюдента тут нахер не упал.

anonymous
(24.10.12 18:59:43 MSK)

Ссылка

Ответ на: комментарий от anonymous 24.10.12 18:51:00 MSK

В простейшем случае это пуассоновский процесс. Распределение времен будет экспоненциальным. Если нужно смотреть что-то более сложное, то можно глянуть