LINUX.ORG.RU

[матстат]Алгоритм расчета интервалов для выборки


0

1

Собственно какие алгоритмы есть для сабжевой задачи? Листал учебник получается такой:
1) Рассчитать размах данных(R=Xmax-Xmin)
2) Рассчитать длину интервала h=R/(log2(n)+1) n-объем выборки
3) Округлить в большую сторону h
4) x_нач=Xmin-h/2
Дальше этими интервалами заменяем реальную выборку и считаем ее свойства. Вот интересует вопрос есть ли какие то алгоритмы для этого иные: быстрее, точнее ?

★★★★★

В каком смысле быстрее? Определение числа корзин и начального значения - это два коротеньких вычисления при заданном (произвольном) правиле. Что тут можно сделать быстрее?

Что касается «точнее», то вместо гистограмм может быть предпочтительнее использовать непараметрические методы построения плотностей распределения.

visitor
()

Есть. Все зависит от того, какую задачу требуется решить в итоге. Т.е. «считаем ее (выборки) свойства» - что под этим подразумевается?

gzh
()
Ответ на: комментарий от pylin

Гистограмма для этого не нужна.

Для оценки просто используйте выборочные аналоги.

visitor
()
Ответ на: комментарий от pylin

Среднее выборочное - это и есть среднее выборочное. Берите выборку и считайте по ней среднее, ничего придумывать не нужно.

Если же в действительности нужны оценки истинных значений моментов распределения, то, как выше предлагает visitor, истинные значения моментов можно оценить все теми же выборочными значениями моментов, и такая оценка будет в определенном смысле хорошей («состоятельной»), хотя и не обязательно оптимальной (могут существовать оценки точнее). Иными словами, если вам нужно алгоритм попроще, и выборка большая, - можно взять метод моментов (это он и есть). Выборку не нужно даже сортировать, все считается за один проход.

Если вы знаете что-нибудь о том, к какому классу относится распределение вашей случайной величины, какие предположения можно сделать об этом распределении, - можно повозиться с параметрическими методами.

Если в отношении природы случайной величины ничего неизвестно - ну да, можно считать значения интересующих вас функционалов на выборочной функции распределения вместо их значений на (неизвестном) настоящем распределении; такие оценки тоже будут как-то там асимптотически сходиться к истинному значению при увеличении размера выборки, но не факт что скорость сходимости будет выше чем у оценок, полученных методом моментов. (Для непрерывных распределений, правда, эту скорость можно оценить).

gzh
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.