LINUX.ORG.RU

Методичка по системе статистич. анализа R


0

0

По результатам изучения системы R написал методичку на русском --- больше таких материалов в рунете не встречал, всё только на английском.

Методичка содержит в сжатой форме сведения:

- представление данных в виде векторов и массивов;

- операции над данными в этих видах;

- графический вывод;

- общие возможности встроенного языка;

- распределения случайных величин в системе, методы их использования и визуализации.

Методичка используется в качестве методического пособия для выполнения лабораторных работ по дисциплине "Методы анализа данных" на кафедре информатики Красноярского Государственного Технического Университета.

Рекомендую для начального знакомства с системой, "быстрого старта".

PS: Товарищи модераторы, надеюсь, в этот раз останется в новостях, т.к. в Talks тема слишком быстро ушла вниз.

PPS: Спасибо тем, кто уже посмотрел и высказал замечания. Те, кто ещё не высказал, могут писать в комментариях или на мыло ay49mihas(AT)inbox(DOT)ru

>>> Подробности

★★★★

Проверено: Shaman007 ()

Ответ на: комментарий от Evgueni

>Жаль я не пока могу придумать задачи где бы это чудо применть для своих целей :) Буду думать.

В одном из тредов ugoday предлагал R как замену VisualBasic'у в офисных приложениях :)

Ay49Mihas ★★★★
() автор топика
Ответ на: комментарий от ugoday

>Вполне достаточна для первичного ознакомления и заинтересовывания людей. А дальше уже пускай на буржуйском читают.

Надо сказать, что на буржуйском читается очень легко, у меня были проблемы только с именованиями величин типа standard deviation.

Ay49Mihas ★★★★
() автор топика
Ответ на: комментарий от anonymous

>Что правильнее всго использовать для этой задачи ? Корреляционные функции с другими неделями или что-то еще ?

Построить доверительные интервалы "правильного траффика" и проверять гипотезу о попадании в них :)

Ay49Mihas ★★★★
() автор топика
Ответ на: комментарий от lefsha

>Хотя думаю что более прогрессивно было бы использовать питоновский интерфейс

Цель-минимум для написания этой методички --- показать студентам, что есть качественно иное средство (и главное --- свободное) чем Statistica (бывш. аспирант моего научника, ныне к.т.н. проводит семинары по анализу данных в Statistic'е) и похожие вещи. А если почувствуют вкус --- сами найдут и питоновские биндинги, и сам питон изучат... Дело в том, что у нас быдлоинститут и быдлофакультет.

Ay49Mihas ★★★★
() автор топика
Ответ на: комментарий от neksa

>Очень жаль, что обрывается на самом интересном месте, на лабораторных.

Лабораторные требуют больше свободного времени, а с этим пока проблема.

>мне кажется, или этот пример действительно некорректен:

> seq(1, 3, seq=3) [1] 1 1.5 3

Ага, опечатка --- seq(1, 3, len=3)

>также, хотелось бы верить в существование объяснений такому поведению:<...>

А что не так? Индексация элементов вектора начинается с 1. Отрицательная индексация, по-видимому, даёт вектор без первых n элементов (4 - уже много, всего 3 элемента), но почему NA --- действительно непонятно.

Ay49Mihas ★★★★
() автор топика

Большое спасибо за комментарии! Когда метода будет готова, выложу всю. Также потихоньку доходит перевод первой части руководства по latex-beamer.

Ay49Mihas ★★★★
() автор топика

Меня вот давно мучил вопрос. Когда вырастет поколение преподавателей, которое начнёт насаждать свободный программный инструментарий. Похоже это время на подходе :)

Ещё раз успехов. Хотя они случатся скорее всего через поколение :(

Evgueni ★★★★★
()
Ответ на: комментарий от neksa

>> кто-то может высказаться о GUI для R? о JGR?

Самое правильное GUI для R - это ESS, R-мода для emacs. А Джавы эти все - это от лукавого. Если хочется доступа к командам R через меню - то есть pmg - poor man gui. Построение пользовательских интерфейсов в R тоже не проблема - помимо tk, который входит в обязательные пакеты R, недавно осилили биндинги под GTK2 (которые использует pmg) + биндинги под Gtk1.2

geekkoo
()
Ответ на: комментарий от neksa

x[0] = x[c(FALSE,FALSE,FALSE)] - пустое множество
x[4] - чтение элемента за пределами массива
x[-4] - удаление элемента за пределами массива
Т.е. все три случая различаются между собой, поэтому и разный ответ во всех трех случаях.

geekkoo
()
Ответ на: комментарий от Ay49Mihas

Как человек, хорошо знакомый с Matlab, Scilab, Octave и R, могу сказать, что R намного менее удобен чем остальные. Посмотрите документацию Сравнение синтаксиса Matlab, Octave и R. Вы увидите огромное количество комментариев етого в R нет, но легко написать функцию. И это при том, что у R куча библиотек от сторонних производителей. Scilab наголову выше. По поводу Statistica. Есть два профессиональных математических пакета: mathematica и matlab. все :)

anonymous
()
Ответ на: комментарий от anonymous

>Вы увидите огромное количество комментариев етого в R нет, но легко написать функцию. И это при том, что у R куча библиотек от сторонних производителей. Scilab наголову выше.

По возможностям языка, возможно, да. По возможностям в плане математической статистики --- нет, нет и нет. Посмотрел на сайте документацию по библиотекам статистики и функций распределения. Ничего нужного мне нет (а мне нужна параметрическая регрессия (непараметрическую сам пишу и заодно варьирую подходы), стохастическая оптимизация, квантили распределений...).

К тому же, с каких пор разнообразие ПО стало плохой чертой некоторого направления науки?

Ay49Mihas ★★★★
() автор топика
Ответ на: комментарий от anonymous

Вдогонку --- не читали раздел "Как внедрить Scilab графику в документ Latex?" Почитайте, очень интересно. Хотя, надеюсь, что документация безнадёжно устарела.

Mathematica и Matlab вроде несвободные. Octave не знаю, как со статистикой дружит.

Ay49Mihas ★★★★
() автор топика
Ответ на: комментарий от Ay49Mihas

>>>По возможностям языка, возможно, да.

Вряд ли. Объектная модель в Matlab (и Octave разумеется) в принципе отутствует. Scilab, хотя его язык несколько отличается, тоже недалеко в этом плане ушел.
И главное R более функциональный язык, чем все вышеперечисленные. Анонимные функции, параметры по-умолчанию, именованные параметры, произвольный порядок аргументов функций в клонах Matlaba невозможны. Так что для интерактивной работы R более удобен.

geekkoo
()
Ответ на: комментарий от isden

> деньги по сути своей тоже игрушки. возвращаясь к твоему предыдущему посту, могу лишь сказать что неубедительно сравнивать софт и как сказал тов. geekkoo "какую-то документацию" в формате методички для студентов. что, теперь каждый студент осиливший написание методичек может постить их на ЛОР ? :) было бы нечто более фундаментальное, часть диплома или дисера - я бы слова ни сказал, ибо это уже имхо нормальный уровень.

ну если каждый дятел постить коменты может :)

anonymous
()
Ответ на: комментарий от anonymous

> Так что этот микроскоп делать такого серьезноого и тонкого умеет, что среднее на больших обьекмах для него уже "говзди"?

> Для сравнение, матлаб совершенно нормально и адекватно на таких обьекмах работает - считает, анализирует, визуализирует.

среднее арифметическое не является "статистикой" Ж)

anonymous
()
Ответ на: комментарий от anonymous

>среднее арифметическое не является "статистикой" Ж)

Вообще-то является --- статистика суть функция от выборки, среднее арифметическое довольно наглядный пример :)

Ay49Mihas ★★★★
() автор топика
Ответ на: комментарий от anonymous

> Есть еще инересный проект позволяющий юзать R через TCP, вызывая методы R дистанционно. Клиентская часть весма легковесна, не требует инсталляции самого R и имеет биндинги к явой и C/C++ http://rosuda.org/Rserve/

ну вы люди даете....

да более емкого язычка чем R/S поискать надо.

1 Любой стат расчет лезет в три строчки.

2 Пакет имеет такую историю что знать его язык значит обладать знанием которое гарантированно не обесценится.

3 ЭТО СТАНДАРТ де факто СТАТИСТИЧЕСКИХ РАСЧЕТОВ.

anonymous
()
Ответ на: комментарий от Ay49Mihas

> >среднее арифметическое не является "статистикой" Ж)

> Вообще-то является --- статистика суть функция от выборки, среднее арифметическое довольно наглядный пример :)

будет счастлив тот день когда дети будут учить медиану вместо "среднего арифметического"

PS да сгинут все "арифметики" ;)

anonymous
()
Ответ на: комментарий от anonymous

>будет счастлив тот день когда дети будут учить медиану вместо "среднего арифметического"

Оценка мат. ожидания состоятельна. И это хорошо :)

Ay49Mihas ★★★★
() автор топика
Ответ на: комментарий от ugoday

Это первое что приходит в голову. Такая система уже реализована, но не всегда работат. Идет именно численное сравнение минувшей среды (которая проверяется на ошибки) со средним по всем средам за полгода например. Увы, этого не достаточно. На тертьей неделе января например может прийти куда меньше данных чем за неделю рождественских каникул и этот метод даст сбой. Нужно именно учитывать не велечину на тот или иной день а характер изменения функции на неделе т.е. анализировать не одну точку а несколько рядом стоящих.

anonymous
()
Ответ на: комментарий от geekkoo

Матлаб не джава, все эти ООП финтифлюшки, нужные для того что б зарплата высокая была, в мат. пакетах не актуальны, хуже, они снижают скорость разработки. Кроме того в Матлабе есть классы.

anonymous
()
Ответ на: комментарий от anonymous

>>Кроме того в Матлабе есть классы.

Лучше бы их там не было. Эти так называемые классы - один большой костыль, сделванный специально для того чтоб mathworks не тыкали носом каждый раз - "А где у вас ООП?" Никакой возможности пользоваться этими классами нет.

geekkoo
()
Ответ на: комментарий от anonymous

> Нужно именно учитывать не велечину на тот или иной день а характер изменения функции на неделе т.е. анализировать не одну точку а несколько рядом стоящих.

ну и считайте в процентах от максимальной доставки на этой неделе

anonymous
()
Ответ на: комментарий от anonymous

>Нужно именно учитывать не велечину на тот или иной день а характер изменения функции на неделе т.е. анализировать не одну точку а несколько рядом стоящих.

Сравни регрессии на близость :)

Ay49Mihas ★★★★
() автор топика
Ответ на: комментарий от Ay49Mihas

> В разделе "Документация" народ кроме всего постит свою документацию, когда считает, что она будет полезна. Пример --- цикл статей Евгения Балдина о METAPOST.

OK,OK, уболтал :) признаю, немного погорячился, вчера похмелье жуткое было :(

> PS: Тузиг?

ээ.. а что навело вас на такие мысли? предупреждая дальнейшие вопросы - скажу что нет :)

isden ★★★★★
()
Ответ на: комментарий от isden

>ээ.. а что навело вас на такие мысли? предупреждая дальнейшие вопросы - скажу что нет :)

Отсутствие великодушия, отчего ярко выраженная мелочность :) Извини, если обидел.

Ay49Mihas ★★★★
() автор топика
Ответ на: комментарий от Ay49Mihas

> Отсутствие великодушия, отчего ярко выраженная мелочность :) Извини, если обидел.

хм... не подумал как-то что мои слова можно так интерпретировать. ну да ладно :)

isden ★★★★★
()
Ответ на: комментарий от anonymous

А если ввести масштабирование? Тоесть по нескольким точкам определить во сколько раз отличается эта неделя от эталонной и рассматривать отклонения от смасштабированной кривой?

ugoday ★★★★★
()
Ответ на: Хорошей идеей мог бы быть перевод R Simple от anonymous

а) Всю документацию всё равно не переведёшь.

б) R это инженерный пакет, а толковый инженер буржуйским владеет.

Из этих двух пунктов вовсе не следует, что переводы совсем не нужны. Я, например, предпочитаю сначала прочесть обзорную статью на русском, а потом, когда уже понятно о чём в принцепе идёт речь, читать подробную английскую документацию.

ugoday ★★★★★
()
Ответ на: комментарий от Ay49Mihas

> Вообще-то является --- статистика суть функция от выборки, среднее арифметическое довольно наглядный пример :)

Я тож выe%%%%сь! Слово "измеримая" перед "функция" забыл:)

По статье: 1) слово "квантиль" - женского рода. 2) в разделе 1.5.1 две серъезнейшие фактические ошибки: аргументом плотности распределенияы и функции распределения служат отнюдь не квантили!

Значение функции распределения в зависимости от квантиля t(a) порядка альфа есть тождественная функция!!! Что можно легко увидеть: для непрерывных распределений t(a) есть просто обратная к ф.р.

В общем это, почитай внимательно хороший учебник. Рекомендую лекции Н. Черновой из НГУ, например, легко найдешь в инете.

Вообще статья хорошая, ине понравилась.

elio
()
Ответ на: комментарий от elio

> слово "квантиль" - женского рода

>Значение функции распределения в зависимости от квантиля t(a)

Вы уж определитесь, какого рода квантиль :)

А по теме: R -- один из лучших статистических пакетов. По многообразию поддерживаемых статистических методов ему ИМХО просто нет равных. Язык, может и не всегда удобный, но очень мощный. Радует, что R всё чаще стал фигурировать в книгах по статистике (на английском, конечно).

Сам занимался переводом документации (The R Language), но понял, что занятие это практически бесполезное. Тем не менее, респект автору методички.

caddr
()
Ответ на: комментарий от anonymous

Да нет, женского все же. http://tryphonov.narod.ru/tryphonov3/terms3/quantil.htm В нормальном словаре не нашел. Похоже, что сейчас допустимо оба варианта. Но первоначальный вариант -- именно женский род.

> По многообразию поддерживаемых статистических методов ему ИМХО просто нет равных. A SAS?

elio
()
Ответ на: комментарий от caddr

> Вы уж определитесь, какого рода квантиль :)

Это я скопировал из текста:)

elio
()
Ответ на: комментарий от Ay49Mihas

Ay49Mihas тебе огромный респект, я пытаюсь сделать нечто подобное в своем быдлоуниверситете... начал с полного искоринения венды...

anonymous
()
Ответ на: комментарий от anonymous

Даже не знаю плакать или смеяться? "в своем быдлоуниверситете" "начал с полного искоринения"...
R он же и под вендой работает. Можно было начать с внедрения свободных программ под венду, а уж потом заняться ее "искоринением".

geekkoo
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.