LINUX.ORG.RU

Методичка по системе статистич. анализа R


0

0

По результатам изучения системы R написал методичку на русском --- больше таких материалов в рунете не встречал, всё только на английском.

Методичка содержит в сжатой форме сведения:

- представление данных в виде векторов и массивов;

- операции над данными в этих видах;

- графический вывод;

- общие возможности встроенного языка;

- распределения случайных величин в системе, методы их использования и визуализации.

Методичка используется в качестве методического пособия для выполнения лабораторных работ по дисциплине "Методы анализа данных" на кафедре информатики Красноярского Государственного Технического Университета.

Рекомендую для начального знакомства с системой, "быстрого старта".

PS: Товарищи модераторы, надеюсь, в этот раз останется в новостях, т.к. в Talks тема слишком быстро ушла вниз.

PPS: Спасибо тем, кто уже посмотрел и высказал замечания. Те, кто ещё не высказал, могут писать в комментариях или на мыло ay49mihas(AT)inbox(DOT)ru

>>> Подробности

★★★★

Проверено: Shaman007 ()

Re: Методичка по системе статистич. анализа R

М-м-м, часть текста куда-то видимо пропала. После подраздела "1.5 Распределение вероятностей" только два заголовка "1.6 Формирование выражений" и "2 Лабораторне работы". А вообще, R -- классная штука, сразу мне приглянулся, как только вышел.

balodja ★★★ ()

Re: Методичка по системе статистич. анализа R

это в разделе "новости" ? :[ ]

isden ★★★★★ ()

Re: Методичка по системе статистич. анализа R

хм. Talks постепенно переезжает на главную страницу?

isden ★★★★★ ()

Re: Методичка по системе статистич. анализа R

> А что? Товарищ написал какую-то документация и хочет показать ее коммьюнити. Что тебя не устраивает?

ну я на ЛОРе меньше года, привык как-то что в новостях более серьезные вещи идут.
имхо "какая-то документация", во-первых мало понятно на что, а во вторых сделанная как "методичка" опять же имхо мало проходит под формат раздела "новости".
я не прав?

isden ★★★★★ ()

Re: Методичка по системе статистич. анализа R

> ну я на ЛОРе меньше года, привык как-то что в новостях более серьезные вещи идут.

Какие, например?

"Comix 3.6.1 released" -- выход какого-то очередного велосипеда школьной сложности для массового просмотра порнухи, очень серьезно.

"Real-Time Linux наступает" --- какая-то никому нафиг не известная компания из оффтопичной страны заменила одну ось на другую, очень, блин, серьезно.

"Сравнение производительности Qt и Cairo" --- какой-то никому вообще не известный крендель, запостил в какой-то блог какую-то хрень о том, что его криво написанные тесты, от которых даже исходников нет, показали офигительное преимущество Qt4 над всеми остальными. Серьезнее просто некуда.

Это из последних, а если дальше копнуть... Так что, походи на ЛОР подольше, и ты поймешь, что тут много "несерьезных" новостей, да и нафиг эта "серьезность" не упала. Хочешь серьезности, читай Finansial Times ;)

watashiwa_daredeska ★★★★ ()

Re: Методичка по системе статистич. анализа R

В документе ссылка на проект указана. http://www.r-project.org/

anonymous ()

Re: Методичка по системе статистич. анализа R

Мдя... И положили на slil.ru. Офигительно. Я не могу скачать, вопщем... Положите плиз на нормальный хостинг, кому не трудно! (не рапидшара etc.)

boombick ★★★★★ ()

Re: Методичка по системе статистич. анализа R

Салют 49 группе от 44й! :) да и всему ФИПУ.

anonymous ()

Re: Методичка по системе статистич. анализа R

Это реально новость! Т.к. R - это из ряда классики типа Tex и grass.

И при этом наверное первый материал на русском языке.

А вопрос "где ссылка на страницу проекта?" - очень показательный :)

oldboy

anonymous ()

Re: Методичка по системе статистич. анализа R

А что-нибудь серьезное этой системой делать можно? или только матрицы 100*100 визуализировать?

Сколько по времени будет вычисляься среднее, если исходный вектор в текстовом виде занимает 2 Гб? Будет ли нормально работать визуализация?

anonymous ()

Re: Методичка по системе статистич. анализа R

Хорошо, что дошло почти до продакшена :)

Жаль я не пока могу придумать задачи где бы это чудо применть для своих целей :) Буду думать.

Evgueni ★★★★★ ()

Re: Методичка по системе статистич. анализа R

Так что этот микроскоп делать такого серьезноого и тонкого умеет, что среднее на больших обьекмах для него уже "говзди"?

Для сравнение, матлаб совершенно нормально и адекватно на таких обьекмах работает - считает, анализирует, визуализирует.

anonymous ()

Re: Методичка по системе статистич. анализа R

Хорошая методичка. Вполне достаточна для первичного ознакомления и заинтересовывания людей. А дальше уже пускай на буржуйском читают.

ugoday ★★★★★ ()
Ответ на: Re: Методичка по системе статистич. анализа R от watashiwa_daredeska

Re: Методичка по системе статистич. анализа R

> Серьезно там, где деньги, остальное - игрушки.

деньги по сути своей тоже игрушки.
возвращаясь к твоему предыдущему посту, могу лишь сказать что неубедительно сравнивать софт и как сказал тов. geekkoo "какую-то документацию" в формате методички для студентов. что, теперь каждый студент осиливший написание методичек может постить их на ЛОР ? :) было бы нечто более фундаментальное, часть диплома или дисера - я бы слова ни сказал, ибо это уже имхо нормальный уровень.
nevertheless, модераторы приняли это как новость. чтож. не мне их судить. на этом предлагаю окончить обсуждение вопроса уместности если ты не против.

isden ★★★★★ ()

Re: Методичка по системе статистич. анализа R

Ну, подгонка методом simulated annealin, kernel smoothing, splining... А среднее у меня мускуль вычисляет.

> proc.time()
[1] 0.700 0.030 19.509 0.000 0.000
> z<-1:10000000/234567
> proc.time()
[1] 1.220 0.180 40.783 0.000 0.000
> mean(z)
[1] 21.31587
> proc.time()
[1] 1.560 0.180 50.374 0.000 0.000
> plot(z,type="l")
> proc.time()
[1] 11.370 1.210 132.109 0.000 0.000
>

geekkoo ()

Re: Методичка по системе статистич. анализа R

Вопрос тем, кто занимается статистикой, помогите с выбором метода решения.

Необходимо автоматичски отслеживать недогрузки\двойные загрузки данных. Имеем: график загрузок за прошлые недели (каждый день столько-то байт), график довольно характерный - плавный рост от субботы до среды, потом плавный спад и так каждую неделю. Задача: не пришли некоторые файлы в один из дней, понять это по данным за другие дни этой недели (считаем что недосдача данных ограничивается всегда 1- днем)

Что правильнее всго использовать для этой задачи ? Корреляционные функции с другими неделями или что-то еще ?

anonymous ()

Re: Методичка по системе статистич. анализа R

APL круче ;)

anonymous ()

Re: Методичка по системе статистич. анализа R

Автору методички: вы бы хостинг нормальный выбрали, а то появится следующая версия документа - где ее искать ?
А дело полезное делаете. "С миру по нитке - нищему рубаха". :)

pacify ★★★★★ ()

Re: Методичка по системе статистич. анализа R

502 Bad Gateway nginx/0.3.17

:(

elio ()

Re: Методичка по системе статистич. анализа R

502 Bad Gateway nginx/0.3.17

mvm ()

Re: Методичка по системе статистич. анализа R

Кстати, нет ли у кого-нибудь толковой статьи по номограммам? Гугль молчит как пленный партизан.

ugoday ★★★★★ ()

Re: Методичка по системе статистич. анализа R

> было бы нечто более фундаментальное, часть диплома или дисера - я бы слова ни сказал

мсье является рецензентом JGR/NF/PRL? Вы бы и слова не сказали, ага, охотно верю. Зато от других (отличных от вас, но схожих по сути) вонищи было бы - ой-ой-ой.

> на этом предлагаю окончить обсуждение вопроса

в таком случае вопрос и вовсе не следовало поднимать.

anonymous ()

Re: Методичка по системе статистич. анализа R

> имхо "какая-то документация", во-первых мало понятно на что, а во > вторых сделанная как "методичка" опять же имхо мало проходит под > формат раздела "новости". > я не прав?

Стыдоба! Если Вам лично мало понятно на что, то потрудитесь почтитать. Или в сердце живет уверенность - я мол все знаю, а чего не знаю то есть ерунда..?

R - свободная версия пакета S - статистика. Позволяет производить различный статистический анализ результатов эксперимента. Для этого кроме функций относящихся непосредственно к статистике обладает другими возможностями математической обработки данных и их представления в виде графиков. Язык правда - scheme like, что делает его мало понятным неподготовленному пользователю. И по моему мнению не совсем удобным. Но сейчас уже есть питоновая обертка для него.

lefsha ()

Re: Методичка по системе статистич. анализа R

Молодец! Отлично!

Хотя думаю что более прогрессивно было бы использовать питоновский интерфейс потому как под ним есть полно других программ для визуализации данных как то Matplotlib MayaVi2 VTK

Хотелось бы вообще чтобы все основные функции были переписаны напрямую под питон в одном экземпляре, чтобы не приходилось выбирать из 10 библиотек, а иметь одну стабильную и поддерживаемую.

lefsha ()

Re: Методичка по системе статистич. анализа R

> мсье является рецензентом JGR/NF/PRL? Вы бы и слова не сказали, ага, охотно верю. Зато от других (отличных от вас, но схожих по сути) вонищи было бы - ой-ой-ой.

мсье является дипломированным психологом чтобы рассуждать о моей сути по нескольким постам на ЛОРе?

> в таком случае вопрос и вовсе не следовало поднимать.

в таком случае лучше не вырывать фразу из контекста.

isden ★★★★★ ()

Re: Методичка по системе статистич. анализа R

> Если Вам лично мало понятно на что, то потрудитесь почтитать.

не считаю необходимым изучать то что мне в принципе не нужно в данный момент (судя по тексту оригинальной новости).
хотя признаю, после вашего пояснения, некий интерес проснулся.

> Или в сердце живет уверенность - я мол все знаю, а чего не знаю то есть ерунда..?

потрудитесь процитировать где я такое утверждал.

> R - свободная версия пакета S - статистика. Позволяет производить различный статистический анализ результатов эксперимента. Для этого кроме функций относящихся непосредственно к статистике обладает другими возможностями математической обработки данных и их представления в виде графиков. Язык правда - scheme like, что делает его мало понятным неподготовленному пользователю.

вот это имхо и следовало бы включить в оригинальную новость, чтобы не возникало вопросов у "непосвященных".

isden ★★★★★ ()

Re: Методичка по системе статистич. анализа R

Спасибо; наверное с этой методички стоит начать предварительное знакомство с R. Совсем недавно я хотел использовать ее через питоновские биндинги, но пришел к выводу, что времени на полновесное изучение пакета недостаточно. И на скорую руку изобрел собственный велосипед в виде библиотеки вычислений простых статистик и регрессии. :)

Sunspire ()

Re: Методичка по системе статистич. анализа R

Есть еще инересный проект позволяющий юзать R через TCP, вызывая методы R дистанционно. Клиентская часть весма легковесна, не требует инсталляции самого R и имеет биндинги к явой и C/C++ http://rosuda.org/Rserve/

anonymous ()

Re: Методичка по системе статистич. анализа R

Автору методички, Михаилу (если не ошибаюсь), огромное спасибо!

Как раз быстрый старт и нужен, hello world.
Тематические методички есть, например http://www.cryst.bbk.ac.uk/~wernisch/yasma/yasma_tutorial.pdf , но про командную строку, типы данных и примитивы системы на 10 страничках еще не попадалось.

Такая методичка выстраивает мостик между теорией и практикой.

Очень жаль, что обрывается на самом интересном месте, на лабораторных.

---
Посетители ЛОРа, которые настолько возмущены публикацией, что с пеной у рта готовы доказывать ее ненужность -- не тратьте свое драгоценное время на просвещение незрячих масс, займитесь полезным делом -- дефрагментируйте диск C:
---

мне кажется, или этот пример действительно некорректен:

> seq(1, 3, seq=3)
[1] 1 1.5 3


также, хотелось бы верить в существование объяснений такому поведению:
> (x = c(1, 2, 3) + c(2, 3, 4))
[1] 3 5 7
> x[0]
numeric(0)
> x[-1]
[1] 5 7
> x[-4]
Error: subscript out of bounds
> x[4]
[1] NA


---
BTW, кто-то может высказаться о GUI для R? о JGR?

neksa ()

Re: Методичка по системе статистич. анализа R

>М-м-м, часть текста куда-то видимо пропала. После подраздела "1.5 Распределение вероятностей" только два заголовка "1.6 Формирование выражений" и "2 Лабораторне работы".

Увы, это фича беты. Ввиду отсутствия свободного времени буду дописывать с небольшим перерывом, т.к. лабораторные работы даю студентам напрямую, а формирование выражений хочу добавить для расширения кругозора, уж больно интересная функциональность.

Ay49Mihas ★★★★ ()

Re: Методичка по системе статистич. анализа R

>ну я на ЛОРе меньше года, привык как-то что в новостях более серьезные вещи идут.

В разделе "Документация" народ кроме всего постит свою документацию, когда считает, что она будет полезна. Пример --- цикл статей Евгения Балдина о METAPOST.

PS: Тузиг?

Ay49Mihas ★★★★ ()

Re: Методичка по системе статистич. анализа R

>Мдя... И положили на slil.ru. Офигительно. Я не могу скачать, вопщем... Положите плиз на нормальный хостинг, кому не трудно! (не рапидшара etc.)

В первый раз положил на overclockers.ru, народ пожаловался, что не может скачать. Положил на второй нормальный хостинг, доступный мне. Так что извините, если у кого проблемы...

Ay49Mihas ★★★★ ()

Re: Методичка по системе статистич. анализа R

>А что-нибудь серьезное этой системой делать можно? или только матрицы 100*100 визуализировать?

>Сколько по времени будет вычисляься среднее, если исходный вектор в текстовом виде занимает 2 Гб? Будет ли нормально работать визуализация?

У меня впечатление, что всё будет зависеть от объёма оперативки.

И я для себя позиционирую эту систему как исследовательскую платформу, чтобы набросать алгоритм, подобрать вид характеристики и т.д. Я техник, а не математик, поэтому мне достаточно, чтобы метод работал устойчиво (по Ляпунову :)), а существование и единственность решения, прочие свойства пусть обсуждают математики. Нужно будет сделать быстродействующую реализацию метода --- тогда можно реализовать его на C/Fortran. А отладить можно и в R.

Ay49Mihas ★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.