LINUX.ORG.RU

Открыта запись на онлайн-курс обучения анализу данных в среде R

 ,


4

5

Курс размещен на Coursera, рассчитан на 8 недель. Предполагается, что курс начнется 22 января 2013 года.

Обучение имеет уклон в практику использования R. Составитель курса обязуется не мучать обучаемых голой математической теорией. В ходе учебы планируется решить два объемных, взятых из практики, задания по анализу данных.

Лектор — Jeff Leek, доцент Johns Hopkins Bloomberg School of Public Health.

P.S. Если навыки использования R отсутствуют совсем, будет рационально сначала (предполагаемое начало курса 3 сентября 2012 года) посетить 6-недельный курс Statistics One от Andrew Conway из Princeton University.

>>> Подробности

★★★★★

Проверено: maxcom ()

Ответ на: комментарий от tp_for_my_bunghole

Чем руководствуются называя языки программирования одной буквой?

Это чтоб никто не догадался.

R, кстати, это система анализа и визуализации данных. Язык программирования - это её часть.

yvv ★★☆ ()
Ответ на: комментарий от Licwin

ржунимагу, ну вот же, автору курса работает профессором в хопкинсе, зряплата за $100к.

vaborg ★★★ ()
Ответ на: комментарий от Evgueni

Евгений, а за счет чего R предпочтительней более распространенных систем обработки данных (например, матлабоподобных Octave, SciLab), или расширений к полноценным языкам программирования (Python+numpy/scipy+matplotlib)?

Чтобы конкретизировать вопрос, в качестве пользователя выберем студента НГУ с физфака/мехмата, которому хорошо бы с первого курса привить навыки обработки и визуализации данных в чем-нибудь еще, к кроме LO Calc (MS Excel).

XSerjo ()
Ответ на: комментарий от XSerjo

Безусловно всё зависит от задач и от окружения. R (S) — полноценный язык программирования ориентированный на обработку данных с очень длительной историей и большим количеством специализированных пакетов, Python — популярный язык программирования с быстро растущим окружением. IMHO для математиков/статистиков R предпочтителен, для физиков я бы освоил оба инструмента. Python в любом случае нужно знать как средство автоматизации, хотя, лично я предпочитаю perl (потому что его знаю, а Python всё ещё не удосужился выучить).

В случае физиков, естественно нужно осознавать, что статистикой они пользуются весьма спустя рукава, так как разбалованы хорошими результатами экспериментов сплошь и рядом описываемых Гауссом, но временами это не так и приходится начинать разбираться. Систематические неопределённости, связанные с негауссовской природой результата этим весьма портят жизнь.

Сам же я для своих нужд использую исключительно ROOT, так как всё необходимое для моих задач там есть и он умеет работать с объёмами данных которые не влезают в оперативную память (деревья и нтаплы), чего не умеет ни R, ни Python.

Evgueni ★★★★★ ()
Ответ на: комментарий от XSerjo

Конечно прошу прощения что вмешиваюсь. R имеет множество расширений с уже реализованными стат. методами. В этом я смог убедиться лично, когда искал реализации стат. методов и моделей по психогенетике. Чаще всего все что уже было нужно находилось в расширениях R. Кроме того никто не мешает объединять возможности Python & R (проект RPy2). Кроме того R имеет очень неплохое сообщство, где публикуется множество материалов от совсем для начинающих и до очень специальных вопросов. В этом смысле рекомендую посмотреть R journal. Возможно я неправ, но по моему опыту работы получить визуализацию данных быстрее в R чем в указанной связке. При чем из коробки в R идет больше типов визуализации чем matplotlib.

1) скатерограммы

2) Boxplot -«ящик с усами» по-моему так у нас это переводят

3) Полигоны частот

4) Отрисовка плотности вероятности и т.д.

Как мне кажется Python и R двольно хорошо бы дополняли друг друга, а не противопоставлялись.

pylin ★★★★★ ()
Ответ на: комментарий от DNA_Seq

Хороший лектор заменяет десяток учебников.

Меня вот мучает вопрос, способен ли заменить всё это парочка мануалов + специалисты с LOR'а?

ados ★★★★★ ()
Ответ на: комментарий от ados

Изучать по ману - бесперспективное занятие. Уж лучше туториал штудировать. Ну а специалисты с лора это специалисты с лора :)

А вообще, лучше постараться имитировать вузовскую систему: лекция (туториал) -> книга (ман) -> семинар (задачник, но тут специалист под рукой крайне желателен) -> следующая глава туториала.

DNA_Seq ★★☆☆☆ ()
Последнее исправление: DNA_Seq (всего исправлений: 1)
Ответ на: комментарий от Evgueni

Поскольку репл есть у всех перечисленных сред, то мне кажется ключевым что у R готовая (и очень удачная) система представления данных + это действительно высокоуровневый язык программирования (фактически тот который пишут на протяжении SICP, поскольку авторы R именно этим руководством вдохновлялись :) -> за счет чего получается крайне компактный и легкочитаемый код.

ну и идея Столмана о guile (который тоже вариант схемы) как (встраиваемом|надстраиваемым) всюду языке сработала.

таким образом ключевая причина --- привычный синтаксис языка обеспечил успех интерпретатора схемы в котором реализован R.

psv1967 ★★★★★ ()
Ответ на: комментарий от ados

Хороший лектор заменяет десяток учебников.

Меня вот мучает вопрос, способен ли заменить всё это парочка мануалов + специалисты с LOR'а?

у R прекрасное руководство, есть и перевод его на русский

psv1967 ★★★★★ ()
Ответ на: комментарий от DNA_Seq

+ тусовка студентов (специалисты с ЛОР-а)

ados ★★★★★ ()
Ответ на: комментарий от psv1967

и? открой литературу и посмотри как часто их цитируют. В каждом сообществе есть уже устоявшийся стандарт де факто. Пробиваться с отступлениями от него значительно сложнее.

vaborg ★★★ ()
Ответ на: комментарий от Evgueni

он умеет работать с объёмами данных которые не влезают в оперативную память (деревья и нтаплы), чего не умеет ни R, ни Python.

Не понял, почему питон не умеет работать со свопом? Если у меня 64 битная система и своп в 512 гиг?

anonymous ()
Ответ на: комментарий от vaborg

А это просто последствия того что менее информированы нейрофизиологи и иные специалисты о R, недоработанность функций соотв. модулей, сложности при работе с R ?

pylin ★★★★★ ()
Последнее исправление: pylin (всего исправлений: 1)
Ответ на: комментарий от pylin

да не, я думаю, это тот случай, когда можно сказать: «так исторически сложилось». Я знаю пару человек, которые пользуются R, но это исключение.

vaborg ★★★ ()
Ответ на: комментарий от vaborg

ну давай сравнительную статистику цитирования в студию :)

я посмотрел ссылки авторов пакета одного из вива там боле чем достаточно ссылок.

PS то что большинство наших дорогих собратьев по разуму используют что угодно (вплоть до фотошопа) я в курсе.

psv1967 ★★★★★ ()
Ответ на: комментарий от Evgueni

Ну и ты поседеешь пока досчитает.

Правда? А этот твой ROOT обладает волшебной способностью расширять ОЗУ? На мой, вполне профессиональный взляд - такое же тормозное говно, особенно cint. Код написанный дилетантами от физики для физиков неспособных осилить с++. Даже непонятно как его использовать на кластере? И особенно смешны твои рассуждения, Евгений по поводу распределений экспериментальных данных. Советую изучить историю вопроса про бозон Хигса, и родить очередную статью в цикле «записки дилетанта в научные анналы ЛОР».

anonymous ()
Ответ на: комментарий от pylin

Я может быть ошибусь, но видел в R пакеты для анализа EEG,PET.

Обучаю азам анализа данных на Python+numpy+scipy+matplotlib. Имею дело с биомедсигналами: EEG, MEG, fMRI. Гдподскажите, где видели такие пакеты и доступны ли они свободно. Особенно интересуют пакеты обработки MEG, в том числе восстановление источников.

Vudod ★★★★★ ()
Ответ на: комментарий от vaborg

В каждом сообществе есть уже устоявшийся стандарт де факто. Пробиваться с отступлениями от него значительно сложнее.

Вы таки намекаете, что нам пора завязывать со всем этим и идти покупать МАТЛАБ?

Vudod ★★★★★ ()
Ответ на: комментарий от Vudod

Swale - Single Trial EEG/MEG analysis - Swale - Single-Trial Waveform Amplitude and Latency Estimation is a method for EEG/MEG data analysis which simultaneously estimates the waveform of an ERP and single-trial amplitude and latency parameters.

Functional MRI

AnalyzeFMRI is a package originally written for the processing and analysis of large structural and functional MRI data sets under the ANALYZE format. It has been updated to include new functionality: complete NIfTI input/output, cross-platform visualization based on Tcl/Tk components, and spatial/temporal ICA ( Independent Components Analysis ) via a graphical user interface (GUI).

The package arf3DS4 applied the active region fitting (ARF) algorithm for the analysis of functional magnetic resonance imaging (fMRI) data. ARF uses Gaussian shape spatial models to parameterize active brain regions.

The R-package fmri provides tools for the analysis of functional MRI data. The core is the implementation of a new class of adaptive smoothing methods. These methods allow for a significant signal enhancement and reduction of false positive detections without, in contrast to traditional non-adaptive smoothing methods, reducing the effective spatial resolution. This property is especially of interest in the analysis of high-resolution functional MRI. The package includes functions for input/output of some standard imaging formats (ANALYZE, NIfTI, AFNI, DICOM) as well as for linear modelling the data and signal detection using Random Field Theory . It also includes ICA and NGCA (non-Gaussian Components Analysis) based methods and hence has some overlap with AnalyzeFMRI.

Neuroimage is an R package (currently only available within the neuroim project on R-Forge) that provides data structures and input/output routines for functional brain imaging data. It reads and writes NIfTI-1 data and provides S4 classes for handling multi-dimensional images.

Compute Unified Device Architecture (CUDA) is a software platform for massively parallel high-performance computing on NVIDIA GPUs. cudaBayesreg provides a CUDA implementation of a Bayesian multilevel model for the analysis of brain fMRI data. The CUDA programming model uses a separate thread for fitting a linear regression model at each voxel in parallel. The global statistical model implements a Gibbs Sampler for hierarchical linear models with a normal prior. This model has been proposed by Rossi, Allenby and McCulloch in Bayesian Statistics and Marketing , Chapter 3, and is referred to as «rhierLinearModel» in the R-package bayesm.

The neuRosim package allows users to generate functional MRI time series or four-dimensional data. Some high-level functions are created for fast data generation with only a few arguments and a diversity of functions to define activation and noise characteristics. For more advanced users it is possible to use the low-level functions and manipulate the arguments.

Structural MRI

The package dpmixsim implements a Dirichlet Process Mixture (DPM) model for clustering and image segmentation. The DPM model is a Bayesian nonparametric methodology that relies on MCMC simulations for exploring mixture models with an unknown number of components. The code implements conjugate models with normal structure (conjugate normal-normal DPM model). Applications are oriented towards the classification of MR images according to tissue type or region of interest.

The package mritc provides tools for MRI tissue classification using normal mixture models and (partial volume, higher resolution) hidden Markov normal mixture models fitted by various methods. Functions to obtain initial values and spatial parameters are available. Facilities for visualization and evaluation of classification results are provided. To improve the speed, table lookup methods are used in various places, vectorization is used to take advantage of conditional independence, and some computations are performed by embedded C code.

psv1967 ★★★★★ ()
Ответ на: комментарий от Vudod

Обучаю азам анализа данных на Python+numpy+scipy+matplotlib.

Жену свою обучай щи варить. Как твой питон можно использовать на моем сервере 4 Xeon x 12 ядер на сокет, когда там GIL, треш, угар и девки голые на столах в оффисе пляшут «Богородице покарай Гвидо Россума»?

anonymous ()
Ответ на: комментарий от anonymous

Жену свою обучай щи варить.

Она справляется гораздо лучше меня.

Как твой питон можно использовать на моем сервере 4 Xeon x 12 ядер на сокет

Я никак не претендую на ваш сервер. Я даже не знаю, где он находится!!! Вы по прежнему можете пользовать его единолично во все 4 сокета.

когда там GIL

В большинстве случаев обходится банально с помощью multiprocessing. В ряде случаев есть более Ъ решения, например, модуль для построения нейронных сетей ffnet с недавнего времени научился использовать многопоточность за счёт openmp в фортрановском коде.

4 Xeon

http://www.parallelpython.com

треш, угар и девки голые на столах в оффисе пляшут

Заканчивайте с веществами.

Vudod ★★★★★ ()
Ответ на: комментарий от Vudod

Internally ppsmp uses processes and IPC (Inter Process Communications) to organize parallel computations.

IPC!!!!, Та-да-да, финал, занавес, все пусси райт валяются под столами без трусов от смеха.

anonymous ()
Ответ на: комментарий от Siado

Вот, тоже хотел про Sage упомянуть. Вроде у создателей правильная идея - не писать самим все инструменты, а предоставить единый интерфейс для общения с уже готовыми. Если готового инструмента нет - то создать самим. Но что-то у них туго дела идут. Даже под винду не сделали нативную версию, только в виртуальной машине пускать можно. Как они собираются отлавливать ошибки, при этом отсекая значительную часть пользователей - непонятно.

XSerjo ()
Ответ на: комментарий от Siado

Если мне не изменяет память у питона есть биндинги к R. Плюс к этому можно sage рассмотреть.

Есть, можно, хотя мне пока средств самого Питона хватало.

Vudod ★★★★★ ()
Ответ на: комментарий от anonymous

ROOT - это прежде всего хорошо документированный набор готовых библиотек. Никто не мешает тебе его с С++ линковать. Большинство, собственно, так и делают.

anonymous ()
Ответ на: комментарий от psv1967

ну я вижу те делать нехер, вот займись вычислением процента R в общем числе публикаций :)

люди используют то, что им удобно.

vaborg ★★★ ()
Ответ на: комментарий от Vudod

да друг те пора завязывать и купить себе уже галопередол. Это сразу поможет перейти им мира своих фантазий к суровым будням.

vaborg ★★★ ()
Ответ на: комментарий от anonymous

Вы немного не догоняете в той области о которой пытаетесь судить. Дело не в языках, а наборе библиотек позволяющих работать с сверхбольшими объёмами данных. Это скорее вопрос культуры, которая в физике высоких энергий была выработана ещё в то время, когда C++ и не пахло. В этом смысле ROOT далеко не идеальное решение, но наиболее удачное из стабильных имеющихся на сегодня.

Evgueni ★★★★★ ()
Ответ на: комментарий от anonymous

А что насчет обработки больших объемов данных? Типа 500-8000 Gbyte long double float?

да ничего такого, есть итераторы экономные по памяти от революшен. ну и всякое мапредуце от них же доступно.

если речь о том что бы что то большое «в лоб» считать, то для больших матриц есть эффективное представление и средсва работы с ним тоже есть.

можно и просто вставки сишного кода писать прямо в репл.

psv1967 ★★★★★ ()
Ответ на: комментарий от vaborg

ну я вижу те делать нехер, вот займись вычислением процента R в общем числе публикаций :)

ну тезис ты выдвинул

люди используют то, что им удобно.

ну людЯм удобно например мусор в окошки выкидывать.

так что, я про фотошоп «в научных целях» угадал? :)

psv1967 ★★★★★ ()
Последнее исправление: psv1967 (всего исправлений: 1)
Ответ на: комментарий от anonymous

Как твой питон можно использовать на моем сервере 4 Xeon x 12 ядер на сокет, когда там GIL, треш, угар и девки голые на столах в оффисе пляшут «Богородице покарай Гвидо Россума»?

multiprocessing, OpenMPI.

tailgunner ★★★★★ ()
Ответ на: комментарий от psv1967

ну мне этот тезис ясен и так.

выкидывай, кто не даёт, последствия не заставят себя ждать. Безусловно, есть те кто результаты рисует, в прямом смысле слова, ну и что? Точно также как и с мусором, поймают и накажут.

vaborg ★★★ ()
Ответ на: комментарий от vaborg

беда в том что есть те, кто добросовестно пытаются с помощью фотошопа науку делать. фотошеп у них это такой инструмент «научный», а не средство подделать графики. Они им измерения проводят в полный рост :). и даже трансформации всякие :).

кстате во многом именно легкость отредактировать изображение сделав «типа контроль» их действительно провоцирует к фальсификации данных. и наказаний я что то не вижу, стандарт ведь --- «все так делают» :(.

psv1967 ★★★★★ ()
Последнее исправление: psv1967 (всего исправлений: 1)
Ответ на: комментарий от psv1967

всякое бывает. но это скорее пограничный случай, есть mainstream, там всё более или менее в рамках.

vaborg ★★★ ()
Ответ на: комментарий от pylin

ну я не могу, хотя бы по этическим соображениям, так палить людей.

но это факты из моей практики (есть и зарубежные примеры), и физики и биологи страдают фотошепом как «научным инструментом» :(

хватаются за то что знают (считают что знают).

psv1967 ★★★★★ ()
Последнее исправление: psv1967 (всего исправлений: 1)
Ответ на: комментарий от psv1967

Да вот Вы собственно и ответили на вопрос ) Конкретные места и в самом деле не так уж и нужны )

pylin ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.