Книга «Статистический анализ и визуализация данных с помощью R» в открытом доступе

15

2

Методическое пособие «Статистический анализ и визуализация данных с помощью R» адресовано преимущественно студентам, аспирантам, молодым и состоявшимся ученым, а также профессиональным аналитикам, прежде не имевшим опыта работы с R. Акцент делался, в первую очередь, на практическое применение — на то, чтобы читатель, руководствуясь прочитанным, смог проанализировать свои данные и изложить результаты коллегам.

Книга охватывают следующие темы:

Основные компоненты статистической среды R.
Описание языка R.
Базовые графические возможности R.
Описательная статистика и подгонка распределений.
Классические методы и критерии статистики.
Линейные модели в дисперсионном анализе.
Регрессионные модели зависимостей между количественными переменными.
Обобщенные, структурные и иные модели регрессии.
Пространственный анализ и создание картограмм.

Текущая версия книги в формате PDF доступна для свободного скачивания с двух сайтов:

>>> Подробности

Ссылка

← Выпущен RFRemix 21 и RFRemix 20.1

Satellite Reign появилась в Steam →

← 1 2 →

Все радуют и радуют больше и больше. Спасибо....забираю :)

bookman900 ★★★★★
(15.12.14 12:14:30 MSK)

Ссылка

Поправьте: не в свободном, а в открытом. Лицензия CC-BY-NC-SA и исходники на github не доступны. Только pdf. Хотя безусловно вещь хорошая.

Evgueni ★★★★★
(15.12.14 12:41:44 MSK)
Последнее исправление: Evgueni 15.12.14 12:42:12 MSK (всего исправлений: 2)

Ссылка

Отличная новость! Кардинально скрасило бы мои недавние разборки с R-ом! :)

illy ★
(15.12.14 12:44:08 MSK)

Ссылка

Статистика - продажная девка!

anonymous
(15.12.14 13:42:47 MSK)

Ответ на: комментарий от anonymous 15.12.14 13:42:47 MSK

а статисты — сутенеры?

psv1967 ★★★★★
(15.12.14 13:44:15 MSK)

Ссылка

Ответ на: комментарий от anonymous 15.12.14 13:42:47 MSK

Гуманитарий детектед.

spec_po_kiskam ★★★
(15.12.14 14:09:07 MSK)

Описательная статистика и подгонка ~~распределений~~ результатов.

Простите, не удержался

WARNING ★★★★
(15.12.14 14:12:02 MSK)

Ответ на: комментарий от WARNING 15.12.14 14:12:02 MSK

Простите, не удержался

Ничего, мы с понимаением относимся к особенностям работы кишечника - у всех бывает. Но если будет часто повторяться, таки запишитесь на прием к врачу.

ptarh ★★★★★
(15.12.14 14:22:37 MSK)

О, в Тольятти осталась еще наука, респект!

anonymous
(15.12.14 14:38:46 MSK)

Ссылка

Ответ на: комментарий от ptarh 15.12.14 14:22:37 MSK

Увы, не меня к врачу надо, а добрую половину студентов/аспирантов, которые даже не удосуживаются проверить выборку на нормальность, прежде чем использовать нормальное распределение. А потом они всё-таки получают диплом и идут работать. В результате и получается подгонка результатов.

WARNING ★★★★
(15.12.14 14:40:05 MSK)

Ответ на: комментарий от WARNING 15.12.14 14:40:05 MSK

Подгонка результатов подразумевает злонамеренное искажение, а не обычную некомпетеность. Старайтесь дальше.

ptarh ★★★★★
(15.12.14 14:44:13 MSK)

Ответ на: комментарий от WARNING 15.12.14 14:40:05 MSK

К сожалению, не все понимают, что основным критерием оценки квалификационной работы является умение спланировать и провести научное (эмпирическое) исследование, а вовсе не подтверждение выдвинутой гипотезы (как правило, с претензией на актуальность и новизну).

unikum ★★★★★
(15.12.14 14:45:20 MSK)

Ссылка

Ответ на: комментарий от ptarh 15.12.14 14:44:13 MSK

В данном контексте вместо слово «подгонка» будет уместнее использовать «фальсификация». Некомпетентность может привести к ненамеренному искажению на этапе обработки и анализа.

unikum ★★★★★
(15.12.14 14:51:10 MSK)

Ссылка

Хорошая новость. Может, когда-нибудь мне R и пригодится

sehellion ★★★★★
(15.12.14 15:02:11 MSK)

А вот пользуясь случаем, хочу спросить, можно ли засунуть vector или list в колонку data.frame? Т.е. чтобы весь список сохранился в одной ячейке таблицы? Чтобы вот такой вот список интерпретировался как одна строка data.frame из двух элементов - числа и списка?

> ll <- list(1,list(1,2,3))

roof ★★
(15.12.14 15:12:29 MSK)
Последнее исправление: roof 15.12.14 15:16:36 MSK (всего исправлений: 1)

Ответ на: комментарий от spec_po_kiskam 15.12.14 14:09:07 MSK

Гуманитарий детектед.

Программист - 10 лет стаж.

Тем не менее поддерживаю анона.

anonymous
(15.12.14 15:13:36 MSK)

Ответ на: комментарий от roof 15.12.14 15:12:29 MSK

Вы, батенька, хотите омерзительного. Или, другими словами: кто с nested lists работал, тот в цирке не смеется.

ptarh ★★★★★
(15.12.14 15:27:24 MSK)

Ответ на: комментарий от roof 15.12.14 15:12:29 MSK

В зависимости от вложенности списка можно использовать as.data.frame(ll) или do.call(rbind, ll).

unikum ★★★★★
(15.12.14 15:30:28 MSK)

Ответ на: комментарий от sehellion 15.12.14 15:02:11 MSK

Вот здесь один чувак говорит что ему пригодился. Смотреть с 1:95

~~ieeya~~
(15.12.14 15:40:26 MSK)

Спасибо!

There are three kinds of lies: lies, damned lies, and statistics

~~dumka~~ ★★
(15.12.14 15:57:30 MSK)
Последнее исправление: dumka 15.12.14 16:03:22 MSK (всего исправлений: 2)

Ответ на: комментарий от ieeya 15.12.14 15:40:26 MSK

Да, 1:95 это сильно

sehellion ★★★★★
(15.12.14 16:32:27 MSK)

Ответ на: комментарий от ptarh 15.12.14 15:27:24 MSK

Хм... А почему, можете объяснить? Мое встроенное чувство прекрасного вроде ничего против вложенных списков не имеет. Но в R я новичок, как там принято такие задачи решать? Я попробую описать в общем виде: каждый такой список - набор неких связанных с одним и тем же объектом значений. Таких объектов в выборке много - тысячи и десятки тысяч. Количество таких связанных значений от объекта к объекту меняется, и главное что бы мне хотелось знать - зависимость количества этих значений у одного объекта от других величин, связанных с этим объектом и с выборкой в целом, и вид и параметры распределения этих значений. Загрузка данных производится из стремного формата и хотелось бы один раз загрузить и дальше работать с данными в памяти, не делая несколько проходов.

roof ★★
(15.12.14 16:55:01 MSK)

Ответ на: комментарий от unikum 15.12.14 15:30:28 MSK

> ll
[[1]]
[1] 1

[[2]]
[[2]][[1]]
[1] 1

[[2]][[2]]
[1] 2

[[2]][[3]]
[1] 3

> as.data.frame(ll)
  X1 X1.1 X2 X3
1  1    1  2  3

> do.call(rbind,ll)
     [,1] [,2] [,3]
[1,] 1    1    1   
[2,] 1    2    3

Все не то

roof ★★
(15.12.14 16:57:06 MSK)

Ссылка

Ответ на: комментарий от roof 15.12.14 16:55:01 MSK

Загони их в column или отдельный df. Nested list неочевидны, глубина вложения сразу не видна. Кроме того, с ними сложно работать, толком индексировать и применять на них функции. Другими словами - это то самое явление на Ж, за которое нужно бить по рукам линейкой.

ptarh ★★★★★
(15.12.14 17:10:46 MSK)

Ответ на: комментарий от ptarh 15.12.14 17:10:46 MSK

так отдельный df не сильно поможет, длина каждой строки разная. Можно про column поподробнее?

roof ★★
(15.12.14 17:12:08 MSK)

Ответ на: комментарий от roof 15.12.14 17:12:08 MSK

Ну или добить по длине NA, или сохранять отдельными list, с говорящими названиями или сразу переходить на БД. Может кто еще вариант подскажет. Мне пару раз приходилось возиться с nested lists, так как, как помнится, именно в таком виде в R импортируются structures из матлаба, и у меня от этих воспоминаний до сих пор припекает.

ptarh ★★★★★
(15.12.14 17:19:10 MSK)

Ссылка

Почему R такой тормозной?

anonymous
(15.12.14 17:33:38 MSK)

Ссылка

Ответ на: комментарий от roof 15.12.14 17:12:08 MSK

Это не проблема - dplyr::rbind_all адекватно обрабатывает этот случай.

unikum ★★★★★
(15.12.14 17:33:38 MSK)

Ссылка

Ответ на: комментарий от WARNING 15.12.14 14:40:05 MSK

которые даже не удосуживаются проверить выборку на нормальность, прежде чем использовать нормальное распределение

ГОСПОДИ ТАКИЕ ЛЮДИ ЕЩЕ НА ЗЕМЛЕ ЕСТЬ!

Особенно «впи****», когда после даже выполненной (!) проверки вместо нужной параметрики юзают непараметрику - потом можно уже руки отрывать с мясом

bookman900 ★★★★★
(15.12.14 17:38:37 MSK)

Ссылка

Ответ на: Спасибо! от dumka 15.12.14 15:57:30 MSK

Спасибо!
There are three kinds of lies: lies, damned lies, and statistics

Где-то в чирикалке я уже читал...это не Frederick Mosteller?

bookman900 ★★★★★
(15.12.14 17:44:15 MSK)

Как-то пробовал пользоваться R, но с ходу не смог сообразить как реализовать обычное суммирование по группирующим переменным, что-то эквивалентное:

SELECT sum(x), sum(y) FROM data GROUP BY a, b

Помню, нагуглил какое-то решение, но очень уж оно коряво выглядело. Подскажите знающие люди, как такие конструкции правильно в R реализовать?

rst ★
(15.12.14 17:47:04 MSK)

Ответ на: комментарий от rst 15.12.14 17:47:04 MSK

# создаём таблицу данных
DF <- data.frame(x = 1:10, y = 11:20, grp = sample(letters[1:2], 10, replace = TRUE))
# рассчитываем сумму по группам
aggregate(x = DF[c("x", "y")], by = DF["grp"], FUN = sum)
#>   grp  x  y
#> 1   a 26 66
#> 2   b 29 89

unikum ★★★★★
(15.12.14 18:08:58 MSK)

Ответ на: комментарий от rst 15.12.14 17:47:04 MSK

И, кстати, вы можете продолжать пользоваться языком SQL прямо в R. Посмотрите, например, пакет sqldf.

unikum ★★★★★
(15.12.14 18:11:36 MSK)

Ссылка

Ответ на: комментарий от anonymous 15.12.14 13:42:47 MSK

Статистика - продажная девка!

С точки зрения тех, кто её не знает, да.

~~yvv~~ ★★☆
(15.12.14 19:01:16 MSK)

Ссылка

Ответ на: комментарий от WARNING 15.12.14 14:40:05 MSK

Увы, не меня к врачу надо, а добрую половину студентов/аспирантов, которые даже не удосуживаются проверить выборку на нормальность, прежде чем использовать нормальное распределение.

Ты ведь всё равно не знаешь, какое распределение у твоей выборки. Предположить что оно, распределение, нормальное - это нормально для студента.

~~yvv~~ ★★☆
(15.12.14 19:04:32 MSK)

Ссылка

Ответ на: комментарий от unikum 15.12.14 18:08:58 MSK

Спасибо :)

rst ★
(15.12.14 19:06:26 MSK)

Ссылка

Ответ на: комментарий от sehellion 15.12.14 16:32:27 MSK

метрическая система мер рулит

~~ieeya~~
(15.12.14 19:26:52 MSK)

Ссылка

Ответ на: комментарий от bookman900 15.12.14 17:44:15 MSK

Где-то в чирикалке я уже читал...это не Frederick Mosteller?

Википедия говорит, что:

The term was popularised in the United States by Mark Twain (among others), who attributed it to the 19th-century British Prime Minister Benjamin Disraeli (1804–1881): «There are three kinds of lies: lies, damned lies, and statistics.» However, the phrase is not found in any of Disraeli's works and the earliest known appearances were years after his death. Other coiners have therefore been proposed, and the phrase is often attributed to Twain himself.

https://en.wikipedia.org/wiki/Lies,_damned_lies,_and_statistics

~~dumka~~ ★★
(15.12.14 20:08:08 MSK)
Последнее исправление: dumka 15.12.14 20:11:19 MSK (всего исправлений: 2)

Ссылка

Спасибо большое! То что нужно.

einhander ★★★★★
(15.12.14 21:44:56 MSK)

Ссылка

400 страниц в водрде!!! Сильно! Титанический труд.

P.S. В свойствах pdf стоит powerpoint как программа создания.

einhander ★★★★★
(15.12.14 22:02:25 MSK)

Ответ на: комментарий от einhander 15.12.14 22:02:25 MSK

Даааа, то-то я смотрю шрифт какой-то непривычный. Это действительно круто, хотя ссылки на библиографию можно было тоже добавить.

Evgueni ★★★★★
(16.12.14 00:00:24 MSK)

Ответ на: комментарий от roof 15.12.14 16:55:01 MSK

ну работай со списками, хотя есть специальные форматы хранения-выборки большого (больше чем возможности R) числа таких объектов на диске

даже базы данных заточенные под это есть (и они обсуждались на ЛОРе) :)

psv1967 ★★★★★
(16.12.14 10:11:44 MSK)

Ссылка

Ответ на: комментарий от Evgueni 16.12.14 00:00:24 MSK

Некоторым кажется что изучать knitr некогда, «надо копать"ТМ :)

psv1967 ★★★★★
(16.12.14 10:12:44 MSK)

Ответ на: комментарий от psv1967 16.12.14 10:12:44 MSK

Вот подобное было бы реально полезно. В смысле «Об R средствами R».

Evgueni ★★★★★
(16.12.14 10:19:35 MSK)

Ответ на: комментарий от Evgueni 16.12.14 10:19:35 MSK

Всегда готов! (но одному просто скучно :( )

psv1967 ★★★★★
(16.12.14 10:22:49 MSK)

Ответ на: комментарий от psv1967 16.12.14 10:22:49 MSK

Я мог бы составить компанию, но сам то я не спец в этом инструменте :(

Можно попробовать опять возродить серию по R в LXF — с моей стороны «причёсывание», проверка и доведение текста до статьи. Это было бы стимулом для создания свободных наработок в этом направлении.

Evgueni ★★★★★
(16.12.14 12:30:17 MSK)

Ответ на: комментарий от Evgueni 16.12.14 12:30:17 MSK

1) Зато LaTeX очень даже при чем получается.

Литературное программирование + Воспроизводимая наука = (Sweave|knitr)

И само по себе ЛП целиком заслуга Кнута, а уж в R ЛП очень органично вписалось (как собственно и в сам TeX), поскольку самый важный результат это получить «текст с результатом исполнения кода».

Так что рассказать как «презентабельнее» оформить результат knitr со стороны чанков LaTeX кода будет то, что надо. Там и перехват выхлопа и написание своих правок и использование готовых расширений R по генерации LaTeX кода на основе объектов R.

2) Ну и инструмент замечательный в виде универсального по использованию внешнего кода org-mode и специализированного на статистике ess в emacs присутствует.

Как и альтернативы в других редакторах и средах разработки.

3) Думаю что если в сам pdf с помощью расширений LaTeX атачить еще данные и исходный текст knitr, то термин «воспроизводимая наука» только выиграет.

4) Еще один момент добавить распространение результатов работы в R в виде интерактивных яваскриптовых веб приложений (как облачных, так и автономных), то вообще великолепный цикл получиться.

psv1967 ★★★★★
(16.12.14 14:40:39 MSK)

Ответ на: комментарий от psv1967 16.12.14 14:40:39 MSK

Я не знаю как там будет в обозримом будущем, да и выживет ли LXF, но если желание что-то сделать будет, то после Нового года можно обсудить темы и наметить план. И да, я считаю, что по возможности добро следует оплачивать, потому и план с LXF.

Evgueni ★★★★★
(16.12.14 14:46:37 MSK)