LINUX.ORG.RU

Книга «Статистический анализ и визуализация данных с помощью R» в открытом доступе

 ,


15

2

Методическое пособие «Статистический анализ и визуализация данных с помощью R» адресовано преимущественно студентам, аспирантам, молодым и состоявшимся ученым, а также профессиональным аналитикам, прежде не имевшим опыта работы с R. Акцент делался, в первую очередь, на практическое применение — на то, чтобы читатель, руководствуясь прочитанным, смог проанализировать свои данные и изложить результаты коллегам.

Книга охватывают следующие темы:

  • Основные компоненты статистической среды R.
  • Описание языка R.
  • Базовые графические возможности R.
  • Описательная статистика и подгонка распределений.
  • Классические методы и критерии статистики.
  • Линейные модели в дисперсионном анализе.
  • Регрессионные модели зависимостей между количественными переменными.
  • Обобщенные, структурные и иные модели регрессии.
  • Пространственный анализ и создание картограмм.

Текущая версия книги в формате PDF доступна для свободного скачивания с двух сайтов:

>>> Подробности

★★★★★

Проверено: fallout4all ()

Все радуют и радуют больше и больше. Спасибо....забираю :)

bookman900 ★★★★★ ()

Поправьте: не в свободном, а в открытом. Лицензия CC-BY-NC-SA и исходники на github не доступны. Только pdf. Хотя безусловно вещь хорошая.

Evgueni ★★★★★ ()
Последнее исправление: Evgueni (всего исправлений: 2)

Отличная новость! Кардинально скрасило бы мои недавние разборки с R-ом! :)

illy ()

Статистика - продажная девка!

anonymous ()

Описательная статистика и подгонка распределений результатов.

Простите, не удержался

WARNING ★★★★ ()
Ответ на: комментарий от WARNING

Простите, не удержался

Ничего, мы с понимаением относимся к особенностям работы кишечника - у всех бывает. Но если будет часто повторяться, таки запишитесь на прием к врачу.

ptarh ★★★★★ ()

О, в Тольятти осталась еще наука, респект!

anonymous ()
Ответ на: комментарий от ptarh

Увы, не меня к врачу надо, а добрую половину студентов/аспирантов, которые даже не удосуживаются проверить выборку на нормальность, прежде чем использовать нормальное распределение. А потом они всё-таки получают диплом и идут работать. В результате и получается подгонка результатов.

WARNING ★★★★ ()
Ответ на: комментарий от WARNING

Подгонка результатов подразумевает злонамеренное искажение, а не обычную некомпетеность. Старайтесь дальше.

ptarh ★★★★★ ()
Ответ на: комментарий от WARNING

К сожалению, не все понимают, что основным критерием оценки квалификационной работы является умение спланировать и провести научное (эмпирическое) исследование, а вовсе не подтверждение выдвинутой гипотезы (как правило, с претензией на актуальность и новизну).

unikum ★★★★★ ()
Ответ на: комментарий от ptarh

В данном контексте вместо слово «подгонка» будет уместнее использовать «фальсификация». Некомпетентность может привести к ненамеренному искажению на этапе обработки и анализа.

unikum ★★★★★ ()

Хорошая новость. Может, когда-нибудь мне R и пригодится

sehellion ★★★★★ ()

А вот пользуясь случаем, хочу спросить, можно ли засунуть vector или list в колонку data.frame? Т.е. чтобы весь список сохранился в одной ячейке таблицы? Чтобы вот такой вот список интерпретировался как одна строка data.frame из двух элементов - числа и списка?

> ll <- list(1,list(1,2,3))

roof ★★ ()
Последнее исправление: roof (всего исправлений: 1)
Ответ на: комментарий от spec_po_kiskam

Гуманитарий детектед.

Программист - 10 лет стаж.

Тем не менее поддерживаю анона.

anonymous ()
Ответ на: комментарий от roof

Вы, батенька, хотите омерзительного. Или, другими словами: кто с nested lists работал, тот в цирке не смеется.

ptarh ★★★★★ ()
Ответ на: комментарий от roof

В зависимости от вложенности списка можно использовать as.data.frame(ll) или do.call(rbind, ll).

unikum ★★★★★ ()

Спасибо!

There are three kinds of lies: lies, damned lies, and statistics

dumka ★★ ()
Последнее исправление: dumka (всего исправлений: 2)
Ответ на: комментарий от ptarh

Хм... А почему, можете объяснить? Мое встроенное чувство прекрасного вроде ничего против вложенных списков не имеет. Но в R я новичок, как там принято такие задачи решать? Я попробую описать в общем виде: каждый такой список - набор неких связанных с одним и тем же объектом значений. Таких объектов в выборке много - тысячи и десятки тысяч. Количество таких связанных значений от объекта к объекту меняется, и главное что бы мне хотелось знать - зависимость количества этих значений у одного объекта от других величин, связанных с этим объектом и с выборкой в целом, и вид и параметры распределения этих значений. Загрузка данных производится из стремного формата и хотелось бы один раз загрузить и дальше работать с данными в памяти, не делая несколько проходов.

roof ★★ ()
Ответ на: комментарий от unikum
> ll
[[1]]
[1] 1

[[2]]
[[2]][[1]]
[1] 1

[[2]][[2]]
[1] 2

[[2]][[3]]
[1] 3

> as.data.frame(ll)
  X1 X1.1 X2 X3
1  1    1  2  3

> do.call(rbind,ll)
     [,1] [,2] [,3]
[1,] 1    1    1   
[2,] 1    2    3 

Все не то

roof ★★ ()
Ответ на: комментарий от roof

Загони их в column или отдельный df. Nested list неочевидны, глубина вложения сразу не видна. Кроме того, с ними сложно работать, толком индексировать и применять на них функции. Другими словами - это то самое явление на Ж, за которое нужно бить по рукам линейкой.

ptarh ★★★★★ ()
Ответ на: комментарий от ptarh

так отдельный df не сильно поможет, длина каждой строки разная. Можно про column поподробнее?

roof ★★ ()
Ответ на: комментарий от roof

Ну или добить по длине NA, или сохранять отдельными list, с говорящими названиями или сразу переходить на БД. Может кто еще вариант подскажет. Мне пару раз приходилось возиться с nested lists, так как, как помнится, именно в таком виде в R импортируются structures из матлаба, и у меня от этих воспоминаний до сих пор припекает.

ptarh ★★★★★ ()

Почему R такой тормозной?

anonymous ()
Ответ на: комментарий от roof

Это не проблема - dplyr::rbind_all адекватно обрабатывает этот случай.

unikum ★★★★★ ()
Ответ на: комментарий от WARNING

которые даже не удосуживаются проверить выборку на нормальность, прежде чем использовать нормальное распределение

ГОСПОДИ ТАКИЕ ЛЮДИ ЕЩЕ НА ЗЕМЛЕ ЕСТЬ!

Особенно «впи****», когда после даже выполненной (!) проверки вместо нужной параметрики юзают непараметрику - потом можно уже руки отрывать с мясом

bookman900 ★★★★★ ()
Ответ на: Спасибо! от dumka

Спасибо!

There are three kinds of lies: lies, damned lies, and statistics

Где-то в чирикалке я уже читал...это не Frederick Mosteller?

bookman900 ★★★★★ ()

Как-то пробовал пользоваться R, но с ходу не смог сообразить как реализовать обычное суммирование по группирующим переменным, что-то эквивалентное:

SELECT sum(x), sum(y) FROM data GROUP BY a, b

Помню, нагуглил какое-то решение, но очень уж оно коряво выглядело. Подскажите знающие люди, как такие конструкции правильно в R реализовать?

rst ()
Ответ на: комментарий от rst
# создаём таблицу данных
DF <- data.frame(x = 1:10, y = 11:20, grp = sample(letters[1:2], 10, replace = TRUE))
# рассчитываем сумму по группам
aggregate(x = DF[c("x", "y")], by = DF["grp"], FUN = sum)
#>   grp  x  y
#> 1   a 26 66
#> 2   b 29 89
unikum ★★★★★ ()
Ответ на: комментарий от rst

И, кстати, вы можете продолжать пользоваться языком SQL прямо в R. Посмотрите, например, пакет sqldf.

unikum ★★★★★ ()
Ответ на: комментарий от anonymous

Статистика - продажная девка!

С точки зрения тех, кто её не знает, да.

yvv ★★☆ ()
Ответ на: комментарий от WARNING

Увы, не меня к врачу надо, а добрую половину студентов/аспирантов, которые даже не удосуживаются проверить выборку на нормальность, прежде чем использовать нормальное распределение.

Ты ведь всё равно не знаешь, какое распределение у твоей выборки. Предположить что оно, распределение, нормальное - это нормально для студента.

yvv ★★☆ ()
Ответ на: комментарий от bookman900

Где-то в чирикалке я уже читал...это не Frederick Mosteller?

Википедия говорит, что:

The term was popularised in the United States by Mark Twain (among others), who attributed it to the 19th-century British Prime Minister Benjamin Disraeli (1804–1881): «There are three kinds of lies: lies, damned lies, and statistics.» However, the phrase is not found in any of Disraeli's works and the earliest known appearances were years after his death. Other coiners have therefore been proposed, and the phrase is often attributed to Twain himself.

https://en.wikipedia.org/wiki/Lies,_damned_lies,_and_statistics

dumka ★★ ()
Последнее исправление: dumka (всего исправлений: 2)

Спасибо большое! То что нужно.

einhander ★★★ ()

400 страниц в водрде!!! Сильно! Титанический труд.

P.S. В свойствах pdf стоит powerpoint как программа создания.

einhander ★★★ ()
Ответ на: комментарий от einhander

Даааа, то-то я смотрю шрифт какой-то непривычный. Это действительно круто, хотя ссылки на библиографию можно было тоже добавить.

Evgueni ★★★★★ ()
Ответ на: комментарий от roof

ну работай со списками, хотя есть специальные форматы хранения-выборки большого (больше чем возможности R) числа таких объектов на диске

даже базы данных заточенные под это есть (и они обсуждались на ЛОРе) :)

psv1967 ★★★★★ ()
Ответ на: комментарий от Evgueni

Некоторым кажется что изучать knitr некогда, «надо копать"ТМ :)

psv1967 ★★★★★ ()
Ответ на: комментарий от psv1967

Вот подобное было бы реально полезно. В смысле «Об R средствами R».

Evgueni ★★★★★ ()
Ответ на: комментарий от psv1967

Я мог бы составить компанию, но сам то я не спец в этом инструменте :(

Можно попробовать опять возродить серию по R в LXF — с моей стороны «причёсывание», проверка и доведение текста до статьи. Это было бы стимулом для создания свободных наработок в этом направлении.

Evgueni ★★★★★ ()
Ответ на: комментарий от Evgueni

1) Зато LaTeX очень даже при чем получается.

Литературное программирование + Воспроизводимая наука = (Sweave|knitr)

И само по себе ЛП целиком заслуга Кнута, а уж в R ЛП очень органично вписалось (как собственно и в сам TeX), поскольку самый важный результат это получить «текст с результатом исполнения кода».

Так что рассказать как «презентабельнее» оформить результат knitr со стороны чанков LaTeX кода будет то, что надо. Там и перехват выхлопа и написание своих правок и использование готовых расширений R по генерации LaTeX кода на основе объектов R.

2) Ну и инструмент замечательный в виде универсального по использованию внешнего кода org-mode и специализированного на статистике ess в emacs присутствует.

Как и альтернативы в других редакторах и средах разработки.

3) Думаю что если в сам pdf с помощью расширений LaTeX атачить еще данные и исходный текст knitr, то термин «воспроизводимая наука» только выиграет.

4) Еще один момент добавить распространение результатов работы в R в виде интерактивных яваскриптовых веб приложений (как облачных, так и автономных), то вообще великолепный цикл получиться.

psv1967 ★★★★★ ()
Ответ на: комментарий от psv1967

Я не знаю как там будет в обозримом будущем, да и выживет ли LXF, но если желание что-то сделать будет, то после Нового года можно обсудить темы и наметить план. И да, я считаю, что по возможности добро следует оплачивать, потому и план с LXF.

Evgueni ★★★★★ ()

Ой, какие интересные институты есть в ведомстве Фортова.

Stalin ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.