LINUX.ORG.RU

Литература по анализу данных

 , ,


0

2

Дорогой и уважаемый ЛОР!

Помоги пожалуйста разобрать кашу в голове.

Вот у меня есть определенный набор данных - например есть записи о событиях с таймштампами. Мне бы хотелось (в идеале) на основании этих данных построить модель, которая бы хотя бы с какой-нибудь долей вероятности спрогнозировать появление этих событий в будущем. Представление данных тоже интересно - так чтоб в человечьем формате другому человеку можно было пояснить за циферки. :)

Задача сама по себе не критичная, а просто как точка для приложения усилий для изучения новой темы.

Поэтому буду рад любым статьям\книгам\etc хотя бы даже в формате «для чайников» на эту тему.

✔ Шаг 1. Берёшь данные — подгоняешь прямой. Если результат не устраивает, то переходишь к шагу 2

✔ Шаг 2. Берёшь данные — подгоняешь полиномом второй степени. Если не устраивает, то переходишь к шагу 3

✔ Шаг 3. Берёшь данные — подгоняешь полиномом третьей степени. Если не устраивает, то переходишь к шагу 4

✔ Ну ты понял.

Ну а кроме шуток, то если прямой подогнать не получится, то придётся разобраться в своей области знаний и выбрать подходящую гипотезу — её и пытаешься подогнать под данные. Тут два исхода: либо получится, либо не получится. Во втором случае ищешь следующую гипотезу и т.д.

Как-то так: https://root.cern.ch/doc/master/fitLinearRobust_8C.html

Тут больше примеров: https://root.cern.ch/doc/master/group__tutorial__fit.html

Evgueni ★★★★★
()
Последнее исправление: Evgueni (всего исправлений: 3)

Мне бы хотелось (в идеале) на основании этих данных построить модель, которая бы хотя бы с какой-нибудь долей вероятности спрогнозировать появление этих событий в будущем.

«Нельзя объять необъятное», но сотворить можно: математическая модель ©.

буду рад любым статьям\книгам\etc хотя бы даже в формате «для чайников» на эту тему.

Математическая статистика для чайников ©.
Грас Джоэл Data Science. Наука о данных с нуля ©.
Возрадуйся! :)

quickquest ★★★★★
()
Ответ на: комментарий от Evgueni

Ты забыл добавить, что

1. возможны случаи, когда множество аппроксимирующих полиномов имеет несколько локальных оптимумов

2. апроксимация текущих значений может не давать корректного предсказания для будущих.

ТС, ты не с той стороны заходишь, разберись в процессе и построй его мат. модель.

ya-betmen ★★★★★
()
Ответ на: комментарий от ya-betmen

Ровно поэтому подгонку ничем кроме прямой человечество надёжно так и не осилило ☺ Преувеличение, но не такое уж и сильное.

Evgueni ★★★★★
()
Ответ на: комментарий от Evgueni

Немного не так. Надо поискать похожие исторические данные и подогнать под прямую с сезонностью либо под сигмоид, либо под логарифм в зависимости от типа процесса. А вот сигмойд хочешь - полиномом, хочешь - гиперболой аппроксимируй.

Совсем случайный процесс оценить статистически и просто посчитать вероятность.

Shadow ★★★★★
()
Последнее исправление: Shadow (всего исправлений: 2)
Ответ на: комментарий от ya-betmen

ТС, ты не с той стороны заходишь, разберись в процессе и построй его мат. модель.

Для меня это целое новое и незнакомое поле, поэтому почти наверняка я в него захожу не туда и не так :)

От этого топика не ожидаю конкретного прям решения задачки, а скорее направления меня умными словами которые я смогу загуглить :)

Насчет модели понял, пойду читать.

frunobulax ★★★★
() автор топика
Ответ на: комментарий от quickquest

Ещё, мать его, матан.

И аналитическая геометрия до кучи. 😁

И пусть только попробует не возрадоваццо. )))

sparkie ★★★★★
()
Ответ на: комментарий от Evgueni

Где-то была смешная картинка, десяток точек, примерно между ними проведена прямая, типа аппроксимировали, и рядом синусойда через все точки, типа реальный график.

ya-betmen ★★★★★
()
Последнее исправление: ya-betmen (всего исправлений: 1)

Гуглить анализ временных рядов? Вариант для ленивых - прикрутить нейросеть:-)

Но вообще пред. оратор прав - нужно сделать нехемульское усилие и построить мат.модель. Другое дело, что это иногда очень сложно.

AntonI ★★★★★
()

Надеюсь, что вы не выход из строя какой-нибудь установки на химическом заводе предсказываете :)

stave ★★★★★
()
Ответ на: комментарий от AntonI

Вариант для ленивых - прикрутить нейросеть:-)

Я бы не назвал это вариантом для ленивых, там же задалбаешься с обучением и коэффициентами.

ya-betmen ★★★★★
()
Ответ на: комментарий от ya-betmen

Ну оно же само учится на готовом наборе? Это куда проще для хумана- не надо ни в чем разбираться

пусть сама учится железная пила
не доя учёбы меня мама родила
AntonI ★★★★★
()
Ответ на: комментарий от quickquest

Грас Джоэл Data Science. Наука о данных с нуля ©.

Пролистал содержание - понял что я как раз в районе нуля :)

Не уверен за что клоунов наставили (кроме Димца и, да, раз уж на то пошло - считаю это преследование глупым). Может из-за питона или еще из-за чего, но решил её таки взять, буду изучать.

Надеюсь, что вы не выход из строя какой-нибудь установки на химическом заводе предсказываете :)

@stave Нее, ничего даже и близко настолько серьезного. Сами данные - всякая скучная бюрократическая статистика :)

Спасибо всем отметившимся!

frunobulax ★★★★
() автор топика
Ответ на: комментарий от Shadow

Это я не знаю, не пробовал, но полиномом таймстемпы событий апрроксимировать довольно странная идея.

AntonI ★★★★★
()
Ответ на: комментарий от ya-betmen

Вот я о том и толкую - нужно сначала представить, что это за функция, и потом аппроксимировать по ключевым точкам.

Shadow ★★★★★
()
Ответ на: комментарий от ya-betmen

Можно. Но:

  1. совершенно непонятно как такая функция соотносится с таймстемпами

  2. даже если как то и соотносится (и мы понимаем как), совершенно неочевидно что её аппроксимация полиномом будет хорошей.

AntonI ★★★★★
()
Ответ на: комментарий от Shadow

При curve fitting-е 99% успеха - угадать функцию. Обычные полиномы там далеко не всегда оптимальны:-)

AntonI ★★★★★
()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)