LINUX.ORG.RU

Посоветуйте пожалуйста математическую библиотеку


0

0

Уважаемые жители и гости этого форума!

Предистория: ударился я немного в DataMining, однако с матчастью у меня туговато, поэтому подтягиваю матстатистику своими силами.

Необходимо построить регрессионную модель, в принципе сложностей нет, однако все мои «преподаватели-консультанты» советуют использовать MS Excel (Тут наверное должна быть НЕНАВИСТЬ, однако я считаю Эксель неплохим продуктом). Соотв. получаем выборку данных, строим гистрограммы и ВРУЧНУЮ из массива данных выбрасываем пики и спады (О_о). И, хотя модели достаточно простые, статистические критерии к выборкам не применяются, все на глаз.

Массивы данных достаточно объемные, мне хотелось бы как-то это дело автоматизировать. Статистика может поступать в двух видах, либо это книги пресловутого Экселя, либо распечатки каких-то древних программ на бумаге. В любом случае получение информации не представляется очень сложным, даже без установленного офтопика с МС ОФЕС.

Грубо говоря систему я представляю в таком виде: в нее какими-то путями загружается статистика, она ее обрабатывает и выдает отчет с моделями и рекомендациями. Детали процесса не важны в данном случае.

Суть проблемы: хотелось бы полной автоматизации процесса обработки данных и построения моделей в итоге, алгоритмы есть, однако я теряюсь в выборе математической библиотеки.

Поэтому, прошу вашей помощи по вопросам:

1) Существуют ли библиотеки, позволяющие работать с матстатистикой для какого-нибудь достаточно известного языка, например Си или Руби/Питона? Как я понимаю, мне достаточно численных вычислений. (Разницу между символьными и численными понимаю смутно)

2) Возможно, есть какие-то интерфесы для доступа к существующим системам, к примеру к Maxima (исключая терминальный режим, хотя, тоже вариант, на крайний случай). Интересуют именно внешний способ взаимодействия (вызвал программу, дал инструкции, результат куда-то сложили, закрыл, обработал во внешней программе), а не внутренние скриптовые языки.

3) Возможно в самой постановке задачи есть ошибка? Может быть есть какие-то альтернативные способы решения?

Графики строить предполагаю gnuplot'ом, из библиотек сейчас нашел и пытаюсь изучать следующие: http://www.scimath.com/ http://www.thefreecountry.com/sourcecode/mathematics.shtml http://www.wessa.net/

Еще часто мелькает S.A.G.E но меня пугает его размер, и назначение я не совсем понял.

Предпочтение я отдаю кроссплатформенным библиотекам, потом библиотеки только под *nix и все, Виндоус-онли не надо. Си меня интересует потому, что хочу интегрировать эти библитеки с Руби. Если же выхода не будет, выучу Питон.

P.S. Может быть кто-то посоветует толковый учебник по матстатистике?

Благодарю за внимание.

1) Посмотрите на Gnu Scientific Library (libGSL)

2) Результаты, ИМХО, удобнее всего визуализировать при помощи gnuplot

Eddy_Em ☆☆☆☆☆
()

Спасибо большое за ответы, видимо, остановлюсь на R
> Advanced users can write C code to manipulate R objects directly.

workForFood
() автор топика

>>преподаватели-консультанты" советуют использовать MS Excel

На кол таких. R и только он.

gkrellm
()

R - самый предпочтительный выбор. А зачем Ruby для данной задачи (просто интересно, интерфейс к Ruby вроде есть на sf)? Все перечисленное можно сделать в R - от чтения данных и их обработки до построения гистограмм (даже удаление "пиков" и "спадов" атоматизировать)

oami ★★
()

Может быть кто-то посоветует толковый учебник по матстатистике?

Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. http://www.infanata.org/science/1146109026-kobzar-a.-i.-prikladnaja-matematic...

А ещё книжки по мат.статистике можно скачать: http://eqworld.ipmnet.ru/ru/library/mathematics/probability.htm

>из массива данных выбрасываем пики и спады (О_о).

Дэйвид Г. Порядковые статистики. М.: Наука, 1979 (djvu)

>И, хотя модели достаточно простые, статистические критерии к выборкам не применяются, все на глаз.

А потом удивляются, что "есть ложь, большая_ложь и статистика" :)

quickquest ★★★★★
()

http://root.cern.ch/
кроссплатформeнная, язык C/C++, включая интерпретатор,
графика превосходящая gnuplot.
включает модули по работе с матрицами, математика, статистика
(в том числе GSL wrappers), фитирование, гистограммирование,
и кучу всего прочего ...

Valeriy_Onuchin ★★
()
Ответ на: комментарий от Valeriy_Onuchin

позволяет производить _всё_, включая картинки в GIF/PNG/JPG/PS/PDV/SVG
форматах, в batch-mode

Valeriy_Onuchin ★★
()

R,root :)

sage это большая и злая питоновская штука с возможностью подключения различных других пакетов типа axiom,maxima,maple,mathematica, etc.

qnikst ★★★★★
()
Ответ на: комментарий от oami

Это одна из многих задач, я бы сказал самая простая, на Руби уже есть некоторые наработки в других областях, плюс, хотелось бы завернуть систему в веб-интерфес.

workForFood
() автор топика

> Соотв. получаем выборку данных, строим гистрограммы и ВРУЧНУЮ из массива данных выбрасываем пики и спады (О_о). И, хотя модели достаточно простые, статистические критерии к выборкам не применяются, все на глаз.

Для этого есть робастные методы оценки параметров регрессий. Которые, кстати, очень и очень неплохо работают.

balodja ★★★
()

>> http://root.cern.ch/ кроссплатформeнная, язык C/C++, включая интерпретатор
Спасибо, посмотрю, хотя, наверное уже на R останусь.

>> Для этого есть робастные методы оценки параметров регрессий.

Болшое спасибо, на подобные методы еще не натыкался, теперь знаю в какую сторону смотреть.

workForFood
() автор топика
Ответ на: комментарий от workForFood

>> http://root.cern.ch/ кроссплатформeнная, язык C/C++, включая интерпретатор

> Спасибо, посмотрю, хотя, наверное уже на R останусь.

Честное слово, не стоит. Этот ROOT кошмар редкостный, R насного приятнее. Если данные в память влезают лучше им пользоваться.

Shimuuar
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.