LINUX.ORG.RU

История изменений

Исправление Evgueni, (текущая версия) :

С точки зрения визуализации действительно больших данных выбор инструмента зависит от а) размера этих данных, б) от самих данных. Панацеи нет.

Самое производительная — это своя программа на C++/C/Fortran и Python/Perl как клей. Если данные реально большие, то обработку нужно параллелить. Хорошо, если это можно делать прямо на уровне данных.

Например, на ATLAS (детектор LHC) есть Athena — самописная питоновская среда, которая собирает программу обработки из C++ библиотек кодирующих алгоритмы обработки (по разным системам детектора, по физическим задачам и т.д.) в зависимости от заданной конфигурации обработки на лету.

Для обработки своего домашнего эксперимента я использовал набор самописных С++/C программ, использующие ряд самописных библиотек обработки, которые натравливались на сырые данные из весьма развесистого перловского скрипта и всё это могло запускаться параллельно на нескольких сотнях ядер кластера. Главное, чтобы за один прогон сразу выдавался результат с ошибкой, тогда итерации обработки можно проводить относительно быстро.

ROOT специально разрабатывался с оглядкой на то, что обрабатываемые данные могут не влезть в оперативку. В случае R всё должно в оперативке помещаться. Если помещается — используй R и радуйся, что твои данные не такие уж и большие :)

Глянь также в сторону MathGL — но это уже только визуализация, но красивая.

Исправление Evgueni, :

С точки зрения визуализации действительно больших данных выбор инструмента зависит от а) размера этих данных, б) от самих данных. Панацеи нет.

Самое производительная — это своя программа на C++/C/Fortran и Python/Perl как клей. Если данные реально большие, то обработку нужно параллелить. Хорошо, если это можно делать прямо на уровне данных.

Например, на ATLAS (детектор LHC) есть Athena — самописная питоновская среда, которая собирает программу обработки из C++ библиотек кодирующих алгоритмы обработки (по разным системам детектора, по физическим задачам и т.д.) в зависимости от заданной конфигурации обработки на лету.

Для обработки своего домашнего эксперимента я использовал набор самописных С++/C программ, использующие ряд самописных библиотек обработки, которые натравливались на сырые данные из весьма развесистого перловского скрипта и всё это могло запускаться параллельно на нескольких сотнях ядер кластера. Главное, чтобы за один прогон сразу выдавался результат с ошибкой, тогда итерации обработки можно проводить относительно быстро.

ROOT специально разрабатывался с оглядкой на то, что обрабатываемые данные могут не влезть в оперативку. В случае R всё должно в оперативке помещаться. Если помещается — используй R и радуйся, что твои данные не такие уж и большие :)

Глянь также в сторону mathGL — но это уже только визуализация, но красивая.

Исправление Evgueni, :

С точки зрения визуализации действительно больших данных выбор инструмента зависит от а) размера этих данных, б) от самих данных. Панацеи нет.

Самое производительная — это своя программа на C++/C/Fortran и Python/Perl как клей. Если данные реально большие, то обработку нужно параллелить. Хорошо, если это можно делать прямо на уровне данных.

Например, на ATLAS (детектор LHC) есть Athena — самописная питоновская среда, которая собирает программу обработки из C++ библиотек кодирующих алгоритмы обработки (по разным системам детектора, по физическим задачам и т.д.) в зависимости от заданной конфигурации обработки на лету.

Для обработки своего домашнего эксперимента я использовал набор самописных С++/C программ, использующие ряд самописных библиотек обработки, которые натравливались на сырые данные из весьма развесистого перловского скрипта и всё это могло запускаться параллельно на нескольких сотнях ядер кластера. Главное, чтобы за один прогон сразу выдавался результат с ошибкой, тогда итерации обработки можно проводить относительно быстро.

ROOT специально разрабатывался с оглядкой на то, что обрабатываемые данные могут не влезть в оперативку. В случае R всё должно в оперативке помещаться. Если помещается — используй R и радуйся, что твои данные не такие уж и большие :)

Исходная версия Evgueni, :

С точки зрения визуализации действительно больших данных зависит от а) размера этих данных, б) от самих данных.

Самое производительная — это своя программа на C++/C/Fortran и Python/Perl как клей. Если данные реально большие, то обработку нужно параллелить. Хорошо, если это можно делать прямо на уровне данных. Например на ATLAS (детектор LHC) есть Athena — самописная питоновская среда, которая собирает программу обработки из C++ библиотек в зависимости от заданной конфигурации обработки на лету. Для обработки своего домашнего эксперимента я использовал набор самописных С++/C программ, использующие ряд самописных библиотек обработки, которые натравливались на сырые данные из весьма развесистого перловского скрипта и всё это могло запускаться параллельно на нескольких сотнях ядер кластера. Главное, чтобы за один прогон сразу выдавался результат с ошибкой, тогда итерации обработки можно проводить относительно быстро.

ROOT специально разрабатывался с оглядкой на то, что обрабатываемые данные могут не влезть в оперативку. В случае R всё должно в оперативке помещаться. Если помещается — используй R и радуйся, что твои данные не такие уж и большие :)