Визуализация большого количества больших чисел

big data, r, анализ данных, визуализация, статистика

0

3

Есть список из 10-тизначных чисел. Этих чисел по крайней мере 500 тысяч (это минимум). У каждого из них есть порядковый номер в этом списке.

Мне бы хотелось увидеть все эти числа в виде точек в двухмерной системе координат, где X - это порядковый номер числа в списке, а Y - величина числа.

Нужно внимательно рассмотреть отдельные участки этой панорамы с высокой детализацией (т.е., видимо, придется увеличивать в отдельных местах).

Интересуют соответствующие программы для онтопика, которые помогут всё детально рассмотреть. А так ваше мнение о видеокартах, которые лучше для этого использовать.

Перемещено beastie из talks

Ссылка

←	MSP430F1232

Может, я чего-то не понимаю в корпусах микросхем?

→

1. Обязательна на Р?
2. Почему в толкс?

ymuv ★★★★
(18.02.15 00:39:00 MSK)

А так ваше мнение о видеокартах, которые лучше для этого использовать.

ИМХО, тут не в видео упирается, а в ОЗУ.

ymuv ★★★★
(18.02.15 00:39:57 MSK)

Ответ на: комментарий от ymuv 18.02.15 00:39:00 MSK

1. Обязательна на Р?

Совершенно необязательно, но было бы во всяком случае интересно узнать, если у кого-то был такой опыт. И потом будет нужен именно статистический анализ этих данных.

2. Почему в толкс?

Тема выполняет минимальные требования для толксов. Интересны любые рассуждения.

ИМХО, тут не в видео упирается, а в ОЗУ.

Работал сервер IBM с 24Gb. Ещё добавить не получится (в этот сервер, но можно взять ещё один).

Deleted
(18.02.15 01:01:00 MSK)
Последнее исправление: Deleted 18.02.15 01:02:42 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от ymuv 18.02.15 00:39:57 MSK

ИМХО, тут не в видео упирается, а в ОЗУ.

С чего бы это? Числа достаточно маленькие, чтобы влезть в __int64 (C++ M$) или в онтопике с g++ должны влезть в int64_t. Размер одного числа - 64 бита - 8 байт. Все числа (сразу для лимона будем считать) - 8 000 000 байт или грубо округляя - 8 мегабайт и того не так уж и много, чтоб в память не влезть, даже на достаточно убогом железе.

peregrine ★★★★★
(18.02.15 01:24:53 MSK)

Ссылка

http://root.cern.ch — пишешь простейший скрипт, пофит.

R тоже потянет со свистом.

Evgueni ★★★★★
(18.02.15 06:08:43 MSK)
Последнее исправление: Evgueni 18.02.15 06:09:50 MSK (всего исправлений: 2)

#!/usr/bin/env python
import numpy as np
import matplotlib.pyplot as plt
data = np.loadtxt('your_file')
plt.figure()
plt.plot(data)
plt.show()

Собсна, всё. Можно масштабировать, двигать, грабить корованы. Видеокарта не нужна, достаточно нормального процессора уровня i5.

Axon ★★★★★
(18.02.15 09:34:55 MSK)
Последнее исправление: Axon 18.02.15 09:36:06 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от Evgueni 18.02.15 06:08:43 MSK

Осилил и то, и другое. Использую всё же R (оказалось проще для конкретной задачи, с root было тяжко).

Но вот вопрос: с точки зрения визуализации больших данных, что более производительное и что имеет больше возможностей вообще?

И ещё. Скажем так, мне нужен инструмент, который не остановят реально большие числа в больших количествах.

С другой стороны, хочется использовать что-то универсальное, что, как python, не будет темным лесом для других исследователей.

Спасибо за совет по поводу root, добавлю себе в репертуар )

Deleted
(16.03.15 21:04:19 MSK)
Последнее исправление: Deleted 16.03.15 21:07:25 MSK (всего исправлений: 6)

Ответ на: комментарий от Deleted 16.03.15 21:04:19 MSK

С точки зрения визуализации действительно больших данных выбор инструмента зависит от а) размера этих данных, б) от самих данных. Панацеи нет.

Самое производительная — это своя программа на C++/C/Fortran и Python/Perl как клей. Если данные реально большие, то обработку нужно параллелить. Хорошо, если это можно делать прямо на уровне данных.

Например, на ATLAS (детектор LHC) есть Athena — самописная питоновская среда, которая собирает программу обработки из C++ библиотек кодирующих алгоритмы обработки (по разным системам детектора, по физическим задачам и т.д.) в зависимости от заданной конфигурации обработки на лету.

Для обработки своего домашнего эксперимента я использовал набор самописных С++/C программ, использующие ряд самописных библиотек обработки, которые натравливались на сырые данные из весьма развесистого перловского скрипта и всё это могло запускаться параллельно на нескольких сотнях ядер кластера. Главное, чтобы за один прогон сразу выдавался результат с ошибкой, тогда итерации обработки можно проводить относительно быстро.

ROOT специально разрабатывался с оглядкой на то, что обрабатываемые данные могут не влезть в оперативку. В случае R всё должно в оперативке помещаться. Если помещается — используй R и радуйся, что твои данные не такие уж и большие :)

Глянь также в сторону MathGL — но это уже только визуализация, но красивая.

Evgueni ★★★★★
(16.03.15 21:20:13 MSK)
Последнее исправление: Evgueni 16.03.15 21:24:45 MSK (всего исправлений: 3)

Ответ на: комментарий от Evgueni 16.03.15 21:20:13 MSK

У тебя что-то связанное с GISами. У этих ребят свой набор велосипедов, в том числе и самописных.

Evgueni ★★★★★
(16.03.15 21:25:59 MSK)

Ссылка

Халява-то какая! Просто в OpenGL'е точек нарисуй толпу, да рассматривай себе.

~~Eddy_Em~~ ☆☆☆☆☆
(16.03.15 21:29:42 MSK)

Ссылка

P.S. Я для красивого отображения фитсов рисовал их в 3D (X-Y-интенсивность), для изображения 4000х4000 получается почти 16млн треугольников. Торможение (пару-тройку секунд) только вначале, пока VBO заполняется. Дальше все шустро.

~~Eddy_Em~~ ☆☆☆☆☆
(16.03.15 21:32:24 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	MSP430F1232

Science & Engineering

Может, я чего-то не понимаю в корпусах микросхем?

→

Похожие темы