SciDB - 13.6

Вышла новая версия проекта SciDB и Paradigm4 extensions - 13.6

SciDB - проект Майка Стоунбрейкера, отца многих СУБД. SciDB - версионируемая СУБД для аналитики, работающая с большими многомерными распределёнными массивами.

Доступны два вида синтаксиса:

Array Query Language (AQL) — язык очень похожий на SQL, но работающий не с таблицами (таблица = одномерный массив), а с многомерными массивами;
Array Functional Language (AFL) — «чистый» в функциональном смысле полностью эквивалентный AQL язык.

Партицирование данных и запросов, линейная алгебра, математическая статистика и машинное обучение из коробки.

С момента предыдущей новости про версию 12.2 про SciDB выходило две минорные версии - 13.1 и 13.3.

Изменения (по сравнению с версией 12.12) включают в себя:

Интеграция
- JDBC коннектор - теперь запросы можно запускать из java
- SciDB R-package - поддержка языка R
- ScaLAPACK теперь доступен для всех платформ - CentOS 6, RedHat 6, Ubuntu 12.04 LTS (ранее была лишь Ubuntu)
- интеграция с Intel Math Kernel Library - ускорение запросов с линейной алгебры в 10-12 раз (!)
- Добавлены deployment скрипты для установки SciDB на кластер
Исправления
- Исправление критичного бага по работе со строками
- Существенно улучшена производительность redimension_store (оператор по созданию измерения из аттрибута)
- Улучшена производительность оператора window (оконные вычисления функций)
- NOT EMPTY (dense) массивы deprecated и не рекомендуются более к использованию
Новые операторы
- Оператор GEMM - General Matrix Multiply
- Оператор GESVD - Generalized Singular Value Decomposition
- Оператор TSVD - Truncated Singular Value Decomposition
- Оператор GML - Generalized Linear Model

>>> Скачать (требуется регистрация)

Ссылка

← Поволжский IT Camp 2013

Вышло обновление программы HTTraQt →

← 1 2 →

От себя хочу добавить, что транзакций там нет

catap ★★★★★
(08.07.13 21:18:49 MSK)

Ответ на: комментарий от catap 08.07.13 21:18:49 MSK

Конкурентной записи в один и тот же массив - нету, это да.

zabivator
(08.07.13 21:25:47 MSK) автор топика

Ссылка

Официальный анонс и ссылки на скачивание появятся в ближайшее время

zabivator
(08.07.13 21:27:43 MSK) автор топика

Ссылка

А это поделие до сих пор может ставится только на RedHat и компанию?

naryl ★★★★★
(08.07.13 21:32:57 MSK)

Ответ на: комментарий от naryl 08.07.13 21:32:57 MSK

В посте сказано: CentOS/RedHat 6, Ubuntu 12.04 LTS

zabivator
(08.07.13 21:35:15 MSK) автор топика

Ссылка

годнота

Слежу за ней с 2009, как увидел её на GDD.

Woofywoof ★
(08.07.13 22:22:54 MSK)

Ссылка

«чистый» в функциональном смысле

это как?

anonymous
(08.07.13 22:56:50 MSK)

Где применяют такую штуку? Есть примеры из реальности? Может, кто-то сталкивался лично?

boo32 ★
(08.07.13 23:07:11 MSK)

Ответ на: комментарий от catap 08.07.13 21:18:49 MSK

От себя хочу добавить, что транзакций там нет

А они там нужны?

DNA_Seq ★★☆☆☆
(08.07.13 23:19:00 MSK)

Ссылка

Ответ на: комментарий от anonymous 08.07.13 22:56:50 MSK

это как?

Без побочный эффектов

zabivator
(08.07.13 23:23:54 MSK) автор топика

Ссылка

Ответ на: комментарий от boo32 08.07.13 23:07:11 MSK

Сходите по ссылке в новость полугодовой давности Вышла новая версия SciDB

Там есть примеры

zabivator
(08.07.13 23:24:24 MSK) автор топика

Ссылка

о! хорошая новость!

R интерфейс теперь доступен бесплатно!

Listing 13 illustrates computation of a few largest singularvalues and associated singular vectors of a 50, 000 × 50, 000 matrix with random entries (consuming about 18 GB). That problem large enough that it can’t be computed easily in R–the matrix is too large to even represent in R version 2 (although that changes soon in R version 3).

PS но у вас появился конкурент, в области больших данных, в виде связки hdf и pbd

psv1967 ★★★★★
(08.07.13 23:41:37 MSK)
Последнее исправление: psv1967 08.07.13 23:42:25 MSK (всего исправлений: 1)

Ответ на: комментарий от psv1967 08.07.13 23:41:37 MSK

PS но у вас появился конкурент, в области больших данных, в виде связки hdf и pbd

Это кто?

zabivator
(09.07.13 00:08:55 MSK) автор топика

Ответ на: комментарий от zabivator 09.07.13 00:08:55 MSK

http://cran.r-project.org/web/packages/pbdDMAT/index.html

http://cran.r-project.org/web/packages/pbdDEMO/index.html

http://cran.r-project.org/web/packages/pbdNCDF4/index.html

psv1967 ★★★★★
(09.07.13 00:16:37 MSK)

А разве Intel MKL не проприетарна?

aptyp ★★★★
(09.07.13 06:06:49 MSK)

Ответ на: комментарий от psv1967 09.07.13 00:16:37 MSK

Ээээ, SciDB это не только не способ доступа к данным — это прежде всего система хранения (добавления и чтения) данных петабайтных объёмов с использованием кластера. Вещи совершенно разного уровня.

Evgueni ★★★★★
(09.07.13 06:54:47 MSK)

Ответ на: комментарий от Evgueni 09.07.13 06:54:47 MSK

система хранения (добавления и чтения) данных петабайтных объёмов с использованием кластера.

Простите за глупый вопрос, но у оракла ведь тоже есть для этого продукт. Чем SciDB лучше? Или я ничего не понял и сравнил люстру с велосипедом ?

dada ★★★★★
(09.07.13 09:10:16 MSK)

Добавлены deployment скрипты для установки SciDB на кластер

Под словом «кластер» может иметься в виду целая куча разных вещей.

Например, «кластер» из head-ноды и 10 вычислительных нодов, на которых на каждой по отдельности стоит система и добавлены вручную пользователи. Как на такой кластер развернуть ПО? Конечно, нужна система централизованного управления кластером - именно ее задачей и станет установка разного ПО однотипным способом, предусматривающим какой-то способ совместной работы с этим ПО.

А может кластер быть целиком или почти целиком грузящимся из сети и монтирующим какой-нибудь /opt через nfs/lustre/что-то-ещё - тогда для установки ПО нужно устанавливать его всего-то на тот узел, который его экспортирует.

Так что имеется в виду под «deployment скриптами для установки SciDB на кластер»?

pianolender ★★★
(09.07.13 09:14:35 MSK)

Ответ на: комментарий от dada 09.07.13 09:10:16 MSK

Тем, что не Oracle, который дорогой и ненужный?

Если я правильно понимаю, то SciDB — это весьма специализированная вундервафля в основном для целей научников, которым по большому счёту пофиг на сертификаты и которых интересует результат.

Evgueni ★★★★★
(09.07.13 09:25:16 MSK)
Последнее исправление: Evgueni 09.07.13 09:27:49 MSK (всего исправлений: 1)

Ответ на: комментарий от Evgueni 09.07.13 09:25:16 MSK

Я имею в виду, что как правило, необходимые решения в этих случаях являются весьма нестандартными и по любому их приходится допиливать руками. Открытые платформы до нужного вида допиливать проще.

Evgueni ★★★★★
(09.07.13 09:41:06 MSK)

Ссылка

ох уж...

таблица != одномерный массив

таблица - двумерный массив!!!

anonymous
(09.07.13 09:47:42 MSK)

Ответ на: ох уж... от anonymous 09.07.13 09:47:42 MSK

Таблица в db - это одномерный массив структур вида (имя, номер, количество ног).

pianolender ★★★
(09.07.13 09:52:49 MSK)

Ответ на: комментарий от pianolender 09.07.13 09:14:35 MSK

О, вы не разу не имели дела с HPC кластером

Стоило хотя бы посмотреть, что он поддерживает MPICH и с новым релизом планирует переехать на большие компьютеры. Это обычный вычислительный кластер, который входит в состав Grid`а.

Woofywoof ★
(09.07.13 09:55:17 MSK)

Ответ на: О, вы не разу не имели дела с HPC кластером от Woofywoof 09.07.13 09:55:17 MSK

О, вы не разу не имели дела с HPC кластером

Зря вы так.

Стоило хотя бы посмотреть, что он поддерживает MPICH и с новым релизом планирует переехать на большие компьютеры.

Он - это SciDB? А что такое большие компьютеры?

Это обычный вычислительный кластер, который входит в состав Grid`а.

Кто обычный вычислительный кластер? SciDB? А Grid - это какое-то конкретное решение? Какое? Насколько я знаю, этим словом обычно обозначают распределенную вычислительную систему как таковую.

pianolender ★★★
(09.07.13 09:59:26 MSK)

Ответ на: комментарий от pianolender 09.07.13 09:59:26 MSK

Это обычное решение в котором есть коммутационный(ые) узел(ы), вычислительные мощности отдельно и отдельно хранилище данных. От топологии решения зависит только скорость(ещё надежность и отказоустойчивость, но это дело не моё, а системных администраторов). Помимо нагрузки на файловую систему она также станет зависеть и от БД, поскольку БД может оптимизировать запись на диск. Вы хотите замеры производительности? Кластер - это решение с однородной архитектурой(x86,cell, гибридная CPU+GPU), а Grid может состоять из нескольких кластеров с разной.

Про что такое большие компьютеры я говорить не буду.

Woofywoof ★
(09.07.13 10:12:25 MSK)

Ответ на: комментарий от pianolender 09.07.13 09:52:49 MSK

Так можно что угодно свести к одномерному массиву.

Binary ★★★★★
(09.07.13 10:16:54 MSK)

Ответ на: комментарий от Woofywoof 09.07.13 10:12:25 MSK

Я спрашивал, что такое «deployment скрипты для установки SciDB на кластер». Это примерно как «установщик для установки программы на пользовательское устройство» - как минимум, на кластере может быть разная ОС, да и модель доставки ПО до пользователей кластера тоже может быть очень разная.

Что скрывается за формулировкой этого пункта?

pianolender ★★★
(09.07.13 10:18:40 MSK)

Ответ на: комментарий от Binary 09.07.13 10:16:54 MSK

Не, ну реально - это одномерная структура данных, скорее даже, не массив, а линейный список. Я же не могу просто взять и добавить элемент в матрицу - там же строки есть и столбцы, и структура определенная, а тут берешь да добавляешь строчку, прямо как в списке.

pianolender ★★★
(09.07.13 10:20:48 MSK)

Ответ на: комментарий от aptyp 09.07.13 06:06:49 MSK

Да. Она включена в проприетарное расширение - P4

zabivator
(09.07.13 10:35:34 MSK) автор топика

Ссылка

Ответ на: О, вы не разу не имели дела с HPC кластером от Woofywoof 09.07.13 09:55:17 MSK

Поддержка MPI - это эпопея длиной в год. Сначала пытались прикрутить OpenMPI. Огромное количество багов вылезло. Перешли на MPICH2. Оно работает нормально, единственное что, в Ubuntu версия 1.4 - а версия с 1.3 по 1.4 имеет race condition, и на кластере не работает.

В итоге на всех платформах сейчас 1.2.

Работает следующим образом - на каждом компе SciDB запускает mpi slave, которые получает задания/данные для вычисления по shared memory и пускает mpich2, мониторит его, читает результаты и отдаёт назад SciDB.

zabivator
(09.07.13 10:38:49 MSK) автор топика

Ответ на: комментарий от pianolender 09.07.13 10:18:40 MSK

Набор скриптов, который автоматизирует установку и настройку SciDB и SciDB кластера.

./deployment/deploy.sh scidb_install <username> <host list> ./deployment/deploy.sh scidb_prepare <options> <coordinator>

zabivator
(09.07.13 10:40:34 MSK) автор топика

Ответ на: комментарий от Binary 09.07.13 10:16:54 MSK

Реляционная таблица - одномерная структура данных. Пусть вас не смущают атрибуты - они не являются измерением, поскольку 1) колонки в таблице обычно разных типов 2) вы не можете произвольно удалять и добавять атрибуты, в то время как строчки вы вставляете, обновляете и удаляете произвольно 3) по «измерения» атрибуты у вас нету данных как таковых.

zabivator
(09.07.13 10:42:48 MSK) автор топика

Ссылка

Ответ на: комментарий от zabivator 09.07.13 10:40:34 MSK

SciDB кластера.

То есть имеется в виду интеграция с неким конкретным, кластерным, решением от того же производителя. Ок.

pianolender ★★★
(09.07.13 10:55:06 MSK)

Ссылка

Ответ на: комментарий от pianolender 09.07.13 10:20:48 MSK

Можно рассматривать как массив, элементы которого индексируются RowID. Другой вопрос в том, что к RowID пользователи прямого доступа не имеют.

Тогда уж не список, а множество. Собственно говоря множество инстансов структуры - наиболее верное понимание реляционной таблицы. Поля структуры => Колонки таблицы. Записи => Элементы множества

zabivator
(09.07.13 10:57:05 MSK) автор топика

Ответ на: комментарий от zabivator 09.07.13 10:57:05 MSK

Одномерная структура, короче. Спасибо за поддержку :)

pianolender ★★★
(09.07.13 10:58:00 MSK)

Ответ на: комментарий от pianolender 09.07.13 10:58:00 MSK

Мне каждый раз это объяснять приходится. Люди свято уверены, что таблица в реляционке - двумерная структура данных

zabivator
(09.07.13 11:08:03 MSK) автор топика

Ответ на: комментарий от zabivator 09.07.13 11:08:03 MSK

Мне сейчас люди - пользователи некоего решения, развернутого мной, а предварительно описанного ими с очень высокой степенью подробности - предлагали перезагрузить железный сервер, мотивируя это тем, что vncserver (часть обсуждаемого решения) они не могут перезапустить без прав администратора. Когда я предположил, что он запущен в контексте их учетной записи, и вполне может быть грохнут ими, они сказали, что пид искать долго и сложно. Причем это один из немногих пользователей среди более, чем 1500, которые умеют обращаться с линуксом..

pianolender ★★★
(09.07.13 11:12:56 MSK)

Ссылка

Ответ на: комментарий от zabivator 09.07.13 11:08:03 MSK

Расскажите им, какие кары ждут того, что закладывает в технические решения штатные alter table :)

pianolender ★★★
(09.07.13 11:13:40 MSK)

Ответ на: комментарий от pianolender 09.07.13 11:13:40 MSK

Линейное от размера таблицы время работы. Больше никаких, вроде.

zabivator
(09.07.13 11:21:17 MSK) автор топика

Ответ на: комментарий от zabivator 09.07.13 11:21:17 MSK

Не, ну это же с архитектурной точки зрения ламерство по идее - использовать в продакшене alter.

pianolender ★★★
(09.07.13 11:50:55 MSK)

Ссылка

интеграция с Intel Math Kernel Library - ускорение запросов с линейной алгебры в 10-12 раз (!)

«Если в новой версии какя-то функция работает в 20-ть раз быстрее, то это говорить о том, что раньше было реализовано через ...(криво).» - с Oracle конференции

А вообще Intel Math Kernel Library не самая быстрая реализация BLAS.

anonymous
(09.07.13 11:55:21 MSK)

Ссылка

Ответ на: комментарий от zabivator 09.07.13 10:38:49 MSK

MPICH2 даже InfiniBand не поддерживает. Без это какие кластеры ??? У меня дома даже оно есть. 200 наносекунд задержка между хостами без коммутатора если.

А вообще MVAPICH2 крутая штука - MPI 3 реализует.

anonymous
(09.07.13 12:02:27 MSK)

Ссылка

Ответ на: комментарий от Evgueni 09.07.13 06:54:47 MSK

но hdf + кластерная файловая обеспечивает тоже самое?

psv1967 ★★★★★
(09.07.13 13:32:04 MSK)

Ответ на: комментарий от pianolender 09.07.13 10:58:00 MSK

А матрица - одномерный набор векторов. ага. ИМХО, «таблица», по определению, не может быть одномерной. Вообще говоря применение слова «матрица» к таблице неправомерно, ранее кто-то на это указал, но из этого никак не следует, что таблица является одномерной.

anonymous
(09.07.13 13:38:17 MSK)

Ответ на: комментарий от anonymous 09.07.13 13:38:17 MSK

Таблица в бд является одномерным массивом, уже обсудили.

pianolender ★★★
(09.07.13 13:45:42 MSK)

Ответ на: комментарий от zabivator 09.07.13 10:57:05 MSK

ArrayQL

Если вы уж знаете, то в SciDB массивы хранятся по строкам или по столбцам(aka Fortran-like)? Можно ли указать?

Woofywoof ★
(09.07.13 13:57:57 MSK)

Ответ на: комментарий от psv1967 09.07.13 13:32:04 MSK

СУБД это вообще-то нечто большее. Оно позволяет не страдать о сохранности и консистентности данных (при выполнении стандартных процедур, естественно — их не нужно изобретать, так как они просто есть из коробки) и иметь доступ к ней отовсюду (в случае PostgreSQL, например нам требовался доступ из под VAX/VMS). В ряде случаев это сильно замедляет скорость доступа, но зато резко увеличивает возможности с расширением этого ряда.

Evgueni ★★★★★
(09.07.13 14:24:23 MSK)
Последнее исправление: Evgueni 09.07.13 14:28:46 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Evgueni 09.07.13 09:25:16 MSK

научников, которым по большому счёту пофиг на сертификаты и которых интересует результат.

Это из-за того, что ценность этих данных не очень высока. Но когда встанет вопрос о страховке базы, без оракл или ibm тут не обойтись.

anonymous
(09.07.13 14:45:43 MSK)

Ответ на: комментарий от anonymous 09.07.13 14:45:43 MSK

Не совсем так. Просто люди реально вынуждены понимать, что они делают и в каких пределах они работают. Им не нужен продукт — им нужно решение, что гораздо дешевле и эффективнее, но работает только под определённую задачу.

Ну и никакая страховка не вернёт потерянные экспериментальные данные. Тут только распределённые бэкапы.

Evgueni ★★★★★
(09.07.13 14:53:01 MSK)

Ответ на: комментарий от Evgueni 09.07.13 14:53:01 MSK

Решение не эффективное и страшно дорогое по трудозатратам и в поддержке, поскольку его делают физики, химики или биологи которые программируют как уроды. Вы же болты сами не точите, а заказываете, и тут такая же ситуация.

anonymous
(09.07.13 15:02:44 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

← Поволжский IT Camp 2013

Open Source

Вышло обновление программы HTTraQt →

годнота

ох уж...

О, вы не разу не имели дела с HPC кластером

ArrayQL

Похожие темы