LINUX.ORG.RU

SciDB - 13.6

 , , ,


2

3

Вышла новая версия проекта SciDB и Paradigm4 extensions - 13.6

SciDB - проект Майка Стоунбрейкера, отца многих СУБД. SciDB - версионируемая СУБД для аналитики, работающая с большими многомерными распределёнными массивами.

Доступны два вида синтаксиса:

  • Array Query Language (AQL) — язык очень похожий на SQL, но работающий не с таблицами (таблица = одномерный массив), а с многомерными массивами;
  • Array Functional Language (AFL) — «чистый» в функциональном смысле полностью эквивалентный AQL язык.

Партицирование данных и запросов, линейная алгебра, математическая статистика и машинное обучение из коробки.

С момента предыдущей новости про версию 12.2 про SciDB выходило две минорные версии - 13.1 и 13.3.

Изменения (по сравнению с версией 12.12) включают в себя:

  • Интеграция
    • JDBC коннектор - теперь запросы можно запускать из java
    • SciDB R-package - поддержка языка R
    • ScaLAPACK теперь доступен для всех платформ - CentOS 6, RedHat 6, Ubuntu 12.04 LTS (ранее была лишь Ubuntu)
    • интеграция с Intel Math Kernel Library - ускорение запросов с линейной алгебры в 10-12 раз (!)
    • Добавлены deployment скрипты для установки SciDB на кластер
  • Исправления
    • Исправление критичного бага по работе со строками
    • Существенно улучшена производительность redimension_store (оператор по созданию измерения из аттрибута)
    • Улучшена производительность оператора window (оконные вычисления функций)
    • NOT EMPTY (dense) массивы deprecated и не рекомендуются более к использованию
  • Новые операторы
    • Оператор GEMM - General Matrix Multiply
    • Оператор GESVD - Generalized Singular Value Decomposition
    • Оператор TSVD - Truncated Singular Value Decomposition
    • Оператор GML - Generalized Linear Model

>>> Скачать (требуется регистрация)



Проверено: catap ()

От себя хочу добавить, что транзакций там нет

catap ★★★★★ ()

Официальный анонс и ссылки на скачивание появятся в ближайшее время

zabivator ()

А это поделие до сих пор может ставится только на RedHat и компанию?

naryl ★★★★★ ()

годнота

Слежу за ней с 2009, как увидел её на GDD.

Woofywoof ()

«чистый» в функциональном смысле

это как?

anonymous ()

Где применяют такую штуку? Есть примеры из реальности? Может, кто-то сталкивался лично?

boo32 ()
Ответ на: комментарий от catap

От себя хочу добавить, что транзакций там нет

А они там нужны?

DNA_Seq ★★☆☆☆ ()

о! хорошая новость!

R интерфейс теперь доступен бесплатно!

Listing 13 illustrates computation of a few largest singularvalues and associated singular vectors of a 50, 000 × 50, 000 matrix with random entries (consuming about 18 GB). That problem large enough that it can’t be computed easily in R–the matrix is too large to even represent in R version 2 (although that changes soon in R version 3).

PS но у вас появился конкурент, в области больших данных, в виде связки hdf и pbd

psv1967 ★★★★★ ()
Последнее исправление: psv1967 (всего исправлений: 1)
Ответ на: комментарий от psv1967

PS но у вас появился конкурент, в области больших данных, в виде связки hdf и pbd

Это кто?

zabivator ()

А разве Intel MKL не проприетарна?

aptyp ★★★★ ()
Ответ на: комментарий от psv1967

Ээээ, SciDB это не только не способ доступа к данным — это прежде всего система хранения (добавления и чтения) данных петабайтных объёмов с использованием кластера. Вещи совершенно разного уровня.

Evgueni ★★★★★ ()
Ответ на: комментарий от Evgueni

система хранения (добавления и чтения) данных петабайтных объёмов с использованием кластера.

Простите за глупый вопрос, но у оракла ведь тоже есть для этого продукт. Чем SciDB лучше? Или я ничего не понял и сравнил люстру с велосипедом ?

dada ★★★★★ ()

Добавлены deployment скрипты для установки SciDB на кластер

Под словом «кластер» может иметься в виду целая куча разных вещей.

Например, «кластер» из head-ноды и 10 вычислительных нодов, на которых на каждой по отдельности стоит система и добавлены вручную пользователи. Как на такой кластер развернуть ПО? Конечно, нужна система централизованного управления кластером - именно ее задачей и станет установка разного ПО однотипным способом, предусматривающим какой-то способ совместной работы с этим ПО.

А может кластер быть целиком или почти целиком грузящимся из сети и монтирующим какой-нибудь /opt через nfs/lustre/что-то-ещё - тогда для установки ПО нужно устанавливать его всего-то на тот узел, который его экспортирует.

Так что имеется в виду под «deployment скриптами для установки SciDB на кластер»?

pianolender ★★★ ()
Ответ на: комментарий от dada

Тем, что не Oracle, который дорогой и ненужный?

Если я правильно понимаю, то SciDB — это весьма специализированная вундервафля в основном для целей научников, которым по большому счёту пофиг на сертификаты и которых интересует результат.

Evgueni ★★★★★ ()
Последнее исправление: Evgueni (всего исправлений: 1)
Ответ на: комментарий от Evgueni

Я имею в виду, что как правило, необходимые решения в этих случаях являются весьма нестандартными и по любому их приходится допиливать руками. Открытые платформы до нужного вида допиливать проще.

Evgueni ★★★★★ ()

ох уж...

таблица != одномерный массив

таблица - двумерный массив!!!

anonymous ()
Ответ на: ох уж... от anonymous

Таблица в db - это одномерный массив структур вида (имя, номер, количество ног).

pianolender ★★★ ()
Ответ на: комментарий от pianolender

О, вы не разу не имели дела с HPC кластером

Стоило хотя бы посмотреть, что он поддерживает MPICH и с новым релизом планирует переехать на большие компьютеры. Это обычный вычислительный кластер, который входит в состав Grid`а.

Woofywoof ()
Ответ на: О, вы не разу не имели дела с HPC кластером от Woofywoof

О, вы не разу не имели дела с HPC кластером

Зря вы так.

Стоило хотя бы посмотреть, что он поддерживает MPICH и с новым релизом планирует переехать на большие компьютеры.

Он - это SciDB? А что такое большие компьютеры?

Это обычный вычислительный кластер, который входит в состав Grid`а.

Кто обычный вычислительный кластер? SciDB? А Grid - это какое-то конкретное решение? Какое? Насколько я знаю, этим словом обычно обозначают распределенную вычислительную систему как таковую.

pianolender ★★★ ()
Ответ на: комментарий от pianolender

Это обычное решение в котором есть коммутационный(ые) узел(ы), вычислительные мощности отдельно и отдельно хранилище данных. От топологии решения зависит только скорость(ещё надежность и отказоустойчивость, но это дело не моё, а системных администраторов). Помимо нагрузки на файловую систему она также станет зависеть и от БД, поскольку БД может оптимизировать запись на диск. Вы хотите замеры производительности? Кластер - это решение с однородной архитектурой(x86,cell, гибридная CPU+GPU), а Grid может состоять из нескольких кластеров с разной.

Про что такое большие компьютеры я говорить не буду.

Woofywoof ()
Ответ на: комментарий от pianolender

Так можно что угодно свести к одномерному массиву.

Binary ★★★★★ ()
Ответ на: комментарий от Woofywoof

Я спрашивал, что такое «deployment скрипты для установки SciDB на кластер». Это примерно как «установщик для установки программы на пользовательское устройство» - как минимум, на кластере может быть разная ОС, да и модель доставки ПО до пользователей кластера тоже может быть очень разная.

Что скрывается за формулировкой этого пункта?

pianolender ★★★ ()
Ответ на: комментарий от Binary

Не, ну реально - это одномерная структура данных, скорее даже, не массив, а линейный список. Я же не могу просто взять и добавить элемент в матрицу - там же строки есть и столбцы, и структура определенная, а тут берешь да добавляешь строчку, прямо как в списке.

pianolender ★★★ ()
Ответ на: О, вы не разу не имели дела с HPC кластером от Woofywoof

Поддержка MPI - это эпопея длиной в год. Сначала пытались прикрутить OpenMPI. Огромное количество багов вылезло. Перешли на MPICH2. Оно работает нормально, единственное что, в Ubuntu версия 1.4 - а версия с 1.3 по 1.4 имеет race condition, и на кластере не работает.

В итоге на всех платформах сейчас 1.2.

Работает следующим образом - на каждом компе SciDB запускает mpi slave, которые получает задания/данные для вычисления по shared memory и пускает mpich2, мониторит его, читает результаты и отдаёт назад SciDB.

zabivator ()
Ответ на: комментарий от pianolender

Набор скриптов, который автоматизирует установку и настройку SciDB и SciDB кластера.

./deployment/deploy.sh scidb_install <username> <host list> ./deployment/deploy.sh scidb_prepare <options> <coordinator>

zabivator ()
Ответ на: комментарий от Binary

Реляционная таблица - одномерная структура данных. Пусть вас не смущают атрибуты - они не являются измерением, поскольку 1) колонки в таблице обычно разных типов 2) вы не можете произвольно удалять и добавять атрибуты, в то время как строчки вы вставляете, обновляете и удаляете произвольно 3) по «измерения» атрибуты у вас нету данных как таковых.

zabivator ()
Ответ на: комментарий от zabivator

SciDB кластера.

То есть имеется в виду интеграция с неким конкретным, кластерным, решением от того же производителя. Ок.

pianolender ★★★ ()
Ответ на: комментарий от pianolender

Можно рассматривать как массив, элементы которого индексируются RowID. Другой вопрос в том, что к RowID пользователи прямого доступа не имеют.

Тогда уж не список, а множество. Собственно говоря множество инстансов структуры - наиболее верное понимание реляционной таблицы. Поля структуры => Колонки таблицы. Записи => Элементы множества

zabivator ()
Ответ на: комментарий от pianolender

Мне каждый раз это объяснять приходится. Люди свято уверены, что таблица в реляционке - двумерная структура данных

zabivator ()
Ответ на: комментарий от zabivator

Мне сейчас люди - пользователи некоего решения, развернутого мной, а предварительно описанного ими с очень высокой степенью подробности - предлагали перезагрузить железный сервер, мотивируя это тем, что vncserver (часть обсуждаемого решения) они не могут перезапустить без прав администратора. Когда я предположил, что он запущен в контексте их учетной записи, и вполне может быть грохнут ими, они сказали, что пид искать долго и сложно. Причем это один из немногих пользователей среди более, чем 1500, которые умеют обращаться с линуксом..

pianolender ★★★ ()
Ответ на: комментарий от zabivator

Расскажите им, какие кары ждут того, что закладывает в технические решения штатные alter table :)

pianolender ★★★ ()
Ответ на: комментарий от pianolender

Линейное от размера таблицы время работы. Больше никаких, вроде.

zabivator ()
Ответ на: комментарий от zabivator

Не, ну это же с архитектурной точки зрения ламерство по идее - использовать в продакшене alter.

pianolender ★★★ ()

интеграция с Intel Math Kernel Library - ускорение запросов с линейной алгебры в 10-12 раз (!)

«Если в новой версии какя-то функция работает в 20-ть раз быстрее, то это говорить о том, что раньше было реализовано через ...(криво).» - с Oracle конференции

А вообще Intel Math Kernel Library не самая быстрая реализация BLAS.

anonymous ()
Ответ на: комментарий от zabivator

MPICH2 даже InfiniBand не поддерживает. Без это какие кластеры ??? У меня дома даже оно есть. 200 наносекунд задержка между хостами без коммутатора если.

А вообще MVAPICH2 крутая штука - MPI 3 реализует.

anonymous ()
Ответ на: комментарий от Evgueni

но hdf + кластерная файловая обеспечивает тоже самое?

psv1967 ★★★★★ ()
Ответ на: комментарий от pianolender

А матрица - одномерный набор векторов. ага. ИМХО, «таблица», по определению, не может быть одномерной. Вообще говоря применение слова «матрица» к таблице неправомерно, ранее кто-то на это указал, но из этого никак не следует, что таблица является одномерной.

anonymous ()
Ответ на: комментарий от anonymous

Таблица в бд является одномерным массивом, уже обсудили.

pianolender ★★★ ()
Ответ на: комментарий от zabivator

ArrayQL

Если вы уж знаете, то в SciDB массивы хранятся по строкам или по столбцам(aka Fortran-like)? Можно ли указать?

Woofywoof ()
Ответ на: комментарий от psv1967

СУБД это вообще-то нечто большее. Оно позволяет не страдать о сохранности и консистентности данных (при выполнении стандартных процедур, естественно — их не нужно изобретать, так как они просто есть из коробки) и иметь доступ к ней отовсюду (в случае PostgreSQL, например нам требовался доступ из под VAX/VMS). В ряде случаев это сильно замедляет скорость доступа, но зато резко увеличивает возможности с расширением этого ряда.

Evgueni ★★★★★ ()
Последнее исправление: Evgueni (всего исправлений: 1)
Ответ на: комментарий от Evgueni

научников, которым по большому счёту пофиг на сертификаты и которых интересует результат.

Это из-за того, что ценность этих данных не очень высока. Но когда встанет вопрос о страховке базы, без оракл или ibm тут не обойтись.

anonymous ()
Ответ на: комментарий от anonymous

Не совсем так. Просто люди реально вынуждены понимать, что они делают и в каких пределах они работают. Им не нужен продукт — им нужно решение, что гораздо дешевле и эффективнее, но работает только под определённую задачу.

Ну и никакая страховка не вернёт потерянные экспериментальные данные. Тут только распределённые бэкапы.

Evgueni ★★★★★ ()
Ответ на: комментарий от Evgueni

Решение не эффективное и страшно дорогое по трудозатратам и в поддержке, поскольку его делают физики, химики или биологи которые программируют как уроды. Вы же болты сами не точите, а заказываете, и тут такая же ситуация.

anonymous ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.