Вышла новая версия SciDB

scidb

Вышла новая версия проекта SciDB - 12.12.

SciDB - проект Майка Стоунбрейкера, отца многих СУБД.

SciDB - версионируемая СУБД для аналитики, работающая с большими многомерными распределёнными массивами.

Доступны два вида синтаксиса:

Array Query Language (AQL) — язык очень похожий на SQL, но работающий не с таблицами (таблица = одномерный массив), а с многомерными массивами;
Array Functional Language (AFL) — «чистый» в функциональном смысле полностью эквивалентный AQL язык.

Партицирование данных и запросов, линейная алгебра, математическая статистика и машинное обучение из коробки.

В новой версии большое количество исправлений, оптимизаций производительности.

Появилась интеграция с MPICH и ScaLAPACK.

Доступны репозитории для CentOS 6.x, RedHat 6.x, Ubuntu 12.04.

Доступные интерфейсы:

Python
R
iquery (аналог консольного клиента)

В ближайшем будущем планируются:

RESTful API
JDBC-connector
ODBC-connector

SciDB используется:

банками
страховыми компаниями
генетиками
астрономами
платёжными системами

Из публично доступных примеров: 1000 Genomes Browser

>>> Скачать

Ссылка

← Представлена БД Apache Cassandra 1.2

Вышел Red Hat Enterprise Linux 5.9 →

← 1 2 →

Никогда не слышал о такой. Интересно!

soko1 ★★★★★
(08.01.13 23:42:50 MSK)

Ответ на: комментарий от soko1 08.01.13 23:42:50 MSK

я уже года 3 к ним присматриваюсь ;)

catap ★★★★★
(08.01.13 23:45:16 MSK)

Ответ на: комментарий от soko1 08.01.13 23:42:50 MSK

Я восполняю этот пробел :)

zabivator
(08.01.13 23:48:04 MSK) автор топика

Ссылка

Ответ на: комментарий от catap 08.01.13 23:45:16 MSK

Ну, Hadoop более зрелое решение, по идее, в плане maintance он проще. Но в Hadoop запросы нужно писать на Java. В SciDB же у тебя доступен достаточно простой. синтаксис, и тебе не нужно думать как параллелить запрос.

Оптимизатор построен таким образом, чтобы минимизировать обмен данных между узлами.

Например, агрегаты по считаются каждый на своём узле, и мёржатся в результате частично вычисленные результаты.

В системе можно настроить избыточность по данным, и даже развалившись на части кластер будет считать запросы дальше.

zabivator
(08.01.13 23:50:41 MSK) автор топика

Ответ на: комментарий от zabivator 08.01.13 23:50:41 MSK

Я уже скачал ;) Жди тестов и впечатлений в общем.

catap ★★★★★
(08.01.13 23:52:09 MSK)

Ответ на: комментарий от catap 08.01.13 23:52:09 MSK

Это мы всегда ценим :)

zabivator
(08.01.13 23:53:21 MSK) автор топика

Ссылка

Это что-то вроде kdb?

dizza ★★★★★
(09.01.13 00:09:26 MSK)

чем оно лучше традиционных реляционных БД с SQL?

Harald ★★★★★
(09.01.13 00:10:37 MSK)

многомерные массивы это что в данном случае?

Array Query Language (AQL) — язык очень похожий на SQL, но работающий не с таблицами (таблица = одномерный массив), а с многомерными массивами;

если массивы такие многомерные, то почему не взять MDX?(ну расширить его там командами DDL). В общем ничего не понятно и ссылки на подробности нет.

RedPossum ★★★★★
(09.01.13 00:12:24 MSK)

Ответ на: комментарий от RedPossum 09.01.13 00:12:24 MSK

Вот тут много подробностей: http://www.sai.msu.su/~megera/wiki/SciDB

zabivator
(09.01.13 00:13:37 MSK) автор топика

Ответ на: комментарий от Harald 09.01.13 00:10:37 MSK

Я просто покажу картинку: https://dl.dropbox.com/u/84803444/SciDB-vs-Relation.png

zabivator
(09.01.13 00:15:15 MSK) автор топика

ого, надо пощупать, звучит очень интересно

Reset ★★★★★
(09.01.13 00:15:47 MSK)

Ссылка

Ответ на: комментарий от dizza 09.01.13 00:09:26 MSK

Ну, kdb платное (очень платное), в то время как SciDB - opensource.

zabivator
(09.01.13 00:16:07 MSK) автор топика

Ответ на: комментарий от zabivator 09.01.13 00:13:37 MSK

Спасибо. Заодно сняли мой не заданный вопрос про ACID :)

Для «Ъ»:

Отказ от поддержки транзакций. Для научных данных не нужны транзакции (WORM - Write Once Read Many), которые сильно усложняют архитектуру СУБД и вносят существенные расходы на их поддержание. ACID - традиционная архитектура, в сетевом окружении <...> невозможно добиться одновременно целостности (Consistency) данных, доступности (Availability) данных и распределенности (Partitioning). В наших условиях, когда мы не можем обойтись без распределенности данных <...>, надо выбирать между целостностью и доступностью. Доступность данных тоже является важным условием для науки, а требование целостности смягчается до условия 'eventual consistency' <...>, что вполне достаточно для научных данных в силу WORM.

X-Pilot ★★★★★
(09.01.13 00:19:28 MSK)

Ответ на: комментарий от zabivator 09.01.13 00:16:07 MSK

щас меня за этот коммент шапками закидают.

Я понимаю разницу между бесплатным и свободным. SciDB - свободная и бесплатная, kdb - закрытая и платная

zabivator
(09.01.13 00:19:28 MSK) автор топика

Ответ на: комментарий от X-Pilot 09.01.13 00:19:28 MSK

Статья двулетней свежести. Сейчас там read-write array level lock, но в следующем релизе мы этот вопрос будет решать.

zabivator
(09.01.13 00:20:10 MSK) автор топика

Ссылка

Ответ на: комментарий от X-Pilot 09.01.13 00:19:28 MSK

И да, с другой стороны, а нафига аналитической СУБД транзакции? Обычно гоняют толстые запросы, что долго работают на больших объёмах данных

zabivator
(09.01.13 00:21:24 MSK) автор топика

Ответ на: комментарий от zabivator 09.01.13 00:16:07 MSK

в рекламном буклете.

Цен на p4 я все еще не знаю ;)

catap ★★★★★
(09.01.13 00:21:28 MSK)

Ответ на: комментарий от catap 09.01.13 00:21:28 MSK

SciDB - это opensource. Платное расширение есть, P4 называется, и не факт, что оно тебе нужно SciDB - это международный научно-исследовательский проект, в то время как P4 занимается интеграцией, внедрением и всякими не нужными ширнармассам плагинами.

zabivator
(09.01.13 00:23:15 MSK) автор топика

Ответ на: комментарий от zabivator 09.01.13 00:21:24 MSK

И да, с другой стороны, а нафига аналитической СУБД транзакции? Обычно гоняют толстые запросы, что долго работают на больших объёмах данных

Не-не-не, я же ничего не говорю, просто теперь понятно, что оно подходит под свои (!=мои :) ) специфичные нужды.

X-Pilot ★★★★★
(09.01.13 00:23:38 MSK)

Ссылка

Ответ на: комментарий от zabivator 09.01.13 00:15:15 MSK

т.е. что-то узкоспециализированное для расчётов?

Harald ★★★★★
(09.01.13 00:24:11 MSK)

Ответ на: комментарий от zabivator 09.01.13 00:21:24 MSK

С другой стороны, интересно как ее используют банки, страховщики и ПС... :-/

X-Pilot ★★★★★
(09.01.13 00:24:50 MSK)

Ответ на: комментарий от Harald 09.01.13 00:24:11 MSK

Любая СУБД специализировано, а узко или нет - зависит от ваших задач.

zabivator
(09.01.13 00:25:12 MSK) автор топика

Ответ на: комментарий от X-Pilot 09.01.13 00:24:50 MSK

Аналитики считают. Выгружают в многомерное пространство пользовательские данные, ищут закономерности, считают риски займов, оптимальные цены, автоматически кластеризуют клиентов

zabivator
(09.01.13 00:25:59 MSK) автор топика

Ответ на: комментарий от zabivator 09.01.13 00:23:15 MSK

ну т.е. прайс у вас как у взрослых 5% от полученных инвестицйи в год или 3% от годового оборота, да?

catap ★★★★★
(09.01.13 00:27:04 MSK)

Ответ на: комментарий от zabivator 09.01.13 00:25:12 MSK

бухгалтерские проводки в сабже хранить можно/удобно? :)

Harald ★★★★★
(09.01.13 00:27:41 MSK)

Ответ на: комментарий от catap 09.01.13 00:27:04 MSK

Не знаю :)

zabivator
(09.01.13 00:28:07 MSK) автор топика

Ссылка

Ответ на: комментарий от Harald 09.01.13 00:27:41 MSK

Сомневаюсь, т.к. проводки - это всё-таки OLTP А вот раз в неделю выгружат в SciDB, чтобы потом всякие хитрые отчёты строить - отлично ложится, ИМХО

zabivator
(09.01.13 00:28:46 MSK) автор топика

Звучит хорошо, а какие у нее недостатки / слабые места? Ее рационально использовать в повседневной жизни?

zerg6p
(09.01.13 00:32:46 MSK)

Ответ на: комментарий от zerg6p 09.01.13 00:32:46 MSK

В повседневной жизни рационально использовать холодильник, зубную щётку и контрацепцию. А новость - про продукт для работы.

zabivator
(09.01.13 00:37:51 MSK) автор топика

Ответ на: комментарий от zabivator 09.01.13 00:37:51 MSK

В повседневной жизни рационально использовать холодильник, зубную щётку и контрацепцию. А новость - про продукт для работы.

Если ты используешь зубную щётку чаще, чем инструмент для работы, ты серьезно болен.

tailgunner ★★★★★
(09.01.13 00:39:57 MSK)
Последнее исправление: tailgunner 09.01.13 00:40:15 MSK (всего исправлений: 1)

Ответ на: комментарий от zabivator 09.01.13 00:28:46 MSK

ну вот допустим, записи вида «время/дата, сумма денег, дебетовый счёт, кредитный счёт, тип операции»

Отчёты типичные, на пальцах приблизительно так:

1)суммы всех операций, сгруппированые по счетам, за определённый период времени

2) баланс - суммы всех операций, сгруппированных по счетам с момента начала деятельности (или расчёта предыдущего баланса) по настоящий момент

3) суммы всех операций, сгруппированые по типу, за определённый период времени

Может сабж такое?

Harald ★★★★★
(09.01.13 00:40:56 MSK)

Ответ на: комментарий от Harald 09.01.13 00:40:56 MSK

Сможет. Только писать нужно не онлайн, а выгружать раз в сутки, неделю или месяц. А то оно же версионируемое, на куче мелких транзакциях умрёт.

zabivator
(09.01.13 00:42:29 MSK) автор топика

Ответ на: комментарий от tailgunner 09.01.13 00:39:57 MSK

Чем?

zabivator
(09.01.13 00:43:08 MSK) автор топика

Ссылка

Ответ на: комментарий от zabivator 09.01.13 00:42:29 MSK

Сможет. Только писать нужно не онлайн

ну не обязательно онлайн, предположим, записи поступают не 100500 раз в секунду, а 200-300 штук в день. Но такие отчёты нужно генерировать часто, поднимать записи за последние 20-30 лет. Их генерация занимает некоторое время.

Будет ли сабж быстрее реляционных БД на такой задаче?

Harald ★★★★★
(09.01.13 00:49:05 MSK)

Ответ на: комментарий от Harald 09.01.13 00:49:05 MSK

Да, безусловно будет быстрее Но 200-300 записей в день я бы не стал всё-таки делать :) Либо сделал бы под это дело отдельной массив, который заливал бы в основной раз в сутки и пересоздавал.

zabivator
(09.01.13 00:50:23 MSK) автор топика

Ответ на: комментарий от zabivator 09.01.13 00:50:23 MSK

При этом запросы можно делать по нескольким массивам сразу - join'ы практически бесплатные, благодаря удобной модели данных.

zabivator
(09.01.13 00:51:09 MSK) автор топика

Ссылка

Ответ на: комментарий от zabivator 09.01.13 00:25:59 MSK

Выгружают в многомерное пространство пользовательские данные, ищут закономерности, считают риски займов, оптимальные цены, автоматически кластеризуют клиентов

меня все еще терзают смутные сомнения насчет более классического OLAP

RedPossum ★★★★★
(09.01.13 00:52:15 MSK)

Ответ на: комментарий от RedPossum 09.01.13 00:52:15 MSK

Так это и есть OLAP, только не в гамаке на лыжах, как реляционки, а напрямую. CUBE/ROLLUP - это OLAP? Нафига этим операциям таблицы (одномерные массивы)?

zabivator
(09.01.13 00:53:44 MSK) автор топика

эквавалентный

эквивалентный

REST-full API

RESTful API

amix ★★★
(09.01.13 00:55:25 MSK)

Ссылка

Ответ на: комментарий от zabivator 09.01.13 00:53:44 MSK

Так это и есть OLAP, только не в гамаке на лыжах, как реляционки, а напрямую.

ну так оно и есть напрямую, к примеру у MS, ЕМНИП. И не ораклом единым. Говорю же, посмотрите в сторону MDX.

RedPossum ★★★★★
(09.01.13 01:00:13 MSK)

Ответ на: комментарий от RedPossum 09.01.13 01:00:13 MSK

Допустим, посмотрим. Что я должен в MDX увидеть?

zabivator
(09.01.13 01:01:57 MSK) автор топика

Ответ на: комментарий от zabivator 09.01.13 01:01:57 MSK

Что я должен в MDX увидеть?

MDX это язык запросов для кубов.

RedPossum ★★★★★
(09.01.13 01:12:55 MSK)

Банально огороженный мануал. Что может быть хуже.

These are available for the Ubuntu 12.04 platform. ScaLAPACK support for RHEL 6.3 and CentOS 6.3. will be coming shortly.

И почему я не удивлен?

anonymous
(09.01.13 01:21:37 MSK)

Ответ на: комментарий от anonymous 09.01.13 01:21:37 MSK

Под CentOS и RedHat, судя по всему, придётся перепаковать mpich и ScaLAPACK. Нам не страшно, скорей, печально - почти все зависимости под CentOS и RedHat в оффициальных репозиториях во-первых outdated, во-вторых неправильно собраны :( Например, я не видел НИ ОДНОЙ версии правильно собранного в RHEL boost. То CMake.config кривой, то пути левые, то собрано нерабочим :(

zabivator
(09.01.13 01:28:20 MSK) автор топика

Ответ на: комментарий от RedPossum 09.01.13 01:12:55 MSK

А тут массивы произвольной мерности, линейная алгебра, мат статистика, агрегаты и machine learning из коробки и эффективный. Вам всё ещё нужен MDX? Зачем?

zabivator
(09.01.13 01:29:32 MSK) автор топика

Ссылка

Ответ на: комментарий от zabivator 09.01.13 01:28:20 MSK

все зависимости под CentOS и RedHat в оффициальных репозиториях во-первых outdated

У Debian Squeeze тоже?

во-вторых неправильно собраны

Парни из RedHat в курсе?

anonymous
(09.01.13 01:40:48 MSK)

Ответ на: комментарий от anonymous 09.01.13 01:40:48 MSK

У Debian Squeeze тоже?

Не проверял. boost в ubuntu собран правильно

Парни из RedHat в курсе?

Да. https://bugzilla.redhat.com/buglist.cgi?quicksearch=boost cmake

zabivator
(09.01.13 01:43:16 MSK) автор топика

Ответ на: комментарий от zabivator 09.01.13 01:43:16 MSK

Ясно, спасибо.

anonymous
(09.01.13 01:44:01 MSK)

Ссылка

Ответ на: комментарий от zabivator 09.01.13 01:43:16 MSK

ЕМНИП, boost в первую очередь собирается с помощью bjam или подобного, а cmake - для экспериментаторов. Так что не надо про кривые руки maintainer'ов.

L_user
(09.01.13 02:24:22 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

← Представлена БД Apache Cassandra 1.2

Open Source

Вышел Red Hat Enterprise Linux 5.9 →

Похожие темы