Вторая волна разработки Java-приложений: Базы данных типа NoSQL

0

3

Системы управления базами данных, не использующие SQL (или NoSQL-СУБД), постепенно выходят на первый план в эру Web 2.0, поскольку они эффективно решают проблемы масштабируемости. Несмотря на то, что эти СУБД еще находятся на заре своей популярности, они уже используются такими крупными компаниями, как Google и Facebook. Базы данных, не имеющие схем, кардинально отличаются от традиционных реляционных БД, однако работа с ними на практике оказывается проще, чем кажется, особенно если проектирование начинать с разработки модели предметной области, а не реляционной схемы.

>>> Подробности

Ссылка

← Вышел PCC 1.0

Секция СПО на Сибирском Форуме «Индустрия Информационных систем» →

← 1 2 3 →

Ответ на: комментарий от DRVTiny 09.04.11 15:16:07 MSK

> Хорошо, в иерархических СУБД, основанных на этом самом протоколе. SQL - это тоже протокол, потому что протокол - это стандартизованный язык обмена управляющей информацией и данными.

Ок, из хранилища с несколькими сотнями миллионов записей. Интересует реальный опыт (я, кстати, проверял)

deis ★
(09.04.11 15:28:17 MSK)

Ответ на: комментарий от deis 09.04.11 15:28:17 MSK

Ну хорошо, опишите свой опыт - может, мы вообще о разных вещах говорим?
Я могу судить только по бенчмаркам о по чужому опыту, сам действительно со столь масштабными каталогами не сталкивался.

DRVTiny ★★★★★
(09.04.11 16:02:48 MSK)

Ответ на: комментарий от deis 09.04.11 15:26:44 MSK

>Если речь не идёт об удалённых записях, то это, вообще говоря, не приложению решать

Нет, не об удалённых, а как раз о тех, которые не удалили и не собираются, а надо бы. Любая СУБД должна регулярно чиститься, но, к сожалению, бизнес зачастую говорит: нам вот эти данные 10-ти летней давности могут понадобиться с вероятностью 0,00001% - и в результате записи в таблице остаются. По соседству с теми, которые востребованы здесь и сейчас на 100%.

DRVTiny ★★★★★
(09.04.11 16:06:27 MSK)

Ответ на: комментарий от vertexua 09.04.11 13:05:21 MSK

Другими словами, Java не нуждается в сложных протоколах персистентности объектов.

SQL, как тут сказали, является стандартным протоколом работы с реляционной моделью. Взаимодействие объектов внутри JVM дублирует функционал, связанный с манипулированием строк и столбцов, но всё это происходит только в оперативной памяти, исключая разнообразные кэширующие механизмы, чем так продвинута реализация SQL СУБД. Чтение, запись, удаление, изменение состояния объектов — вот, что требуется от хранилища, а дополнительные возможности, которые обеспечивает SQL, излишни.

iZEN ★★★★★
(09.04.11 16:12:14 MSK)

Any sufficiently complicated NoSQL program contains an ad hoc,informally-specified,bug-ridden,slow implementation of half of SQL

yaws ★
(09.04.11 16:18:36 MSK)

Ссылка

Ответ на: комментарий от DRVTiny 09.04.11 16:02:48 MSK

> Я могу судить только по бенчмаркам о по чужому опыту, сам действительно со столь масштабными каталогами не сталкивался.

В моём случае это было integer overflow - в пограничных условиях вылезает много чего интересного в программах, которые не ориентированы на подобные объёмы, поэтому я и интересуюсь реальным опытом

deis ★
(09.04.11 16:23:07 MSK)

Ответ на: комментарий от DRVTiny 09.04.11 16:06:27 MSK

> Нет, не об удалённых, а как раз о тех, которые не удалили и не собираются, а надо бы. Любая СУБД должна регулярно чиститься, но, к сожалению, бизнес зачастую говорит: нам вот эти данные 10-ти летней давности могут понадобиться с вероятностью 0,00001% - и в результате записи в таблице остаются. По соседству с теми, которые востребованы здесь и сейчас на 100%.

В postgres для этого есть partitions

deis ★
(09.04.11 16:24:13 MSK)

Ответ на: комментарий от deis 09.04.11 15:28:17 MSK

SQL - это тоже протокол, потому что протокол - это стандартизованный язык обмена управляющей информацией и данными.

Какой нафиг SQL протокол??? Это язык запросов, не больше и не меньше (Simple Query Language).

И определение протокола у вас совсем хромает. Протокол - не язык.

Korwin ★★★
(09.04.11 17:43:38 MSK)

Ответ на: комментарий от Korwin 09.04.11 17:43:38 MSK

А я здесь при чём?!

deis ★
(09.04.11 17:45:15 MSK)

Ссылка

Ответ на: комментарий от Korwin 09.04.11 17:43:38 MSK

Structured Query Language — «язык структурированных запросов»

anonymous
(09.04.11 18:17:34 MSK)

Ссылка

Ответ на: комментарий от iZEN 09.04.11 16:12:14 MSK

а дополнительные возможности, которые обеспечивает SQL, излишни.

Заинька ты наш, SQL это не только «чтение, удаление и изменение состояния объектов». Это еще и inner, full и outer join, sort group by, transaction, data versioning, read consistence, cost-based optimization и дофига всяких других умных слов, о которых ты даже представления не имеешь :-)

~~no-dashi~~ ★★★★★
(09.04.11 18:37:45 MSK)

Ответ на: комментарий от no-dashi 09.04.11 18:37:45 MSK

java-боту незачем знать эти словеса.

anonymous
(09.04.11 18:45:07 MSK)

Ссылка

Ответ на: комментарий от Korwin 09.04.11 17:43:38 MSK

>Протокол - не язык.

О как интересно! А что же??? Вы дать определение языка в состоянии?

DRVTiny ★★★★★
(09.04.11 18:45:50 MSK)

Ссылка

Ответ на: комментарий от deis 09.04.11 16:23:07 MSK

Integer overflow - это просто кто-то через Ж код написал, индекс перешёл границы разрядности слова.
И какой сервер каталогов так отличился?

DRVTiny ★★★★★
(09.04.11 18:48:20 MSK)

Ответ на: комментарий от iZEN 09.04.11 16:12:14 MSK

Только требуется изощренный и сложный метод поиска чего читать, писать и удалять))) Что-то не заметил чтобы JVM дублировала. И что вы предлагаете?

~~vertexua~~ ★★★★★
(09.04.11 19:10:47 MSK)

Ответ на: комментарий от DRVTiny 09.04.11 18:48:20 MSK

Integer overflow - это просто кто-то через Ж код написал, индекс перешёл границы разрядности слова

Это был не сервер каталогов, просто показательный пример из той же серии. Я сейчас даже ссылку найду, один момент...

Да, вот она http://bugreports.qt.nokia.com/browse/QTBUG-18490

deis ★
(09.04.11 19:31:29 MSK)

Ссылка

Ответ на: комментарий от no-dashi 09.04.11 18:37:45 MSK

>Это еще и inner, full и outer join, sort group by, transaction, data versioning, read consistence, cost-based optimization и дофига всяких других умных слов, о которых ты даже представления не имеешь :-)

Большинство этих слов нужны чтобы решать вопросы «тормознутости» RDBMS - на конкретных задачах.

Использование RDBMS должно быть не менее обосновано чем применение NoSQL или любого хранилища. А то напихают данных которыё совершенно не надо хранить в реляционном виде в RDBMS - и начинаются left outer join, двадцать восемь индексов, игры со статистикой ипрочий кост-бейсед оптимизейшен и прочие extended properties только для того чтобы не тормозил поиск мессаг юзера и прочие подобные «мегазадачи».

r ★★★★★
(09.04.11 20:28:46 MSK)

Ответ на: комментарий от no-dashi 09.04.11 18:37:45 MSK

Это еще и inner, full и outer join, sort group by, transaction...

Капитан Очевидность ты наш, ты опять перебрал что ли? Это и так понятно из моей фразы «дополнительные возможности, которые обеспечивает SQL».

Иди проспись, что ли.

iZEN ★★★★★
(09.04.11 21:22:13 MSK)

Ссылка

Ответ на: комментарий от vertexua 09.04.11 19:10:47 MSK

Только требуется изощренный и сложный метод поиска чего читать, писать и удалять)))
И что вы предлагаете?

Уже давно предложена спецификация JSR 317 (Java Persistence API) и её реализации.

http://en.wikipedia.org/wiki/Java_Persistence_API

iZEN ★★★★★
(09.04.11 21:26:35 MSK)

Ссылка

Ответ на: комментарий от deis 09.04.11 14:40:26 MSK

Можно сказать и так. Код берётся извне и я на него не влияю.

Dark_SavanT ★★★★★
(09.04.11 22:05:39 MSK)

Ссылка

Ответ на: комментарий от DRVTiny 09.04.11 14:49:44 MSK

Это overkill это раз. Два - мне не нужна клиент-серверная модель. три - LDAP вообще не для этого нужен, а бэкендом у реализаций работает всё тот же BDB.

Dark_SavanT ★★★★★
(09.04.11 22:10:29 MSK)

Ответ на: комментарий от vladoos 08.04.11 23:55:16 MSK

> энтерпрайз на 99% состоит из C# + .NET :)

Вы опечатались

WindozeWorm
(09.04.11 23:27:22 MSK)

Ответ на: комментарий от no-dashi 09.04.11 18:37:45 MSK

> Заинька ты наш, SQL это не только «чтение, удаление и изменение состояния объектов». Это еще и inner, full и outer join, sort group by, transaction, data versioning, read consistence, cost-based optimization и дофига всяких других умных слов, о которых ты даже представления не имеешь :-)

Только это всё приводит к проблемам с производительностью, масштабируемостью и переносимостью.

anonymous
(10.04.11 00:35:39 MSK)

Ответ на: комментарий от SebastianPoeiro 08.04.11 23:21:18 MSK

Просто из контекста статьи вырезали предисловие...

http://www.ibm.com/developerworks/ru/library/j-javadev2-8/index.html

anonymous
(10.04.11 10:58:21 MSK)

Ссылка

Ответ на: комментарий от WindozeWorm 09.04.11 23:27:22 MSK

это не опечатка, это грубая попытка провокации :))

anonymous
(10.04.11 11:00:15 MSK)

Ссылка

Ответ на: комментарий от Dark_SavanT 09.04.11 22:10:29 MSK

> а бэкендом у реализаций работает всё тот же BDB.

Бэкендом может быть абсолютно всё, что угодно, в том числе и просто файлы. BDB/HDB как основной бэкенд используется только OpenLDAP. Насколько я помню, IBM'овский каталог, например, вообще DB2 использовал до недавнего времени.
Ну и... каталог он в принципе нужен для хранения объектов самого разного назначения. Причём в Apache DS эти объекты могут быть ещё и с прицепленными к ним методами на Java. Так что если от записей перейти к объектно-оринетированному видению проблемы, то очень даже почти для всего и пойдёт.
То есть понятно, что не для реплик на форуме и не для заказов в инет-магазине, но для относительно стабильных (редко изменяемых) данных описательного характера - самое оно.

DRVTiny ★★★★★
(10.04.11 13:07:27 MSK)

Ссылка

Ответ на: комментарий от Dark_SavanT 09.04.11 22:10:29 MSK

Кстати, LDAP один в один буквально накладывается на архтитектуру JNDI, интересно, какая ещё БД так может?

DRVTiny ★★★★★
(10.04.11 13:19:01 MSK)

Ссылка

IBM_dW это бот.

В IBM/EEA сейчас нет грамотных технарей - одни манагеры по продажам.

Требуются знания Hibernate (реже Hibernate + JPA).

Все остальное - это бред компании И-Бэ-Мэ / ЕЕА, где в отделе железа будут предлагать pSeries + Оракле, а в самом зачуханном отделе софта - супер-пкпкр СУБД «ДиБи[л] / пополам».

Так, что ни в одном проекте я, как системный архитектор, не допущу использование поделий от ИБМ. Откатов я не беру, так как моя репутация стОит дороже. :)

Bioreactor ★★★★★
(10.04.11 13:24:24 MSK)

Ответ на: комментарий от Bioreactor 10.04.11 13:24:24 MSK

так как моя репутация стОит дороже. :)

Знаем, знаем. Биореактор всегда дорожил своей репутацией.

pathfinder ★★★★
(10.04.11 14:23:46 MSK)

Ссылка

Ответ на: комментарий от deis 09.04.11 16:24:13 MSK

> В postgres для этого есть partitions

Ага. Только реализация их так убога, что уж лучше без них и postgres чем с ними :)

~~rtvd~~ ★★★★★
(10.04.11 14:48:31 MSK)

Ответ на: комментарий от anonymous 10.04.11 00:35:39 MSK

>> Заинька ты наш, SQL это не только «чтение, удаление и изменение состояния объектов». Это еще и inner, full и outer join, sort group by, transaction, data versioning, read consistence, cost-based optimization и дофига всяких других умных слов, о которых ты даже представления не имеешь :-)

Только это всё приводит к проблемам с производительностью, масштабируемостью и переносимостью.

Вот новость! А мы не и знали.. :)

Конечно с масштабируемостью будут проблемы. Но без этих фенечек некоторые вещи практически невозможно сделать. Причем «прелесть» существующих на данных момент NoSQL в том, что поначалу все может казаться шоколадным. А потом шарах, и очередное маааленькое изменение сделать в принципе невозможно. Никак. Даже так, чтобы было медленно. :)

~~rtvd~~ ★★★★★
(10.04.11 14:52:09 MSK)

Ответ на: комментарий от rtvd 10.04.11 14:52:09 MSK

> Конечно с масштабируемостью будут проблемы. Но без этих фенечек некоторые вещи практически невозможно сделать. Причем «прелесть» существующих на данных момент NoSQL в том, что поначалу все может казаться шоколадным. А потом шарах, и очередное маааленькое изменение сделать в принципе невозможно. Никак. Даже так, чтобы было медленно. :)

задача базы данных - хранить данные. а так же отдавать их тогда и так, как нужно. остальные фенички ненужны. и это поняли уже лет 6 как. но некоторые продолжают двигать парадигмы 2000го года и ранее.

anonymous
(10.04.11 15:55:38 MSK)

Ответ на: комментарий от anonymous 09.04.11 13:14:50 MSK

>а ACID в ынтерпрайзе не нужэн, да?

не всегда и не везде.
вот у меня сейчас в самом что ни на есть ынтырпрайзном проекте прямо в ТЗ прописано - делаем всё без транзакций, правда там про транзакции не в БД идёт речь.

maloi ★★★★★
(10.04.11 16:34:42 MSK)

Ссылка

Ответ на: комментарий от rtvd 10.04.11 14:48:31 MSK

Ага. Только реализация их так убога, что уж лучше без них и postgres чем с ними :)

Не буду спорить - я ими все равно не пользуюсь. Первое, что приходит в голову, это держать наиболее востребованные данные в самом начале дерева поиска

deis ★
(10.04.11 20:15:29 MSK)

Ссылка

Ответ на: комментарий от rtvd 10.04.11 14:48:31 MSK

Хотя да, как сейчас помню, там таблицы надо вручную заранее создавать - чертовски неудобно

deis ★
(10.04.11 20:17:12 MSK)

Ответ на: комментарий от Dark_SavanT 09.04.11 14:30:41 MSK

может это http://www.rsdn.ru/forum/other/971938.flat.aspx ?

Karapuz ★★★★★
(10.04.11 21:10:53 MSK)

А насколько оправдано применение, например, Cassandra на всего одной машине (то есть, не распределенно)? Нужно key-value хранилище, масштабируемость особо не интересует.

note173 ★★★★★
(10.04.11 21:15:57 MSK)

Ответ на: комментарий от deis 10.04.11 20:17:12 MSK

> Хотя да, как сейчас помню, там таблицы надо вручную заранее создавать - чертовски неудобно

Создание это еще пол беды. А потом получается такой неподдерживаемый ужас в схеме, что лучше спиться к чертикам и забыть.

~~rtvd~~ ★★★★★
(10.04.11 21:33:32 MSK)

Ссылка

Ответ на: комментарий от anonymous 10.04.11 15:55:38 MSK

> задача базы данных - хранить данные. а так же отдавать их тогда и так, как нужно. остальные фенички ненужны. и это поняли уже лет 6 как. но некоторые продолжают двигать парадигмы 2000го года и ранее.

Ага, конечно. :)

Когда твой уровень гормонов понизится, то быстро поймешь что часто «фенечки» ой как нужны. Тот же join. :) Так нужны, что без них совсем никак.

~~rtvd~~ ★★★★★
(10.04.11 21:37:42 MSK)

Ответ на: комментарий от rtvd 10.04.11 21:37:42 MSK

> Когда твой уровень гормонов понизится, то быстро поймешь что часто «фенечки» ой как нужны. Тот же join. :) Так нужны, что без них совсем никак.

про гормоны ты наверное лихо пошутил. но увы, кроме тебя шутки никто не понял.

кто-то говорил что join ненужны? нужны. если нужны. но в большинстве высоконагруженных систем база денормализована, и joinов почти нет.

anonymous
(11.04.11 00:40:05 MSK)

Ответ на: комментарий от anonymous 11.04.11 00:40:05 MSK

>> Когда твой уровень гормонов понизится, то быстро поймешь что часто «фенечки» ой как нужны. Тот же join. :) Так нужны, что без них совсем никак.

про гормоны ты наверное лихо пошутил. но увы, кроме тебя шутки никто не понял.

Не стоит говорить за всех. :) Или может имя вам - легион?

кто-то говорил что join ненужны? нужны. если нужны. но в большинстве высоконагруженных систем база денормализована, и joinов почти нет.

Так значит иногда нужны? Я уже было подумал, что это все «парадигмы 2000го года и ранее», а риальные пацаны давно все на MongoDB да CouchDB перевели.

~~rtvd~~ ★★★★★
(11.04.11 01:33:38 MSK)

Ссылка

Ответ на: комментарий от Karapuz 10.04.11 21:10:53 MSK

Посмотрим. Будет зависеть от выбора языка для написания.

Dark_SavanT ★★★★★
(11.04.11 02:13:01 MSK)

Ссылка

Ответ на: комментарий от r 09.04.11 20:28:46 MSK

RDBMS

>решать вопросы «тормознутости» RDBMS
как человек, работавший с не РСУБД (с иерархической), могу сказать, что все эти страшные слова - оборотная сторона «простоты» Коддовской алгебры. Но чем дальше в лес, тем толше партизаны. И закон рычага никто не отменял.:-)
Отсюда и костыли. Но у иерархических моделей - свои тараканы.
Хотя в общем они работают быстрее при прочих равных по сравнению с РСУБД (кроме M/Mumps, там был ещё Flare от новелл и т.д.).
А самая быстрая база - сетевая.

mumpster ★★★★★
(11.04.11 05:37:33 MSK)

Ответ на: RDBMS от mumpster 11.04.11 05:37:33 MSK

>оборотная сторона «простоты» Коддовской алгебры.

Естественно. И применение этой простой коддовской алгебры нужно обосновывать не меньше (еа то и больше) чем ее не применение.

r ★★★★★
(11.04.11 06:09:52 MSK)

Ответ на: комментарий от rtvd 10.04.11 21:37:42 MSK

> Тот же join. :) Так нужны, что без них совсем никак.

Очень часто без них никак по причине убогости модели которая не развивается со времен кодда. Как пример M:N - ужасный костыль к недостатку реляционной модели. Ограниченность полей очень примитивными типами - ужасное ограничение.

r ★★★★★
(11.04.11 06:21:43 MSK)

Ответ на: комментарий от note173 10.04.11 21:15:57 MSK

> А насколько оправдано применение, например, Cassandra на всего одной машине (то есть, не распределенно)?

Зависит от того какие данные хранить нужно и как часто они читаются/пишутся, как часто переписываются колонки с одинаковыми ключами (чем чаще - тем медленнее будет чтение по произвольным ключам). Кроме того, если использовать только как встроенное хранилище есть смысл не работать с ней через трифт, а использовать SSTable напрямую - сетевая часть у нее несколько тормознута.

anonymous
(11.04.11 10:49:34 MSK)

Ссылка

Ответ на: комментарий от r 11.04.11 06:09:52 MSK

Кодд

> коддовской алгебры нужно обосновывать
ну, например, ACID. в не РСУБД есть кое-какие трудности с обеспечением
общепринятых способов изоляция событий (т.н. «транзакций»).

mumpster ★★★★★
(11.04.11 10:58:16 MSK)

Ответ на: комментарий от iZEN 09.04.11 08:41:22 MSK

А как идет OR-маппинг в Cassandra? или вы про другую NoSQL БД говорите?

VoDA ★★
(11.04.11 12:05:10 MSK)

Ссылка

Ответ на: комментарий от Apple-ch 09.04.11 13:03:32 MSK

>> NoSQL - Not Only SQL

Если это аббревиатура, то почему «O» маленькая? :)

Так сложилось исторически ;)

VoDA ★★
(11.04.11 12:05:40 MSK)

Ссылка

Ответ на: комментарий от r 11.04.11 06:21:43 MSK

> Как пример M:N - ужасный костыль к недостатку реляционной модели.

А как отношение M:N моделируется в NoSQL? Не просто так спрашиваю. Недавно искал информацию на тему лучших практик хранения данных в NoSQL базках. Ничего толкового не нашел. Грусть-тоска-огорчение. Зато нашел несколько «прелестей», которые портят красивые сказки про легкую разработку, масштабируемость и скорость.

Ограниченность полей очень примитивными типами - ужасное ограничение.

Согласен на все 100%. Но разве нельзя использовать те же массивы и структуры? Даже PostgreSQL такое может без проблем. Впрочем, лично я бы хотел, чтобы элементами модели могли быть другие таблицы и ADT. А есть ли где такое?

~~rtvd~~ ★★★★★
(11.04.11 13:38:46 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 →

← Вышел PCC 1.0

Документация

Секция СПО на Сибирском Форуме «Индустрия Информационных систем» →

RDBMS

Кодд

Похожие темы