Посоветуйте СУБД

0

1

Для веба под хорошие нагрузки. Было бы здорово, если б с поддержкой шардинга/репликации. Можно NoSQL. Которая умеет быстро делать операции регистронезависимый поиск по подстроке, т.е. с быстрой реализацией аналога SQL выражения LIKE '%something%'. Если будет возможность «нечеткого» поиска (по релевантности), то вообще классно. Кроме поиска СУБД естественно должна поддерживать и другие присущие базам данных функции, такие как добавление, редактирование и выборку с фильтрацией данных :)

Пробовал CouchDB, строя индекс по Map-функции:

function(doc) {
  var i;
  if (doc.title) {
    for (i = 0; i < doc.title.length; i++) {
      emit(doc.title.slice(i), doc);
    }
  }
}

Работает, но индексация очень долгая и БД получается очень огромная. В принципе, расстраивает меня даже не это, а то что на каждый чих приходится писать эти Map-Reduce функции, от которых мозг закипает - сложно делается даже простейший SQL-аналог join.

Посмотрел на MongoDB. Язык запросов понравился, многие вещи делаются проще. Но сходу не нашёл, как там делать поиск по подстроке.

SQL-СУБД индексы на LIKE '%something%' не используют, что приводит тормозам на большой базе.

К чему ещё можно присмотреться?

Ссылка

← Подскажите легкие, свободные OFT-шрифты

Самый банальный вопрос. С чего начать? →

> SQL-СУБД индексы на LIKE '%something%' не используют, что

приводит тормозам на большой базе.

А для чего вы используете такие запросы? Может лучше Sphinx для поиска заюзать?

Но сходу не нашёл, как там делать поиск по подстроке.

http://www.mongodb.org/display/DOCS/Full+Text+Search+in+Mongo

archimag ★★★
(06.05.11 02:20:54 MSK)

PostgreSQL+pgpool2+Sphinx search

pi11 ★★★★★
(06.05.11 05:40:08 MSK)

Ответ на: комментарий от pi11 06.05.11 05:40:08 MSK

О, а как кстати pgpool? Стоит оно того? Планируем вот заюзать. Как оно производительности на запись?

dizza ★★★★★
(06.05.11 13:56:24 MSK)

Ответ на: комментарий от dizza 06.05.11 13:56:24 MSK

Ну если больше одного сервера то безусловно стоит.
По производительности на запись не тестировал специально, но по ощущениям изменений в скорости не заметно.

Если один сервер БД или нужен _только_ connection pool то лучше pgbouncer.

pi11 ★★★★★
(06.05.11 17:00:04 MSK)

Юзай обычную СУБД и не парься. Postgresql/MySQL, пофиг. Что касается нагрузок, то просто не пихай в бд всякую лажу вроде хранимок. Юзай просто как хранилище. Ну и кэширование. И то может не понадобится, если на серваке будет достаточно оперативки.

dizza ★★★★★
(06.05.11 17:01:49 MSK)

Ответ на: комментарий от dizza 06.05.11 17:01:49 MSK

> Юзай обычную СУБД и не парься

Звучит как-то странно, ибо та же MongoDB для веба часто просто проще.

archimag ★★★
(06.05.11 17:05:36 MSK)

Ответ на: комментарий от archimag 06.05.11 17:05:36 MSK

«Для веба» в 90% достаточно статик генератора :) Может быть и проще, но мне кажется это не та вещь из-за которой стоит запариваться. Впрочем, не думаю что mongodb проще чем рсубд + ORM. Хотя я могу и ошибаться - ничего крупного на NoSQL не делал, только по мелочевке.

dizza ★★★★★
(06.05.11 17:54:00 MSK)

Ссылка

Ответ на: комментарий от pi11 06.05.11 17:00:04 MSK

Не как раз нужно отказоустойчивость сделать. Как запасной вариант смотрю еще на HA-JDBC, это для жабки такое client-side балансер запросов.

dizza ★★★★★
(06.05.11 17:55:07 MSK)

Ссылка

Ответ на: комментарий от archimag 06.05.11 17:05:36 MSK

>Звучит как-то странно, ибо та же MongoDB для веба часто просто проще.

Чем проще?

pi11 ★★★★★
(06.05.11 18:47:06 MSK)

Ссылка

по LIKE '%something%' ничто быстро искать не будет, да ещё и с маленькими индексами. Нужно переделывать тз.

~~mashina~~ ★★★★★
(06.05.11 21:08:02 MSK)

Ссылка

Пользуйся поисковыми движками. Тот же sphinx умеет здоровенные нагрузки.

~~daris~~ ☆
(07.05.11 04:40:20 MSK)

Ссылка

>SQL-СУБД индексы на LIKE '%something%' не используют
Таки да? А если попробовать использовать не LIKE а полноценный полнотекстовый поиск, который есть, и в mysql, и в postgresql?
Хотя лучше конечно sphinx.

Tark ★★★
(07.05.11 05:03:32 MSK)

Ответ на: комментарий от Tark 07.05.11 05:03:32 MSK

полнотекстовые поиски не делают поиск по LIKE '%something%'

~~mashina~~ ★★★★★
(07.05.11 10:08:53 MSK)

Ответ на: комментарий от mashina 07.05.11 10:08:53 MSK

По LIKE не делают, но по отдельным словам в тексте ищут, и там еще морфология учитывается и релевантность.

Tark ★★★
(07.05.11 10:16:27 MSK)

Ссылка

Ответ на: комментарий от archimag 06.05.11 02:20:54 MSK

http://www.mongodb.org/display/DOCS/Full Text Search in Mongo

Хм, регулярными выражениями? А какова будет скорость поиска по регулярному выражению на базе от 2Гб? Я как понимаю, будет также полный перебор всех данных?

dennis_pro
(07.05.11 10:45:44 MSK) автор топика

Ссылка

Ответ на: комментарий от pi11 06.05.11 05:40:08 MSK

PostgreSQL+pgpool2+Sphinx search

PostgreSQL как раз и используем сейчас. pgpool2 изучаем, спасибо.

А вот Sphinx пока не ясно как может помочь, он же просто БД реструктурирует, извлекая из текстовых полей отдельные слова и индексируя их, да?

Основная огромная таблица, по которой и нужно делать поиск, и так содержит отдельные слова, иногда 2-4 слова, например:

циклопентанпергидрофенантрен дезоксирибонуклеиновая кислота и т.п. over9000 наименований

И надо уметь производить поиск по ней очень быстро по подстроке и (желательно) с опечатками в написании. Поможет ли в этом случае sphinx?

dennis_pro
(07.05.11 10:59:04 MSK) автор топика

Ответ на: комментарий от dennis_pro 07.05.11 10:59:04 MSK

поможет, и другие системы полнотекстового поиска тоже стоит изучить

trashymichael ★★★
(07.05.11 11:46:09 MSK)

Ссылка

Ответ на: комментарий от dennis_pro 07.05.11 10:59:04 MSK

ведь и гвозди можно забивать бутылкой. а твой вопрос звучит именно как «поможет ли молоток в забивании гвоздей?», или ты будешь экономить 2гб занимаясь преждевременной оптимизацией и изобретая «оптимизированные» алгоритмы?

trashymichael ★★★
(07.05.11 11:46:59 MSK)

Ссылка

Ответ на: комментарий от dennis_pro 07.05.11 10:59:04 MSK

>А вот Sphinx пока не ясно как может помочь, он же просто БД реструктурирует, извлекая из текстовых полей отдельные слова и индексируя их, да?

Не только текстовые, любые которые укажете (integer, boolean, etc).

И надо уметь производить поиск по ней очень быстро по подстроке и (желательно) с опечатками в написании. Поможет ли в этом случае sphinx?

Все кроме поиска с опечатками (хотя наверное вручную частые опечатки можно подключить через словарь словоформ).
Скорость поиска очень высокая.

pi11 ★★★★★
(07.05.11 16:02:11 MSK)

Ссылка

Если руки не кривые, SQLite идеальна.

~~moscwich~~ ★
(09.05.11 11:50:24 MSK)

Ответ на: комментарий от moscwich 09.05.11 11:50:24 MSK

на >2ГБ базе?

dib2 ★★★★★
(09.05.11 23:34:17 MSK)

Ответ на: комментарий от dib2 09.05.11 23:34:17 MSK

Вполне себе...

~~moscwich~~ ★
(10.05.11 00:08:46 MSK)

Ссылка

Ответ на: комментарий от dib2 09.05.11 23:34:17 MSK

Хотя если >2ГБ база, скорее всего руки кривые... Или неужели более стотыщьпятьсот ячеек? Так только у гугла, который кстати и использует код SQLite...

~~moscwich~~ ★
(10.05.11 00:23:47 MSK)