Полнотекстовый поиск в postgres

postgresql

2

3

В postgres есть

1) возможность полнотекстового поиска с учетом морфологии - оператор @@; @@ не умеет искать произвольную подстроку;

2) оператор LIKE. LIKE может искать произвольную подстроку, но поиск неиндексированный и, следовательно, медленный.

А есть ли некий гибрид этих вариантов? Индексированный поиск подстроки, без морфологии, как есть?

Ссылка

← выкачивание файлов по http или создание полноценного загрузчика зеркала

Выбор микроконтроллера →

можно отключить морфологию в полнотекстовом поиске, но все равно останется токенизация.

Если хочется совсем произвольную подстроку искать (не по токенам), то смотри в сторону расширения pg_trgm

maxcom ★★★★★
(13.01.15 09:39:44 MSK)

Ответ на: комментарий от maxcom 13.01.15 09:39:44 MSK

Если хочется совсем произвольную подстроку искать (не по токенам)

Ага.

то смотри в сторону расширения pg_trgm

Триграммы - штука неточная. Искомая строка может даже не присутствовать в найденном тексте:

db=# select similarity('abcdef','abdef');
 similarity
------------
   0.444444

Если, конечно, не задан limit=1, но тогда, если я правильно понимаю, текст должен полностью совпадать с искомой строкой.

coldheadcleanhands
(13.01.15 10:50:17 MSK) автор топика

Ответ на: комментарий от coldheadcleanhands 13.01.15 10:50:17 MSK

можно просто через LIKE искать, поиск будет осуществляться по триграмному индексу при его наличии

maxcom ★★★★★
(13.01.15 11:36:35 MSK)

Ответ на: комментарий от maxcom 13.01.15 11:36:35 MSK

Любопытно.

anonymous
(13.01.15 12:40:14 MSK)

Ссылка

Можно сделать функциональный индекс и тогда like должен будеть искать быстрее.

nt_crasher ★★★
(13.01.15 13:47:18 MSK)

а нужен поиск вот прям именно в postgres, или просто нужен поиск, а сейчас все данные лежат в postgres?

shty ★★★★★
(13.01.15 14:26:11 MSK)

Ответ на: комментарий от nt_crasher 13.01.15 13:47:18 MSK

по какой функции? строка то произвольная

maxcom ★★★★★
(13.01.15 16:58:11 MSK)

Ссылка

То есть вы хотите индекс по произвольной строке, который мог бы проверять вхождение другой произвольной подстроки и был бы сильно короче оригинальной строки(иначе он бесполезен как индекс)? Так не бывает.

disarmer ★★★
(13.01.15 22:15:37 MSK)

http://www.depesz.com/2011/02/19/waiting-for-9-1-faster-likeilike/

maxcom ★★★★★
(13.01.15 23:55:41 MSK)

Ответ на: комментарий от shty 13.01.15 14:26:11 MSK

Желательно, чтобы можно было использовать совместно с другими условиями.

coldheadcleanhands
(14.01.15 04:06:06 MSK) автор топика

Ответ на: комментарий от disarmer 13.01.15 22:15:37 MSK

иначе он бесполезен как индекс

Это почему?

coldheadcleanhands
(14.01.15 04:06:56 MSK) автор топика

Ответ на: комментарий от maxcom 13.01.15 23:55:41 MSK

Круто!

coldheadcleanhands
(14.01.15 04:09:38 MSK) автор топика

Ссылка

Еще спрошу про экранирование спецсимволов.

... WHERE txt LIKE '%' || $1 || '%'

Достаточно ли заменить в параметре % на \%, _ на \_ и \ на \\ ? Или как это правильно делается?

coldheadcleanhands
(14.01.15 06:49:41 MSK) автор топика

Ссылка

Ответ на: комментарий от coldheadcleanhands 14.01.15 04:06:56 MSK

Потому что если индекс, занимает больше чем сами данные, то проще будет прочитать все данные, чем весь индекс.

disarmer ★★★
(14.01.15 11:38:52 MSK)

Ответ на: комментарий от disarmer 14.01.15 11:38:52 MSK

Разве обязательно читать весь индекс? Есть всякие штуки вроде бинарного поиска.

coldheadcleanhands
(14.01.15 11:52:39 MSK) автор топика

Ответ на: комментарий от coldheadcleanhands 14.01.15 11:52:39 MSK

Индекса по индексу ведь нет, даже в случае бинарного поиска придётся прочитать кучу блоков индекса. В отличии от данных, конечно, индекс хоть как то упорядочен. Но после чтения индекса, почти в любом случае придётся читать блоки данных, чтобы вытащить остальные колонки.

Возможно, где то это даст ускорение, но очень зависит от задачи. Postgres часто даже от нормального индекса отказывается, потому что считает более выгодным прочитать блоки данных.

Ну и вряд ли возможно построить индекс для вхождения подстроки на основе бинарного дерева.

disarmer ★★★
(14.01.15 12:48:31 MSK)

Ссылка

Ответ на: комментарий от coldheadcleanhands 14.01.15 04:06:06 MSK

Желательно, чтобы можно было использовать совместно с другими условиями.

ну это то как раз сделать понятно как: сначала поиском достается диапазон id'шников, а потом вставляется в запрос (WHERE ... AND id IN (....)) уже по основной базе

тут вопрос другой, нет ли ограничений по распуханию инфраструктуры, транзакциям?

shty ★★★★★
(14.01.15 13:35:14 MSK)
Последнее исправление: shty 14.01.15 13:36:55 MSK (всего исправлений: 1)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← выкачивание файлов по http или создание полноценного загрузчика зеркала

Development

Выбор микроконтроллера →

Похожие темы