Полнотекстовый поиск включён в ядро PostgreSQL

0

0

Том Лейн (Tom Lane) сообщил, что патч, интегрирующий полнотекстовый поиск (ранее выполненный в виде отдельного модуля, contrib/tsearch2) в ядро PostgreSQL, успешно внесён в CVS. Безусловно, это ключевой момент в сложнейшем процессе принятия патчей для версии 8.3 (напомним, feature freeze был объявлен ещё 1-го апреля, т.е. с тех пор идеи по развитию функционала Постгреса не принимались и всё внимание разработчиков было поглощено процессом обработки уже предложенных патчей).

Ещё неделю назад принятие патча полнотекстового поиска в ветку 8.3 ставилось под сомнение. Теперь же можно уверенно заявить, что PostgreSQL 8.3 будет содержать одно из самых ожидаемых изменений: полнотекстовый поиск (поддержку и развитие которого осуществляют наши разработчики, Олег Бартунов и Фёдор Сигаев) будет теперь доступен в PostgreSQL по умолчанию. Кроме того, SQL-подобный синтаксис упростит работу пользователей (черновик документации находится тут: http://www.sai.msu.su/~megera/postgre...).

В CVS HEAD была принята 58-я (!) версия патча. Как утверждает Том, это самый большой патч за всю историю PostgreSQL:

This is, by a wide margin, the largest single patch ever to hit the Postgres CVS tree. Congratulations to Oleg and Teodor on seeing it through!

regards, tom lane

Присоединяемся к поздравлениям!

>>> Полнотекстовый поиск включён в ядро PostgreSQL

Ссылка

← Координатор разработки PostgreSQL посетит Москву

Open Source Security, Часть2: Десятка лучших приложений →

← 1 2 →

Ответ на: комментарий от Evgueni 22.08.07 20:24:22 MSK

>дублировать надоело

Какое нафиг "дублировать", если ты пока кроме цитаты про ispell ничего дельного не ответил? Или ты хочешь сказать, что будучи привешенным к СУБД сбоку на веревочке он даст индескные чтения при поиске? Интересно как ты это себе представляешь? Для каждого содержащегося в поле слова запихнутся в индекс ссылки на все его возможные словоформы? Боюсь тогда индекс будет весить раз этак в несколько побольше самой таблицы, со всем вытекающими для скорости работы последствиями.

anonymous
(22.08.07 23:47:39 MSK)

Ответ на: комментарий от anonymous 22.08.07 23:47:39 MSK

> Для каждого содержащегося в поле слова запихнутся в индекс ссылки на все его возможные словоформы?

Почитай ман на ispell, aspell

Korwin ★★★
(23.08.07 07:18:37 MSK)

Ссылка

УРА!!! PostgreSQL руит!!! Самамя лучшая опен сорс СУБД!!!

sdbrother ★
(23.08.07 08:31:14 MSK)

Ссылка

Ответ на: комментарий от anonymous 22.08.07 20:04:48 MSK

> А слабо сразу признать, что так оно и есть?

Не признаю, просто потому что это не так. Почитай презентацию на PGConn http://www.sai.msu.su/~megera/postgres/talks/fts-pgcon2007.pdf

teodor ★
(23.08.07 12:05:22 MSK)

Ссылка

Ответ на: комментарий от anonymous 22.08.07 23:47:39 MSK

> Какое нафиг "дублировать", если ты пока кроме цитаты про ispell ничего дельного не ответил? Или ты хочешь сказать, что будучи привешенным к СУБД сбоку на веревочке он даст индескные чтения при поиске? Интересно как ты это себе представляешь? Для каждого содержащегося в поле слова запихнутся в индекс ссылки на все его возможные словоформы? Боюсь тогда индекс будет весить раз этак в несколько побольше самой таблицы, со всем вытекающими для скорости работы последствиями.

Кури документацию, а не выдумывай.

teodor ★
(23.08.07 12:07:24 MSK)

Ответ на: комментарий от teodor 23.08.07 12:07:24 MSK

>Кури документацию, а не выдумывай.

Ты сам-то ее курил, умник? Там именно словарный поиск и отображение найденных слов на биты индекса.

anonymous
(23.08.07 13:54:26 MSK)

Ответ на: комментарий от anonymous 23.08.07 13:54:26 MSK

> Ты сам-то ее курил, умник? Там именно словарный поиск и отображение найденных слов на биты индекса.

Я его разрабатывал :)))). Ты ошибаешься в определении места, где работают словари.

teodor ★
(23.08.07 14:08:15 MSK)

Ответ на: комментарий от teodor 23.08.07 14:08:15 MSK

>Я его разрабатывал

Ну и слава богу - по крайней мере появляется надежда на компетентное мнение

>Ты ошибаешься в определении места, где работают словари.

Возможно, не настаиваю - не суть важно сбоку оно болтается, подключается как модуль или намертво вкомпилено в ядро. Вопрос не в этом - в остальном я прав или нет? Индекс строится по известным словарю корням слов, содержащихся в поле, а при поиске проверяется его схожесть с тем, что построено по искомой фразе? Если да, то при чем тут морфология? Как, например, с помощью такого индекса будет различаться поиск по словам "образный" и "безобразный", если в словаре будет только корень "образ"?

anonymous
(23.08.07 15:30:18 MSK)

Ответ на: комментарий от teodor 23.08.07 14:08:15 MSK

А вот скажи, насколько абстрактен тамошний механизм подключения морфологии? Если я вместо (убогого крайне для русского языка) ispell-а решу подключить AOT или яндексный mystem - придется все переписывать, или можно модуль собрать рядом?

anonymous
(23.08.07 16:03:07 MSK)

FullText в базе данных не нужен.
Для этого есть sphinxsearch.com
и морфология и сложный язык запросов и параллельная обработка

anonymous
(24.08.07 00:25:06 MSK)

Ссылка

Ответ на: комментарий от anonymous 22.08.07 23:41:55 MSK

А есть ли возможность поискового запроса на наличие 2 слов с условием что между ними не более N слов ?

szh ★★★★
(24.08.07 02:08:47 MSK)

Ответ на: комментарий от anonymous 23.08.07 15:30:18 MSK

Индекс строится по номализованным словам - смысл слова "нормализуется" целиком и полностью определяется используемыми словарями и конфигурацией полнотекста.

Слово перед индексированием нормализуется словарем. Как словарь нормализует - это его дело. Стеммер вернет в твоем примере образ и безобраз, ispell - "образный" и "безобразный", но для слова "образного" вернет "образный", т.е. инфинитив.

Можно написать словарь возвращающий корень слова - но мы таких не разрабатывали.

teodor ★
(24.08.07 15:07:35 MSK)

Ответ на: комментарий от anonymous 23.08.07 16:03:07 MSK

Абсолютно абстрактен - парсер веделяет лексемы, лексемы классифицируются по типу (целое число, число, слово, URL и т.д.), далее лексемы передаются словарям (список словарей индивидуален для каждого типа лексем). Типовой словарь получает слово и волен принять одно из трех решений: 1) вернуть нормальную форму лексемы (это его и только его мнение о нормальности) 2) сказать, что ему это лексема известно, но индексировать его не надо (стоп-слово) 3) растеряться. В этом случае будет вызван следующий словарь из списка

Есть более сложные словари - они могут попросить следующую лексему. Таков, например, тезаурус.

Есть API к парсерам и словарям.

teodor ★
(24.08.07 15:12:54 MSK)

Ссылка

Ответ на: комментарий от teodor 24.08.07 15:07:35 MSK

> Индекс строится по номализованным словам - смысл слова "нормализуется" целиком и полностью определяется используемыми словарями и конфигурацией полнотекста.

Понял, спасибо

anonymous
(24.08.07 18:09:46 MSK)