mysql: поиск по имени и синонимам (Спроектировать логику таблиц)

0

2

Всем привет.

Имеется таблица в mysql в 1 млн записей. К примеру это наименования автомобилей. Когда я ищю «жигули 2101» в базе, то нахожу «жигули 2101». А если ищу «жигуль» или «копейка» - соответственно ничего не найду. Я готов прописать синонимы вручную. Да их будет много, примерно 5000.

Вопрос: как мне это правильно сделать?

Уже существует таблица

synonym_id  |  synonym_name
1        |  копейка
1        |  жига
1        |  жигуль

При таком поиске, нужно будет сопоставить каждую запись синонима к таблица с авто с именем авто. После найденного результата я добавляю в таблицу с автомобилям в поле alias текст «копейка, жига, жигуль», после чего ищу уже по этим полям без проблем. Обновление и поиск базы синонимов занимает много времени при всего лишь 150 синонимах. Буду рад любым подсказкам.

Ссылка

←	Поделитесь CSS'кой, пожалуйста!

Посоветуйте крупного регистратора .com доменов

→

Замути поле с хэшем. Условие поиска:

where crc32('ищу') = hash_field and 'ищу' = synonym_name

MySQL должен оптимизировать and и не вычислять второе выражение. Ну и индекс по hash_field.

~~vahtu~~
(30.06.12 00:51:50 MSK)

http://stackoverflow.com/questions/1248039/synonyms-using-lucene
искать такое для любого движка, смотреть как это сделано там или его использовать

Deleted
(30.06.12 00:55:28 MSK)

и базы, наверное, уже есть

Deleted
(30.06.12 01:07:45 MSK)

Ссылка

Ответ на: комментарий от Deleted 30.06.12 00:55:28 MSK

помоему там задача чуть другая

ex3me ★★
(30.06.12 01:11:35 MSK) автор топика

Ссылка

Ответ на: комментарий от vahtu 30.06.12 00:51:50 MSK

у меня в 99% случаев нужно сделать синоним для слова жигули в строке «красивая белая жигули 90 года». Т.е. поиск в подстроке - хеш не катит

ex3me ★★
(30.06.12 01:12:42 MSK) автор топика

http://sphinxsearch.com/docs/current.html#conf-morphology
http://sphinxsearch.com/docs/current.html#conf-wordforms

и искать будет намного быстрее чем mysql.

pi11 ★★★★★
(30.06.12 01:31:22 MSK)

Ссылка

Ответ на: комментарий от ex3me 30.06.12 01:12:42 MSK

«красивая белая жигули 90 года»

Сношал её рука.

jessey
(30.06.12 01:32:55 MSK)

Ссылка

Ответ на: комментарий от ex3me 30.06.12 01:12:42 MSK

Бьёшь строку на слова и вычисляешь хэш каждого. Потом:

select word, synonym_name
from words
left join
  (select synonym_id, synonym_name from synonym_table where hash_field in (список хэшей)) on (word_id = synonym_id)

Потом пробегаешься по полученному списку и заменяешь подстроки synonym_name => word.

~~vahtu~~
(30.06.12 01:36:02 MSK)

Ссылка

Таблица синонимов отдельная не нужна. В обычной таблице ключевых слов просто поле synonym_id и там ссылка на поле этой же таблицы с «основной» формой.

Соответственно, при поиске, после стемминга, выдёргиваешь все записи искомых ключевых слов, если какие-то слова являются синонимами для других и они ещё не выдёргивались, дёргаешь базовую форму, получаешь ID ключевых слов и потом уже выдёргиваешь все записи из таблицы ссылок слов и материалов.

Обновление и поиск базы синонимов занимает много времени при всего лишь 150 синонимах.

Всего один (в худшем случае) копеечный лишний запрос.

~~KRoN73~~ ★★★★★
(04.07.12 10:42:21 MSK)

Ответ на: комментарий от KRoN73 04.07.12 10:42:21 MSK

Да, если что, у меня такая схема отлично работала на десятке миллионов записей в таблице привязок.

Тут главное — никаких хешей, никаких join'ов. Все объёмные пересечения — только на целых ID.

~~KRoN73~~ ★★★★★
(04.07.12 10:44:47 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Поделитесь CSS'кой, пожалуйста!

Web-development

Посоветуйте крупного регистратора .com доменов

→

Похожие темы