SQL: как сделать правильно?

0

1

Есть таблица с задачами (tasks, имеет кучу полей, в данном случае важно только поле task_id - INT UNSIGNED, PRIMARY KEY - уникальный идентификатор каждой задачи). К каждой задаче есть тэги (таблица tags, поля task_id и tag, записи не могут повторятся (PRIMARY KEY (task_id, tag))). Суть: нужно выбрать задачи, имеющие определенный набор тэгов. Запрос генерируется веб-приложением.

Пока только примерно такая идея:

SELECT *
FROM tasks t
WHERE (SELECT task_id FROM tags WHERE tag='sometag' AND task_id=t.task_id) AND (SELECT task_id FROM tags WHERE tag='sometag2' AND task_id=t.task_id);

Оно работает. Но, может, есть более православный способ?

PS. MySQL. SQL занимаюсь меньше недели, поэтому за возможное решение проблемы через /dev/ass не пинать.

PPS. Структуру таблиц могу поменять при необходимости.

Ссылка

← по поводу man,exec и fork

односвязные списки →

Может так?

SELECT t.* 
from tasks t 
join tags tg on tg.task_id=t.task_id 
where tg.tag in ('sometag','sometag2')

unit_1985
(06.12.10 21:44:40 MSK)

призываю kron73

note173 ★★★★★
(06.12.10 21:54:41 MSK)

Ответ на: комментарий от note173 06.12.10 21:54:41 MSK

http://www.linux.org.ru/forum/web-development/5167685

note173 ★★★★★
(06.12.10 22:21:30 MSK)

Ссылка

SELECT *
FROM tasks t
WHERE 0<(SELECT COUNT(*) FROM tags WHERE tag='sometag' AND task_id=t.task_id) AND 0<(SELECT COUNT(*) FROM tags WHERE tag='sometag2' AND task_id=t.task_id);

я бы сделал так

nu11 ★★★★★
(06.12.10 22:40:30 MSK)

Ответ на: комментарий от unit_1985 06.12.10 21:44:40 MSK

зачем ему join? Ему сами данные из tags не нужны

nu11 ★★★★★
(06.12.10 22:41:24 MSK)

Ответ на: комментарий от unit_1985 06.12.10 21:44:40 MSK

Все правильно. Убран кореллированный подзапрос и все. Какие ещё-то необходимы ТС хитрости?

anonymous
(06.12.10 22:46:17 MSK)

Ответ на: комментарий от nu11 06.12.10 22:41:24 MSK

Не знаю как на других системах, а на Oracle 10g вариант с джойном должен быть быстрее.

anonymous
(06.12.10 22:48:52 MSK)

Ссылка

Если структура таблиц ясно отражает модель предметной области, то структуру таблиц менять не стоит, разве что обнаружатся неустранимые критичные проблемы с производительностью.

anonymous
(06.12.10 22:53:36 MSK)

Ссылка

В принципе, вот еще способ убрать кореллированность без джойна [code] select * from tasks t where t.id in ( select task_id from tags where tag = 'AAA' or tag = 'BBB' ) [/code]

anonymous
(06.12.10 23:06:09 MSK)

Для начала надо добавить ещё один индекс в таблицу «tags» по полю «tag»

select * from tasks
where task_id in
(select task_id
from tags
where tag in ('тэг1','тэг2',...и т.д.)
);

Attila ★★
(06.12.10 23:31:28 MSK)

>(PRIMARY KEY (task_id, tag))

А зачем тебе составной первичный ключ? Переделай первичный на task_id и добавь уникальный ключ по полю tag.

Attila ★★
(06.12.10 23:46:09 MSK)

а если вот так?

SELECT
  tasks.*
FROM
  tags
  LEFT JOIN tasks
    ON tags.task_id = tasks.id
WHERE
  MATCH(tags.tag_name) AGAINST ('tag1 tag3' IN BOOLEAN MODE)
GROUP BY tasks.task_id

соответсвенно таблица tags должна быть MYISAM и поле tag_name FULLTEXT INDEX

anonymous
(06.12.10 23:55:04 MSK)

Ответ на: комментарий от Attila 06.12.10 23:46:09 MSK

Это перестанет соответствовать предметной области - у каждого таска может быть несколько тэгов.

Если реорганизовывать таблицы, то следующим образом. В соответствие с предметной областью, на операционном уровне вашего приложения все равно будут операции для работы отдельно с тэгами и операции для работы отдельно с тасками, на уровне предметной области будет хранилище тэгов и хранилище описаний тасков.

Поэтому, скорее всего, логично выделить таблицу тэгов tags=(id, short_name, name), отдельно таблицу тасков tasks=(id,short_name,name,...) и таблицу, связывающую их tasks$tags=(task_id,tag_id).

Соответственно, измените запросы. Как разместить индексы - очевидно.

anonymous
(07.12.10 00:29:58 MSK)

Я бы сделал так:

SELECT TS.task_id 
  FROM tasks TS, tags TG
  WHERE  TS.task_id = TG.task_id AND 
         TG.tag IN ('sometag', 'sometag2');

gandjubas ★
(07.12.10 00:35:27 MSK)

Ответ на: комментарий от anonymous 07.12.10 00:29:58 MSK

>у каждого таска может быть несколько тэгов.

Действительно, что-то я этот момент прохлопал.

Attila ★★
(07.12.10 01:30:07 MSK)

Ссылка

select *
from tasks t
where
  exists (select 1 from tags where tag='sometag' and task_id=t.task_id) and
  exists (select 1 from tags where tag='sometag2' and task_id=t.task_id);

пожалуй, наиболее православное. потому что where id in (...) будет тормозить на больших объёмах.

кстати, обратите внимание, exists (...) and exists (...) не равно exists (... in(...)) =)

vahvarh ★★★
(07.12.10 01:30:53 MSK)

на сколько я понял из вопроса, точно коррелирующей связи между тегами и задачами нет. есть просто текстовое поле в задачах, где хранятся слова-теги. посему при больших объемах выборка задач по тегам будет ресурсоемко.

солюшн - отношение между задачами и тегами должно быть many to many. как следствие через промежуточную таблицу. а далее, выборку строить через связку этих трех таблиц и заданием критерия тегов (хоть по явному набору IDшников, хоть простым LIKE'ом)

Deleted
(07.12.10 14:50:47 MSK)

Ссылка

Ответ на: комментарий от vahvarh 07.12.10 01:30:53 MSK

вау аж 2 подзапроса, mysql сервер будет благодарен тебе

qnikst ★★★★★
(07.12.10 15:01:39 MSK)

Ссылка

SELECT ..,count(tags.task_id) as cnt 
    FROM tasks 
         LEFT JOIN tags on tags.task_id = tasks.id
              WHERE task.name in ('tag1','tag2')
                 GROUP BY tasks.id
                    HAVING cnt = 2;

так же в tags сделать отдельные индексы, а не группированный, а лучше сделать таблицы:

tasks (id, ...), tags (id,name) и task_tag (id,task_id,tag_id)

тогда будет гораздо приятнее запросы делать.

qnikst ★★★★★
(07.12.10 15:07:06 MSK)

Ссылка

Ответ на: комментарий от unit_1985 06.12.10 21:44:40 MSK

Неплохой вариант, так выглядит намного лучше и без двух подзапросов. Попробую.

Только почему просто JOIN, а не INNER JOIN?

Deleted
(07.12.10 21:09:39 MSK)

Ответ на: комментарий от nu11 06.12.10 22:40:30 MSK

Принципиальное отличие от изначального варианта? Все равно два подзапроса, выполняющих почти те же действия. Только в вашем случае они не извлекают сами данные, а считают количество строк (что есть, конечно, лучше, но в данном случае выгода очень и очень небольшая).

Deleted
(07.12.10 21:18:51 MSK)

Ссылка

Ответ на: комментарий от anonymous 06.12.10 23:06:09 MSK

Тоже интересный вариант. Хоть и, если я правильно все понимаю, не отличается принципиально от варианта с джойном.

Deleted
(07.12.10 21:25:52 MSK)

Ответ на: комментарий от Attila 06.12.10 23:31:28 MSK

Тоже интересный вариант. Хоть и, если я правильно все понимаю, не отличается принципиально от варианта с джойном. Или я не прав?

Deleted
(07.12.10 21:29:47 MSK)

Ответ на: комментарий от Attila 06.12.10 23:46:09 MSK

А зачем тебе составной первичный ключ?

Почему это неправильно и как сделать правильно?

Deleted
(07.12.10 21:31:27 MSK)

Ссылка

Ответ на: комментарий от anonymous 06.12.10 23:55:04 MSK

SELECT
  tasks.*
FROM
  tags
  LEFT JOIN tasks
    ON tags.task_id = tasks.id
WHERE
  MATCH(tags.tag_name) AGAINST ('tag1 tag3' IN BOOLEAN MODE)
GROUP BY tasks.task_id

А как оно работает и что оно делает?

соответсвенно таблица tags должна быть MYISAM и поле tag_name FULLTEXT INDEX

Не может, ибо task_id - FOREIGN KEY, который MYISAM не поддерживает (поэтому движок - InnoDB).

Deleted
(07.12.10 21:35:14 MSK)

Ссылка

Ответ на: комментарий от anonymous 07.12.10 00:29:58 MSK

Если реорганизовывать таблицы, то следующим образом. В соответствие с предметной областью, на операционном уровне вашего приложения все равно будут операции для работы отдельно с тэгами и операции для работы отдельно с тасками, на уровне предметной области будет хранилище тэгов и хранилище описаний тасков.
Поэтому, скорее всего, логично выделить таблицу тэгов tags=(id, short_name, name), отдельно таблицу тасков tasks=(id,short_name,name,...) и таблицу, связывающую их tasks$tags=(task_id,tag_id).

Интересный вариант. А не скажется ли это отрицательно на производительности? (ведь чтобы выбрать задачи по тэгу, имеющему имя name, придется выбрать его tag_id из tags, потом выбрать task_id из tasks$tags, потом выбрать инФу из tasks по полученному task_id, вменяемый запрос пока не придумал, все варианты очень монструозны и содержат кучу подзапросов).

Deleted
(07.12.10 21:50:37 MSK)

Ответ на: комментарий от Deleted 07.12.10 21:09:39 MSK

mysql воспримет это как раз как inner join

unit_1985
(08.12.10 00:02:49 MSK)

Ответ на: комментарий от gandjubas 07.12.10 00:35:27 MSK

а зачем crossjoin неявный делать? Это медленнее чем обычный join http://ru.wikipedia.org/wiki/Join_(SQL)#CROSS_JOIN

unit_1985
(08.12.10 00:08:06 MSK)

Ответ на: комментарий от unit_1985 08.12.10 00:02:49 MSK

Спасибо за объяснение.

Deleted
(08.12.10 00:08:43 MSK)

Ссылка

Ответ на: комментарий от unit_1985 08.12.10 00:08:06 MSK

нслово неявный - лишнее

unit_1985
(08.12.10 00:09:35 MSK)

Ссылка

Ответ на: комментарий от Deleted 07.12.10 21:29:47 MSK

чтобы точно ответить на это надо использовать explain для анализа запроса, вроде как подзапрос в where медленнее

unit_1985
(08.12.10 00:12:06 MSK)

Ссылка

Ответ на: комментарий от anonymous 06.12.10 22:46:17 MSK

тут нужно использовать explain, смотреть всели индексы задействованы и т.д.

unit_1985
(08.12.10 00:13:36 MSK)

Ссылка

Ответ на: комментарий от unit_1985 08.12.10 00:08:06 MSK

> а зачем crossjoin неявный делать? Это медленнее чем обычный join http://ru.wikipedia.org/wiki/Join_%28SQL%29#CROSS_JOIN

По идее хорошая СУБД должна распознать мой вариант как эквивалент JOIN - ведь соединение происходит по первичному-и-внешнему ключу. Но бывают и нехорошие СУБД, тут не поспоришь. И это, увы, не единственный мой косяк, товарищ vahvarh подтвердит.

gandjubas ★
(08.12.10 01:29:40 MSK)

Ссылка

Ответ на: комментарий от unit_1985 08.12.10 00:08:06 MSK

Ну а кошернее всего будет реорганизовать данные по рецепту halturin-а. Действительно, у нас же отношение многие ко многим - чего тогда огород городить когда нужно сделать таблицу link_task_tag, и запрос будет совсем уж православным (и всяко более быстрым, чем предложенные):

SELECT TS.task_id
 FROM link_task_tag LTT
   INNER JOIN tasks TS  ON (TS.task_id = LTT.task_id)
   INNER JOIN tags  TG  ON (TG.tag_id  = LTT.tag_id)
 WHERE TG.tag='tag1' AND TG.tag='tag2';

Для других не знаю, но для oracle, например, лучше использовать именно = а не LIKE, - для скорости.

Ну и этот запрос должен быть полностью эквивалентен (в том числе и по скорости - на хорошей СУБД) вот такому:

SELECT TS.task_id
 FROM link_task_tag LTT, tasks TS, tags  TG
   WHERE (TS.task_id = LTT.task_id) AND
         (TG.tag_id  = LTT.tag_id ) AND
         (TG.tag='tag1' AND TG.tag='tag2');

gandjubas ★
(08.12.10 02:09:02 MSK)

Ответ на: комментарий от unit_1985 06.12.10 21:44:40 MSK

+ DISTINCT

Sorcerer ★★★★★
(08.12.10 07:47:50 MSK)

Ссылка

Ответ на: комментарий от gandjubas 08.12.10 02:09:02 MSK

тут LIKE как раз то и не нужен, нужно точное соответствие.

Вроде как лишний join большее время обработки запроса, хотя в остальном согласен.

PS только не только вроде как топикстареру не только id надо вывести а все данные в таблице tasks

unit_1985
(08.12.10 11:11:50 MSK)

Ответ на: комментарий от unit_1985 08.12.10 11:11:50 MSK

А, ну да, там надо сделать SELECT TS.* <...>;

gandjubas ★
(08.12.10 11:19:58 MSK)

Ссылка

Ответ на: комментарий от gandjubas 08.12.10 02:09:02 MSK

Структуру базы сделал как вы советовали (пока структуру основной базы не менял, просто создал еще одну).

Запрос, на 100% эквивалентный вашему, дает пустой результат (при этом все таблицы заполнены корректно, и мой запрос с подзапросами дает правильный результат).

Вот сам запрос:

SELECT TS.* 
FROM tasks$tags TT
INNER JOIN tasks TS ON (TS.task_id = TT.task_id)
INNER JOIN tags TG ON (TG.tag_id=TT.tag_id)
WHERE TG.tag_name='tag1' AND TG.tag_name='tag2';

Содержимое таблиц:

mysql> SELECT * FROM tags;                                                                 +--------+----------+
| tag_id | tag_name |
+--------+----------+
|      1 | tag1     |
|      2 | tag2     |
|      3 | tag3     |
|      4 | tag4     |
|      5 | tag5     |
+--------+----------+
5 rows in set (0.00 sec)

mysql> SELECT * FROM tasks;
+---------+-------+
| task_id | name  |
+---------+-------+
|       1 | task1 |
|       2 | task2 |
+---------+-------+
2 rows in set (0.00 sec)

mysql> SELECT * FROM tasks$tags;
+---------+--------+
| task_id | tag_id |
+---------+--------+
|       1 |      1 |
|       1 |      2 |
|       2 |      2 |
|       1 |      3 |
|       2 |      4 |
+---------+--------+
5 rows in set (0.00 sec)

Deleted
(08.12.10 18:20:51 MSK)

Ответ на: комментарий от Deleted 08.12.10 18:20:51 MSK

SELECT T.* FROM task T WHERE T.task_id IN
(SELECT TS.task_id
 FROM link_task_tag LTT, task TS, tag  TG
   WHERE (TS.task_id = LTT.task_id) AND
         (TG.tag_id  = LTT.tag_id ) AND
         (TG.name IN ('tag1', 'tag2'))
         GROUP BY TS.task_id 
         HAVING COUNT(*) = 2);
-- HAVING COUNT(*) = 2 - столько же, сколько тегов в IN ('tag1', 'tag2')

//fixed

Накрутить сюда JOIN-тов предлагаю в качестве упражнения.

gandjubas ★
(08.12.10 23:25:05 MSK)

Ссылка

Ответ на: комментарий от Deleted 07.12.10 21:50:37 MSK

А зачем вы решили сначала выбрать одно, затем второе, затем третье? Вот так сделайте.

select t.* from task t, tag g, task$tag m where t.id = m.task_id and m.tag_id = g.id and g.name in ( 'TAG1', 'TAG2', ... )

Оптимизатор сам сориентируется, как сделать эту выборку оптимальнее. Она очень проста для его работы. Попытки соптимизировать это вручную не от большого ума. Траст ми :-)

anonymous
(10.12.10 23:39:17 MSK)