[mysql] Поиск повторяющихся строк

Доброго времени суток, лор

Пишу простой md5 хэшэр на кутях с хранением хэшэй в mysql

нужно искать повторы хэшэй в базе, моё гугл-фу выдало запрос

select * from hashes where filehash not in (select distinct filehash from hashes)

он, в принципе, работает

вот только после того, как я просканировал /etc и /usr/include (ну там просто много файлов), получил примерно 18к записей, натравил на базу этот запрос, мускуль ушёл в себя со 100% загрузки процессора...

структура базы:

CREATE TABLE `hashes` (                                                                                                                                              
  `path` varchar(256) NOT NULL,                                                                                                                                      
  `filehash` char(32) DEFAULT NULL,                                                                                                                                  
  PRIMARY KEY (`path`)                                                                                                                                              
) ENGINE=MyISAM DEFAULT CHARSET=utf8;

таки вопрос: может, кто знает, как оптимизировать это дело?

Ссылка

← Open System Architect , нуб вопрос

идентификация thread-a →

distinct - вроде выводит все уникальные, не?

Tanger ★★★★★
(23.05.11 20:00:13 MSK)

Ответ на: комментарий от Tanger 23.05.11 20:00:13 MSK

ну, всё верно
not in же

TERRANZ ★★★★
(23.05.11 20:03:09 MSK) автор топика

Ответ на: комментарий от TERRANZ 23.05.11 20:03:09 MSK

А not in только один раз их отсеит?

Tanger ★★★★★
(23.05.11 20:04:14 MSK)

Ответ на: комментарий от Tanger 23.05.11 20:04:14 MSK

да
сначала отработает дистинкт - выведет все неповторяющиеся
потом отработает селект и выберет все, что не вошли в дистинкт

TERRANZ ★★★★
(23.05.11 20:08:23 MSK) автор топика

Ответ на: комментарий от TERRANZ 23.05.11 20:08:23 MSK

хм.. {«a», «a»} not in {«a»} = {«a»} странно.
не знал. спасибо.

Tanger ★★★★★
(23.05.11 20:11:51 MSK)

Ссылка

попробуй так:

select path, filehash, count(filehash) as dubcount
from hashes
group by filehash
having dubcount > 1

должно работать много быстрее

HeadInSky
(23.05.11 20:13:26 MSK)

Ответ на: комментарий от HeadInSky 23.05.11 20:13:26 MSK

вау, мгновенно отработало на 65к записей О_О
спасибо!

TERRANZ ★★★★
(23.05.11 20:15:58 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Open System Architect , нуб вопрос

Development

идентификация thread-a →

Похожие темы