Отфильтровать массив строк, выбрав только хранящиеся в БД

яннп
ну отфильтруй свой массив по признаку «строка-в-бд»

TERRANZ ★★★★
(10.10.14 12:03:02 MSK)

Ответ на: комментарий от TERRANZ 10.10.14 12:03:02 MSK

отфильтруй свой массив

Вот об этом и вопрос. О самом механизме фильтрации.

special-k ★★★★
(10.10.14 12:07:50 MSK) автор топика
Последнее исправление: special-k 10.10.14 12:08:04 MSK (всего исправлений: 1)

Загрузить во временную таблицу и сджойнить?

anonymous
(10.10.14 12:08:06 MSK)

Ссылка

Ответ на: комментарий от special-k 10.10.14 12:07:50 MSK

ну а как ты определяешь, строка в бд у тебя или нет?

TERRANZ ★★★★
(10.10.14 12:12:58 MSK)

Ответ на: комментарий от TERRANZ 10.10.14 12:12:58 MSK

Никак еще. Я вот спрашиваю: что с этим справится лучше всего ( mysql, или, может redis, couchdb и т.д). Т.е. технология + методика применения.

пс А вообще, склоняюсь к рантайму.

special-k ★★★★
(10.10.14 13:00:23 MSK) автор топика

Ссылка

1000 строк. Т.е тебе нужно всего сделать 1000 запросов? Зачем тут оптимизации? Или тебе постоянно такие вещи нужно делать?

pi11 ★★★★★
(10.10.14 13:05:02 MSK)

Можешь попробовать select str from tbl where str in (?, ..., ?), но совет про временную таблицу скорее всего будет оптимальней.

~~Legioner~~ ★★★★★
(10.10.14 13:07:33 MSK)

Если ты делаешь такие операции часто, то сделай еще одну таблицу c двумя столбцами, если возможно укажи директиву чтобы была в памяти, если СУБД поддерживает. В первом идентификатор операции, уникальный какой-то номера, например UUID, во втором столбце твои строки. А потом уже какой-то JOIN. Данные легко вводить - batch. Легко потом почистить таблицу после операции - удалить все с текущим UUID

~~vertexua~~ ★★★★★
(10.10.14 13:08:18 MSK)
Последнее исправление: vertexua 10.10.14 13:09:03 MSK (всего исправлений: 2)

Ответ на: комментарий от pi11 10.10.14 13:05:02 MSK

Да, это будет типичный запрос.

Ну.. 1000 запросов я в любом случае не планировал. Планировал как-то иначе, более эстетично.

special-k ★★★★
(10.10.14 13:08:40 MSK) автор топика

Ссылка

Дополнение: в исходном массиве ~100..1000 строк. В базе ~100k..1kk

Как вариант, хранить со строками хэши и сравнивать но ним. Но вообще не понятно, почему нельзя просто сделать выборку по имеющимся строкам.

no-such-file ★★★★★
(10.10.14 13:11:15 MSK)

Ссылка

Ответ на: комментарий от Legioner 10.10.14 13:07:33 MSK

select str from tbl where str in (?, ..., ?)

Кстати было у нас на одном проекте, что по безалаберности программиста был запрос с выборкой по in с огромным списком. Это привело к тому, что на оракле при превышении размера списка в около 1000 элементов оракл отказывался его обрабатывать. Там у них даже отдельная ORA ошибка на эту тему есть. Это чисто FYI для ТС если он решит воспользоваться этим вариантом.

Hater ★★
(10.10.14 13:20:25 MSK)

Ответ на: комментарий от Hater 10.10.14 13:20:25 MSK

с выборкой по in с огромным списком

А что, кстати происходит, если попадутся несуществующие значения, ничего, или ошибка?

special-k ★★★★
(10.10.14 13:30:34 MSK) автор топика

Ответ на: комментарий от special-k 10.10.14 13:30:34 MSK

Странный вопрос. Список в in вполне может содержать значения, которых нет в БД. В этом случае итоговая выборка полностью совпадает с той, которая возвращается запросом без этих значений в списке in.

Hater ★★
(10.10.14 13:34:27 MSK)

Ответ на: комментарий от Hater 10.10.14 13:34:27 MSK

А сколько примерно времени возвращается выборка по in с огромным списком?

special-k ★★★★
(10.10.14 13:41:33 MSK) автор топика

Ответ на: комментарий от special-k 10.10.14 13:41:33 MSK

Зависит от многих аспектов, очевидно :) Правильный вопрос: насколько оно быстрее/медленнее других подходов.

Так, например, это будет быстрее, чем выполнять отдельно запрос для каждого значения. Про вариант с временной таблицей - не знаю, умозрительно кажется что тоже быстрее, но я советую погонять тесты на семпловых данных.

Hater ★★
(10.10.14 14:46:05 MSK)

Ответ на: комментарий от Hater 10.10.14 14:46:05 MSK

Если честно, я не очень понял принцип подхода с временной таблицей.. Мне предлагают записать 1000 строк что ли?

Я попробовал в рантайме, и там это порядка 2мс для 1к элемнтов массива входящих строк и 3кк строк в «БД» (руби). Требует ~600МБ ОЗУ, но 3кк и даже 1кк - это глубокая перспектива. А в других случаях какой примерно порядок величин..?

special-k ★★★★
(10.10.14 15:02:44 MSK) автор топика

Ответ на: комментарий от special-k 10.10.14 15:02:44 MSK

Если честно, я не очень понял принцип подхода с временной таблицей

По моему vertexua все понятно разъяснил. Создается временная таблица, в нее данные можно грузить как одиночным, там и множественным запросом, а можно подгрузить из файла (если файл на сервере СУБД), но нужно смотреть какие у СУБД для этого возможности. Потом просто джоинишь данные из БД и этой временной таблицы. Результат запроса - список строк, присутствующих в БД и во временной таблице. С джоинаим еще поиграться можно, чтобы, например, выводил все строки из временной таблицы + те строки, которые есть в БД.

anonymous
(10.10.14 15:10:28 MSK)

Ответ на: комментарий от anonymous 10.10.14 15:10:28 MSK

в нее данные можно грузить как одиночным, там и множественным запросом

Но ведь это.. долго? Совершенно же неприемлемые величины по времени при указанных вначале темы параметрах.. (для типичного веб-запроса имеется ввиду).

special-k ★★★★
(10.10.14 15:16:20 MSK) автор топика
Последнее исправление: special-k 10.10.14 15:16:55 MSK (всего исправлений: 1)

Ответ на: комментарий от special-k 10.10.14 15:16:20 MSK

делай асинхронно закидывай данные на сервер, запускай вёркер(как это по русски называется?), по завершении работы уведомляй пользователя

Jaberwock ★★★
(10.10.14 15:28:29 MSK)

Ссылка

Ответ на: комментарий от special-k 10.10.14 15:16:20 MSK

От задачи зависит. Если тебе просто проверить 1000 строк, как указано в ТС, то вообще не понятно почему возник вопрос. Но если предполагается какой-либо рост (как в объемах, так и в логике), то нужно смотреть на альтернативы. Вот загрузка файла во временную таблицу БД - это такая альтернатива. Если данные проверять приходится часто, а грузить редко, то грузить их можно и точечными инсертами. Мы твою задачу не знаем, мы предлагаем варианты.

anonymous
(10.10.14 15:29:37 MSK)

Ответ на: комментарий от anonymous 10.10.14 15:29:37 MSK

Мы твою задачу не знаем, мы предлагаем варианты.

Задача: делать это в рамках ответа на пользовательский http запрос.

(Web-development же)

special-k ★★★★
(10.10.14 15:32:53 MSK) автор топика
Последнее исправление: special-k 10.10.14 15:36:02 MSK (всего исправлений: 1)

Ответ на: комментарий от special-k 10.10.14 15:32:53 MSK

А кастаника спецов по всяким сфинксам и чему-то похожему. Возможно тебе подойдет вариант с поддержанием в актуальном состоянии части данных из БД, по которым нужно делать проверку, в специализированном решении для текстового поиска. Вот тут я точно ничего сказать не могу.

anonymous
(10.10.14 16:29:39 MSK)

Ссылка

Ответ на: комментарий от special-k 10.10.14 15:32:53 MSK

закинули данные, ушли со страницы, на другой странице получили уведомление что данные обработаны

Jaberwock ★★★
(10.10.14 16:30:45 MSK)
Последнее исправление: Jaberwock 10.10.14 16:31:03 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от special-k 10.10.14 15:32:53 MSK

в рамках ответа пользователь ставит задачу в очередь и получает сообщение об успехе или провале

Jaberwock ★★★
(10.10.14 16:32:08 MSK)

Ссылка

Ответ на: комментарий от special-k 10.10.14 15:32:53 MSK

Кстати, присоединяюсь к предложению сделать обработку асинхронной. Вот это реально тема для Web-development же.

anonymous
(10.10.14 16:42:01 MSK)

Ответ на: комментарий от anonymous 10.10.14 16:42:01 MSK

Асинхронность это хорошо, но ты же не будешь ждать ответа неделю ^_^ Да и ресурсы надо расходовать не на обогрев помещений..

А чем вам не нравится рантайм? Запихнул миллион строчек в хэш (благо они небольшие), и проверяешь..

special-k ★★★★
(10.10.14 17:14:16 MSK) автор топика
Последнее исправление: special-k 10.10.14 17:15:07 MSK (всего исправлений: 2)

Ответ на: комментарий от special-k 10.10.14 17:14:16 MSK

Где это асинхронность равна недельному ожиданию? Формируешь задание, которое забирает свободный обработчик, исполняет его, возвращает ответ. Тут дело даже не в том, что это долго, а в том, что тебе придется менять протокол взаимодействия с пользователем. Зато получаешь масштабируемость.

Не нравится тем, что однажды такое решение может не сработать. Выше приводили пример, когда оракл отказывался обрабатывать такой запрос. Если строки изменятся, это может хорошенько сказаться на производительности. Ты это обнаружишь не сразу, а пользователи сразу, т.к. у них страница будет подвисать. В асинхронном варианте пользователь может даже не ощутить проседания производительности. Короче, лучше продумай где ты можешь допустить деградацию производительности и используй эту возможность, чтобы упростить реализацию.

anonymous
(10.10.14 18:35:40 MSK)

Выясни максимальную длину SQL запроса и максимальное количество значений для IN (...). Если размер массива строк для проверки превышает эти значения разбей на несколько запросов. Т.е. если например БД принимает максимум по 100 значений в IN (...) для 1,000 строк 10 запросов по любому быстрее (вероятно, в 100 раз быстрее) чем 1,000 запросов.

Много запросов к БД это очень медленно, я видел индусский код который выбирал по 100 items на страницу из таблицы и вместо JOIN'а добирал потом данные из другой таблицы в цикле. Всё подвисало на несколько секунд и это на тестовой машине где пользователей больше не было. После замены на 1 запрос загружалось моментально.

~~FutureBoy~~
(10.10.14 22:26:13 MSK)

Ответ на: комментарий от vertexua 10.10.14 13:08:18 MSK

Но ведь INSERT намного медленнее SELECT, особенно в InnoDB.

~~FutureBoy~~
(10.10.14 22:29:14 MSK)

Ещё не забудь добавить INDEX для column в котором содержатся строки.

~~FutureBoy~~
(10.10.14 22:30:04 MSK)

Ссылка

Ответ на: комментарий от FutureBoy 10.10.14 22:29:14 MSK

Нет смысла использовать для временной таблицы InnoDB.

O02eg ★★★★★
(10.10.14 22:55:08 MSK)

Ссылка

Ответ на: комментарий от anonymous 10.10.14 18:35:40 MSK

Ок, мы сделаем воркеры и балансировщик, теперь надо выяснить как именно будет работать воркер.

special-k ★★★★
(11.10.14 03:50:55 MSK) автор топика

Ссылка

Ответ на: комментарий от FutureBoy 10.10.14 22:26:13 MSK

чем 1,000 запросов

Да не собирался я делать 1000 запросов. Но, может, типичные реляционные СУБД слишком тяжелы для данной задачи? Например http://redis.io/commands/hmget

special-k ★★★★
(11.10.14 04:02:14 MSK) автор топика

Ссылка

Ответ на: комментарий от special-k 10.10.14 15:16:20 MSK

в нее данные можно грузить как одиночным, там и множественным запросом
Но ведь это.. долго?

дык каждую строку так или иначе надо засунуть для проверки в СУБД. Оптом дешевле. Потому временная таблица быстрее всего (или также). Если конечно памяти хватит, если не хватит, придётся делать несколько временных таблиц, всяко лучше, чем по одному.

emulek ★
(11.10.14 04:33:51 MSK)

Ссылка

Ответ на: комментарий от FutureBoy 10.10.14 22:26:13 MSK

принимает максимум по 100 значений в IN (...)

а можно пример из практики для этого случая? А то я что-то не пойму, где у вас IN для 100+ значений нужен?

emulek ★
(11.10.14 04:43:46 MSK)

Ответ на: комментарий от emulek 11.10.14 04:43:46 MSK

Так автору темы вроде как нужен.

~~FutureBoy~~
(11.10.14 13:08:56 MSK)

Ссылка

Ответ на: комментарий от FutureBoy 10.10.14 22:29:14 MSK

Insert в память быстрее чего угодно. Подозреваю что InnoDB это поддерживает, хотя хз

~~vertexua~~ ★★★★★
(11.10.14 17:43:19 MSK)

Временная таблица + JOIN.

wyldrodney ☆
(12.10.14 20:07:19 MSK)

Ссылка

Ответ на: комментарий от vertexua 11.10.14 17:43:19 MSK

Разве INSERT с последующим JOIN'ом может быть быстрее чем просто SELECT .. IN (...)? Думаю уже по количеству запросов к DB такой подход проигрывает.

~~FutureBoy~~
(12.10.14 23:44:39 MSK)

Ответ на: комментарий от FutureBoy 12.10.14 23:44:39 MSK

IN страдает тем, что многие БД ставят жесткое ограничение по количеству элементов. Если INSERT в память. То INSERT в память и JOIN теоретически ничем не отличаются от IN. А в реальной реализации нужно тестировать. Один Поттеринг знает что они там понаписывали

~~vertexua~~ ★★★★★
(13.10.14 00:23:35 MSK)

Ответ на: комментарий от vertexua 13.10.14 00:23:35 MSK

Судя по документации в MySQL оба запроса имеют одинаковое ограничение:

http://dev.mysql.com/doc/refman/5.1/en/comparison-operators.html#function_in

The number of values in the IN list is only limited by the max_allowed_packet value.

~~FutureBoy~~
(13.10.14 14:02:56 MSK)

Ответ на: комментарий от FutureBoy 13.10.14 14:02:56 MSK

Какие оба запроса? INSERT может идти как BATCH. Но драйвер разделит его на несколько запросов если надо. А IN сработает или не сработает и все. Если бы элеметов было меньше, то может быть лучше было использовать IN, так как тогда у нас был бы один round-trip

~~vertexua~~ ★★★★★
(13.10.14 14:21:06 MSK)

Короче, я использую redis hash с одинаковым ключом и значением, и HMGET (соответственно).

special-k ★★★★
(13.10.14 14:30:09 MSK) автор топика
Последнее исправление: special-k 13.10.14 14:33:01 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от vertexua 13.10.14 14:21:06 MSK

Автор же написал что в исходном массиве до 1,000 строк.Если каждая строка по 255 символов получаем 255 * 1,000 == 0.24M. Щас глянул у меня в gentoo по default'у в /etc/mysql/my.cnf max_allowed_packet_size = 1M. Если не планируется использоваться скрипт на shared говнохостинге от godaddy разумнее увеличить это значение. Но вообще конечно no sql solution будет эффективнее, что автор и сделал, совершенно правильно.

~~FutureBoy~~
(13.10.14 23:05:25 MSK)

Ссылка

Похожие темы