Реализация быстрой проверки строки из файла в несколько гб

Ответ на: комментарий от WitcherGeralt 20.11.19 03:41:03 MSK

Гм… А дальше что было я не совсем понял…

HIS
(20.11.19 03:42:05 MSK)

Ответ на: комментарий от HIS 20.11.19 03:42:05 MSK

Дальше уже вариант переиграть остывшую вселенную, на случай если у ТСа запущенная стадия паранойи.

~~WitcherGeralt~~ ★★
(20.11.19 03:44:18 MSK)

Ответ на: комментарий от WitcherGeralt 20.11.19 03:44:18 MSK

:)

HIS
(20.11.19 03:45:06 MSK)

Ссылка

что бы без большой нагрузки проверять

Без большой нагрузки на что?

Хранение файла в памяти разгрузит ввод-вывод, например.

anonymous
(20.11.19 07:13:24 MSK)

Ссылка

да

deep-purple ★★★★★
(20.11.19 09:05:17 MSK)

Ссылка

считать сразу файл в память и потом проверять там наличие подстроки - это большая нагрузка ?

x905 ★★★★★
(20.11.19 10:40:38 MSK)

Ответ на: комментарий от x905 20.11.19 10:40:38 MSK

уверен что сразу?

deep-purple ★★★★★
(20.11.19 10:42:42 MSK)

Ответ на: комментарий от deep-purple 20.11.19 10:42:42 MSK

уверен что сразу?

заранее считать имел ввиду, ТС не сказал сколько памяти свободно, а 2ГБ это уже мало, пусть считает, нам его память не жалко

x905 ★★★★★
(20.11.19 10:47:41 MSK)

Ответ на: комментарий от x905 20.11.19 10:47:41 MSK

да ты оцензурел! 2 гб ради одного файла это очень много

deep-purple ★★★★★
(20.11.19 10:51:07 MSK)

На свете нет ничего быстрее, чем загрузить эти 2Гб в память (не так уж сложно по нынешным временам) и искать там вначале первую букву строки потом всю строку сравнивать.

vodz ★★★★★
(20.11.19 10:53:43 MSK)

Ответ на: комментарий от deep-purple 20.11.19 10:51:07 MSK

2 гб ради одного файла это очень много

ТС не сказал - много это ему или мало, быстрее не будет чем из памяти считать

x905 ★★★★★
(20.11.19 10:54:50 MSK)

Ответ на: комментарий от vodz 20.11.19 10:53:43 MSK

а вот еще один оптимизатор подьехал

deep-purple ★★★★★
(20.11.19 10:54:53 MSK)

Ответ на: комментарий от deep-purple 20.11.19 10:54:53 MSK

а вот еще один оптимизатор подьехал

Дык. Всегда полезно иметь алгоритм самый быстрый из возможных под рукой, пусть для только тестов и сравнения.

vodz ★★★★★
(20.11.19 10:58:48 MSK)

Ответ на: комментарий от x905 20.11.19 10:54:50 MSK

начни думать о том, что в 2гб текста (под)стрОки врядли уникальны

deep-purple ★★★★★
(20.11.19 10:59:22 MSK)
Последнее исправление: deep-purple 20.11.19 10:59:42 MSK (всего исправлений: 1)

Ответ на: комментарий от deep-purple 20.11.19 10:59:22 MSK

начни думать о том, что в 2гб текста (под)стрОки врядли уникальны

не совсем понял мысль

ТС нужно найти в большой строке «2ГБ» малую строку «100 байт» каким то методом типа find() ?
и так 100 раз в секунду ?

x905 ★★★★★
(20.11.19 11:10:38 MSK)

Ссылка

Зачем классические бд? Elk и Splunk же прекрасно с этим справятся. Ещё алерты и репорты выдадут.

skyman ★★★★★
(20.11.19 11:14:59 MSK)

Ссылка

https://docs.python.org/3/library/stdtypes.html#dict Но сожрет много памяти.
https://stackoverflow.com/questions/1731971/is-there-a-multimap-implementation-in-python с хешами строк в качестве ключей.
sqlite. Но сожрет много памяти.
libfpta со вторичным unorderd индексом без ограничений уникальности. Это раз в 5-10 раз быстрее sqlite, но opensource байдингов для питона нет.
поставить рядом tarantool.
поставить рядом elasticsearch, но прицеп jvm-говна будет больше чем БД.
на скриптах, пользовать test --hash-stdin-strings из t1ha и grep.

+еще 33 способа

Deleted
(20.11.19 11:54:34 MSK)

Ссылка

~~@foozzi~~, расскажи чем закончилось.

~~WitcherGeralt~~ ★★
(20.11.19 12:44:26 MSK)

лучше будет его спарсить

python3

взаимоисключающие параграфы

lovesan ★★☆
(20.11.19 20:38:12 MSK)

Ссылка

Ответ на: комментарий от WitcherGeralt 20.11.19 12:44:26 MSK

А потом ТС наконец понял, что он не понял о чём спрашивал.

HIS
(20.11.19 21:16:22 MSK)

Ссылка

Ответ на: комментарий от vodz 20.11.19 10:58:48 MSK

Читай, оптимизатор)

https://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D0%B8%D1%81%D0%BA_%D0%BF%D0%BE%D0%B4%D1%81%D1%82%D1%80%D0%BE%D0%BA%D0%B8

anonymous
(20.11.19 21:52:24 MSK)

Ответ на: комментарий от anonymous 20.11.19 21:52:24 MSK

Да причём тут это. ТС сказал: файл не будет меняться. Зачем что либо нужно для сканирования более одного раза?

HIS
(20.11.19 21:55:58 MSK)

Ответ на: комментарий от HIS 20.11.19 21:55:58 MSK

я устал от твоего поноса, перечитай что я писал,а не высирай рандомные предложения.

Я сказал что файл не меняется, но строки генерируются по 20 штук в секунду каждую из которых нужно проверить на существование в файле.

Просто не пытайся что либо ответить, от твоих ответов абсолютно 0 толку

noname_user ★★★
(20.11.19 22:40:55 MSK) автор топика

Ответ на: комментарий от noname_user 20.11.19 22:40:55 MSK

Научись спрашивать в начале и не груби пожалуйста.

Если бы ты умел хорошо предоставлять свою мысль - тебе уже ответили ещё вчера.

Поработай над собой.

И да я тебе уж ответил что БД тебе в помощь.

Успехов тебе в познании как нужно хорошо спрашивать.

Хорошо заданный вопрос - 50% ответа.

HIS
(20.11.19 22:46:50 MSK)

Ссылка

Ответ на: комментарий от noname_user 20.11.19 22:40:55 MSK

Я сказал что файл не меняется, но строки генерируются по 20 штук в секунду каждую из которых нужно проверить на существование в файле.

Это шедевр.

HIS
(20.11.19 23:09:54 MSK)

Ответ на: комментарий от noname_user 20.11.19 22:40:55 MSK

Так все-таки нужна strstr() на питоне или поиск целой строки в файле с разделителями?

Deleted
(20.11.19 23:12:42 MSK)
Последнее исправление: Deleted 20.11.19 23:14:01 MSK (всего исправлений: 1)

Ответ на: комментарий от Deleted 20.11.19 23:12:42 MSK

А какая в хер разница? Вы все ему в память предлагаете грузить. Сегодня у него этих данных 2 гб, завтра 2тб.

anonymous
(20.11.19 23:14:59 MSK)

Ответ на: комментарий от Deleted 20.11.19 23:12:42 MSK

ТС не понимает отличие изменения имени файла от изменения файла.

А дальше вопрос пока не думаю, что нужно ставить сложнее. ТС и так уже запутался.

HIS
(20.11.19 23:16:00 MSK)

Ссылка

Ответ на: комментарий от anonymous 20.11.19 23:14:59 MSK

Так все-таки нужна strstr() на питоне или поиск целой строки в файле с разделителями?

А какая в хер разница? Вы все ему в память предлагаете грузить. Сегодня у него этих данных 2 гб, завтра 2тб.

Разница примерно такая-же как между N и N*N.

Если переформулировать в LOR-терминах, то разница как между жопой и пальцем.

Deleted
(20.11.19 23:16:03 MSK)
Последнее исправление: Deleted 20.11.19 23:20:11 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от noname_user 20.11.19 22:40:55 MSK

для начала, ты это расписывал три сообщения и так что хер поймёшь.

Сделай для этого файла индекс(хеши строк в какое-нибудь подходящее дерево) и держи его в памяти. поиск быстрый, io не будет, а поскольку файл не меняется, перестраивать индекс можно только на старте, а то и вообще сериализовать рядом, по ситуации.

Вместо того чтобы внятно расписать сразу, хернёй страдаешь.

Dark_SavanT ★★★★★
(20.11.19 23:19:52 MSK)

Ответ на: комментарий от noname_user 20.11.19 22:40:55 MSK

строки генерируются по 20 штук в секунду каждую из которых нужно проверить на существование в файле

Это не цель, а средство. Ответил бы нормально и рассказал какую задачу решаешь, в чём проблема? Ведя себя как отбитый аутист ты ничего не добьёшься.

Скорее всего ты вытворяешь наитупейшую херню. Очевидно, что проверенные строки ты как-то собираешься использовать. А файл у тебя, меж тем, статичный, следовательно, однажды проверенная и использованная строка у тебя может повторяться сколько угодно раз, т.к. в файл она не попала. Если это норм, тогда не понятно зачем нужна генерация. Впрочем, разгадывать этот бред смысла нет.

~~WitcherGeralt~~ ★★
(20.11.19 23:25:00 MSK)

Ответ на: комментарий от Dark_SavanT 20.11.19 23:19:52 MSK

Да не нужен ему ни файл, ни индекс скорее всего. Готов поставить, что это не более чем порождение больной фантазии и быдлокодерской смекалки. Ну не может такая странная вещь оказаться чем-то полезным, когда её пилит человек, не способный даже задачу сформулировать.

~~WitcherGeralt~~ ★★
(20.11.19 23:27:53 MSK)

Ответ на: комментарий от WitcherGeralt 20.11.19 23:27:53 MSK

Идём лучше запилим БД на Ардуино для русских шашек, где никто выиграть не сможет.

ТС уже задолбал своей невразумительностью.

HIS
(20.11.19 23:34:55 MSK)
Последнее исправление: HIS 20.11.19 23:35:33 MSK (всего исправлений: 1)

Ответ на: комментарий от WitcherGeralt 20.11.19 23:27:53 MSK

Я про шашки серьёзно.

Давай зафигачим!

Ну типа просто как чтобы забава помимо суеты. М?

HIS
(20.11.19 23:47:05 MSK)

Ответ на: комментарий от HIS 20.11.19 23:34:55 MSK

Так ведь интересно в чём соль была. Заинтриговал и молчит.

~~WitcherGeralt~~ ★★
(20.11.19 23:47:44 MSK)

Ответ на: комментарий от HIS 20.11.19 23:47:05 MSK

Работы так дофига, что я в качалке уже полгода не был. Не хватало мне ещё в отающееся время кодить, я лучше подегродствую.

Реально, только осознал, что скоро полгода уже, благо хоть вес держится, пора возобновлять.

~~WitcherGeralt~~ ★★
(20.11.19 23:52:17 MSK)

Ссылка

Ответ на: комментарий от WitcherGeralt 20.11.19 23:47:44 MSK

Да он просто пока не понимает что и чего хочет.

Наверняка молодой ишшо. Спе….коз стрельнул в голову, а как с этим справляться пока не понял.

HIS
(20.11.19 23:52:19 MSK)

Ответ на: комментарий от HIS 20.11.19 23:52:19 MSK

Хз на счёт молодого, он на лоре в 2011 зарегистрировался, лет 20 уж всяко должно быть.

~~WitcherGeralt~~ ★★
(20.11.19 23:53:56 MSK)

Ответ на: комментарий от WitcherGeralt 20.11.19 23:53:56 MSK

я с 2008 - мне уже 100 должно быть? :)

HIS
(20.11.19 23:55:19 MSK)

Ответ на: комментарий от HIS 20.11.19 23:34:55 MSK

Идём лучше запилим БД на Ардуино для русских шашек

Ардуино - ок.

Шашки - ок.

Но зачем там БД?

Заинтриговал )

Deleted
(20.11.19 23:55:54 MSK)

Ответ на: комментарий от HIS 20.11.19 23:55:19 MSK

Под тридцатник-то как минимум.

~~WitcherGeralt~~ ★★
(20.11.19 23:56:32 MSK)

Ссылка

Ответ на: комментарий от Deleted 20.11.19 23:55:54 MSK

Зачем там ардуино, когда на ESP можно сразу север поднять

anonymous
(20.11.19 23:56:41 MSK)

Ссылка

Ответ на: комментарий от Deleted 20.11.19 23:55:54 MSK

Ну обычный перебор и так в моих древних шашках под DOS рубит людей как мясо…

Я вот недавно проанализировал, что можно сделать даже на Arduino Mega полностью не проигрывающие шашки. Признаюсь, что полный анализ не провёл, но по прикидкам 200 килобайт вроде хватит на не полную но без проигрышную базу партий.

HIS
(21.11.19 00:01:42 MSK)

Ответ на: комментарий от HIS 21.11.19 00:01:42 MSK

Так и подумал. А сколько всего в шашках комбинаций?

~~WitcherGeralt~~ ★★
(21.11.19 00:03:00 MSK)

Ответ на: комментарий от WitcherGeralt 21.11.19 00:03:00 MSK

Если полный тупой перебор - петабайты.

Но это если по тупому. А так в принципе несколько сот партий по несколько десятков ходов в каждой.

В принципе шахматы не далеко ушли от этого.

HIS
(21.11.19 00:04:42 MSK)

Ссылка

Ответ на: комментарий от WitcherGeralt 20.11.19 03:15:02 MSK

Я так с заказчиками общаюсь, не привыкать

peregrine ★★★★★
(21.11.19 00:05:39 MSK)

Ссылка

Ответ на: комментарий от HIS 20.11.19 23:09:54 MSK

Ему прилетают строки и он проверяет их наличие в файле, вместо того, чтобы взять бд и делать по-человечески. Как вариант если ему БД ни на фиг не сдалась, я предложил брать от строк хеши и хранить только их, соответственно и сверяться только с ними, благо они меньше строк произвольной длинны.

peregrine ★★★★★
(21.11.19 00:08:59 MSK)

Ответ на: комментарий от peregrine 21.11.19 00:08:59 MSK

Да не парся. ТС так и не написал сути задачи.

HIS
(21.11.19 00:10:01 MSK)

Ссылка

grep уже предлагали?

anonymous
(21.11.19 00:17:56 MSK)

Ссылка

Ответ на: комментарий от WitcherGeralt 21.11.19 00:03:00 MSK

Вообще эти игры сложны только для людей.

У нас мозги совсем никакие по сравнению с гигабайтами и гигагерцами тысячь процессоров у современных мобилок.

В принципе, все игры придуманные людьми в древности типа шахмат, шашек и Го, а тем более карточные - люди даже рядом не валяются с тем как могут их уделать компы.

Иногда просто плохо написаны алгоритмы (по себе знаю).

HIS
(21.11.19 00:20:31 MSK)

Похожие темы