Парсинг тяжелых txt-файлов на совпадения (средствами GPU)

0

1

Всем привет! У меня есть огромный файл1.txt (id;login;pass) на 5гб, и файл2.txt (id;pass) ещё больше по размеру, ~30ГБ Нужно из под винды каким-то образом запустить перебор, чтобы по порядку брался PASS из первого файла, и проверялся на совпадения из второго файла. При совпадении - записывался к примеру в файл result.txt в формате (id;login;pass), т.е. как в первом файле. Но фишка в том, что нужно чтобы перебор шел силами GPU, т.к. не хотелось бы нагружать i7 когда простаивают 2xGtX1080ti. Подскажите, как это можно написать, и возможен ли такой перебор в win, или обязательно нужен линукс?

Ссылка

←	Прошу помочь собрать драйвер.

Проблемы с потреблением RES памяти

→

Внизу «Похожие темы» глянь.

greenman ★★★★★
(12.09.18 16:55:13 MSK)

Ссылка

У меня есть огромный файл1.txt (id;login;pass) на 5гб

В 2018 году 5 гиг свободно влезает в оперативку. И если задача разовая, то можно просто сделать хэшик pass -> [(login1, id1), ...] и профильтровать 30гигабайтный файл с паролями через этот хэшик хоть на питоне.

Более-менее GPU на эту задачу ложится для сортировки файлов ради последующего поиска пересечений за линейное время.

Я, конечно, не большой знаток cuda, но вроде как ветвления во все времена не были ее сильной стороной.

kawaii_neko ★★★★
(12.09.18 16:59:46 MSK)

Видеокарта умеет только эффективно складывать матрицы. Твоя задача решается сложением матриц?

anonymous
(12.09.18 17:19:46 MSK)

Ссылка

GPGPU может делать только то, на что она рассчитана. не надо ее считать универсальным вовседырошно крутым вариантом CPU.

сильно ускорить можно подсчет хешей от паролей.остальное менее привязано к GPGPU.

а вот сравнение на GPGPU будет хитроопой задачей.

pfg ★★★★★
(12.09.18 17:34:01 MSK)
Последнее исправление: pfg 12.09.18 17:35:37 MSK (всего исправлений: 1)

Ссылка

на процессоре будет быстрее

видеокарта будет по маленькому куску сравнивать(размер буферов в видеокарте очень мал) плюс буфер кэша нужен будет(котрый будет на CPU)...на процессоре быстрее будет

~~missxu~~
(12.09.18 18:14:14 MSK)

Ответ на: комментарий от kawaii_neko 12.09.18 16:59:46 MSK

Я, конечно, не большой знаток cuda, но вроде как ветвления во все времена не были ее сильной стороной.

и никогда не будут

~~missxu~~
(12.09.18 18:16:25 MSK)

Ссылка

Не надо делать перебор второго файла для каждого значения из первого. Отсортируй оба файла и реши задачу за один проход.

Elyas ★★★★★
(12.09.18 19:14:02 MSK)

На GPU полностью перевести сложно и не факт, что в данном случ. Но эту задачу можно попробовать решить при помощи какого-нибудь Spark.

Shtsh ★★★★
(12.09.18 19:17:13 MSK)

Ссылка

Ответ на: комментарий от Elyas 12.09.18 19:14:02 MSK

ничего, что ты предлагаешь 2 сортировки из файла, каждая до O(N^2) + дополнительно проход O(N)?

Shtsh ★★★★
(12.09.18 19:18:55 MSK)
Последнее исправление: Shtsh 12.09.18 19:19:43 MSK (всего исправлений: 1)

есть огромный файл1.txt (id;login;pass) на 5гб, и файл2.txt (id;pass) ещё больше по размеру, ~30ГБ

Виртуалка, в которой эти огромные файлы влезут в оперативу стоит 35 центов в час. Это где-то 25 рублей.

ugoday ★★★★★
(12.09.18 19:23:53 MSK)

Ссылка

Ответ на: комментарий от Shtsh 12.09.18 19:18:55 MSK

Ну если постараться, можно найти сортировки и с О(N^3)

Elyas ★★★★★
(12.09.18 19:24:24 MSK)

Ответ на: комментарий от Elyas 12.09.18 19:24:24 MSK

https://en.wikipedia.org/wiki/Bogosort

Average performance O((n+1)!), Худший - ∞

Shtsh ★★★★
(12.09.18 19:33:07 MSK)

Ссылка

Скорми свои таблички СУБД, и отдай хеширование, индексирование и прочую оптимизацию ей, что тебе надо называется inner join, в терминах SQL.

klokik ★
(12.09.18 19:36:55 MSK)

Ответ на: комментарий от klokik 12.09.18 19:36:55 MSK

Правильно. Нужно еще sql-сервер купить у оракла. Бюджет выделен, а освоить никак не получается.

anonymous
(12.09.18 19:47:38 MSK)

Ответ на: комментарий от missxu 12.09.18 18:14:14 MSK

Взгляд пал на GPU потому что видел, как с бюджетной картой подбирали пароль к wifi со скоростью 300к. штук в секунду, но это на линуксе. Решил что в моем случае это подойдет, хотя мне без разницы как, главное быстро. К примеру вот такой 5-ти гиговый файл чекнуть на совпадения во втором минут за 10.

mordegar
(12.09.18 20:45:47 MSK) автор топика

Ответ на: комментарий от mordegar 12.09.18 20:45:47 MSK

Взгляд пал на GPU потому что видел, как с бюджетной картой подбирали пароль к wifi со скоростью 300к. штук в секунду, но это на линуксе.

опять эти статьи для блондинок....

смотри как это работает:
1. изначально был «хеш пароля», тоесть по факту пароль не подбирался
подбор это когда пароль генерируют и шлют «на сервер приема» для проверки, так конечно не будет работать нигде
2. на видеокарте генерируют «хеши пачками» и сравнивают с изначальным хешем, как он подошел-значит то с чего сгенерировали и есть пароль
все

тоесть весь этот подбор пароля-генерация на видеокарте хешей и сравнение с ОДНИМ

у тебя задача-загрузить десятки гигабайт и сравнить с другой десяткой гигабайт-это будет невероятно медленно на видеокарте
твоя задача другого плана абсолютно

~~missxu~~
(12.09.18 21:29:26 MSK)

Лучше попробуй Эльбрус или Амуде FX, базарю.

anonymous
(12.09.18 21:32:13 MSK)

Ответ на: комментарий от missxu 12.09.18 21:29:26 MSK

Ааа.. ну ок, мне не принципиально чем сравнивать, можно и процессором, просто интересна скорость, если 5гб будут сравниваться сутки, то вся идея не имеет смысла. Уточно ещё момент, что за совпадение считается не только «строка 512=строка 512», но и «строка 512=строка 8273412» если такое совпадение существует, это важно.

mordegar
(12.09.18 21:35:16 MSK) автор топика

Ответ на: комментарий от mordegar 12.09.18 20:45:47 MSK

К примеру вот такой 5-ти гиговый файл чекнуть на совпадения во втором минут за 10.

загрузка 600мб на видеокарту=100мсек
+столькоже выгрузка(если нужно, в твоем примере с хешами даже выгрузка не нужна, нужен только один конечный результат)

так как у тебя данные разные-тебе их надо загружать на каждый расчет
кроме того тебе еще надо проверять каждое слово на совпадение всем в другом файле
это задача не для видеокарты ни с какой стороны

~~missxu~~
(12.09.18 21:36:31 MSK)

Ссылка

Ответ на: комментарий от anonymous 12.09.18 21:32:13 MSK

Хорошо, кстати да первый у меня на др пел, скорее всего согласится перебрать пару файлов.

mordegar
(12.09.18 21:38:48 MSK) автор топика

Ссылка

Ответ на: комментарий от mordegar 12.09.18 21:35:16 MSK

если надо то могу написать тебе код для видеокарты который будет это делать, не бесплатно это займет некотрое время (в течении нескольких дней скину)

~~missxu~~
(12.09.18 21:38:57 MSK)

Ответ на: комментарий от missxu 12.09.18 21:38:57 MSK

Мне для этой проги линукс нужен будет?

mordegar
(12.09.18 21:41:08 MSK) автор топика

Ответ на: комментарий от mordegar 12.09.18 21:41:08 MSK

любая ОС с нвидией

~~missxu~~
(12.09.18 21:44:21 MSK)

Ответ на: комментарий от missxu 12.09.18 21:44:21 MSK

Скинь свою почту, напишу.

mordegar
(12.09.18 21:45:08 MSK) автор топика

Ответ на: комментарий от mordegar 12.09.18 21:45:08 MSK

s48gs.w
[at]
gmail.com

~~missxu~~
(12.09.18 21:46:28 MSK)

Ссылка

Ответ на: комментарий от anonymous 12.09.18 19:47:38 MSK

Правильно. Нужно еще sql-сервер купить у оракла.

Потом ещё окажется, что за время загрузки в БД можно было уже раз 5 прочекать.

vodz ★★★★★
(12.09.18 21:54:35 MSK)

Ответ на: комментарий от vodz 12.09.18 21:54:35 MSK

А ТС так и не признался нужно ли ему один раз проверить, или файлы меняються.

В догонку:

https://viralfsharp.com/2014/08/21/supercharging-sql-join-with-gtx-titan-cuda...

https://viralfsharp.com/2014/08/22/supercharging-sql-join-with-gtx-titan-cuda...

klokik ★
(12.09.18 23:28:09 MSK)

Ссылка

Для таких вещей реляционные СУБД придумали в прошлом тысячелетии. Это если всю жизнь такими поисками заниматься.

Перебор тебе не нужен, нужно 1 раз отсортировать 2 файла, и потом искать не перебором, а бинарным поиском. Да даже и не бинарным, а 1 раз просканировать пару отсортированных файлов.

anto215 ★★
(13.09.18 00:02:05 MSK)

Ссылка

Ответ на: комментарий от mordegar 12.09.18 20:45:47 MSK

что ты хочешь сделать называется Брутфорс

ищи программу

/thread

sqq ★
(13.09.18 00:03:00 MSK)

Ссылка

Ответ на: комментарий от missxu 12.09.18 21:29:26 MSK

у тебя задача-загрузить десятки гигабайт и сравнить с другой десяткой гигабайт-это будет невероятно медленно на видеокарте. твоя задача другого плана абсолютно

А мне вот непонятно, другая ли. Вот скажем, есть файл с хешами и файл с «простыми» паролями. Значить надо извлечь из первого файла все соли, потом брать их пачками по количеству GPU и по одному паролю из второго файла генерировать хеши по одному и тому же алгоритму, но с разными солями. Потому если задача именно такая, то тут GPU — идеально.

vodz ★★★★★
(13.09.18 07:38:02 MSK)
Последнее исправление: vodz 13.09.18 07:40:20 MSK (всего исправлений: 3)