Как организовать быстрый поиск соответствия IP адреса по списку сетей ?

0

1

Есть
1. файл с информацией об IP пакетах - src_ip,dst_ip, bytes. в котором порядка 8452к записей и их число растет
2. файл с информацией - сеть/маска , AS num. в котором порядка 866к записей
Нужно dst_ip каждой записи первого файла сматчить по сеть/маска записи второго файла и посчитать байты всех сматченных записей.чтобы в итоге получить число байт которое ушло на AS num
как организовать быстрый поиск соответствия? пробегать записью первого файла по второму - в лоб так сказать, видится не оптимальным.
можно табличку с результатами использовать как КЭШ, т.е. сначала по ней искать, в случае не нахождения по табличке в которую положу весь файл п.2 вычеркивая из табличики файла п.2 запись
либо составить дерево с ветками по первому октету сети и разбить табличку с файлом п.2 на 255 веток и уже после сделать тупой перебор
Можно привести строку файла п.2. к записи в которой сеть преобразовать к диапазону целых чисел - 1 поле - число с которого начинается сеть и 2 поле - число которым заканчивается сеть
Какими могут быть подходы для сокращения преобразований и ускорения поиска ?

Ссылка

← Java MouseDragged event

gorm падает на joins →

src_ip,dst_ip, bytes

Не mikrotik accountant случаем парсите?

Я в influxdb загнал подобную структуру и от туда можно вытаскивать запросами по ip.

Kolins ★★★★★
(07.10.21 10:41:42 MSK)

Ответ на: комментарий от Kolins 07.10.21 10:41:42 MSK

парсить планирую скриптом

Vlad-76 ★★★★
(07.10.21 10:42:37 MSK) автор топика

Ссылка

Дерево отрезков

xpahos ★★★★★
(07.10.21 10:52:47 MSK)

Какими могут быть подходы

Загнать оба файла в одну таблицу в кликхаус.

vvn_black ★★★★★
(07.10.21 11:07:56 MSK)

Ответ на: комментарий от vvn_black 07.10.21 11:07:56 MSK

зачем?

Vlad-76 ★★★★
(07.10.21 11:13:07 MSK) автор топика

Можно привести строку файла п.2. к записи в которой сеть преобразовать к диапазону целых чисел - 1 поле - число с которого начинается сеть и 2 поле - число которым заканчивается сеть

так наверное лучше. такие отрезки ж не могут пересекаться?

alysnix ★★★
(07.10.21 11:21:20 MSK)

Ответ на: комментарий от alysnix 07.10.21 11:21:20 MSK

не могут, адресное пространство интернета - это не пересекающиеся блоки разной длины (число IP в блоке).

Vlad-76 ★★★★
(07.10.21 11:23:58 MSK) автор топика
Последнее исправление: Vlad-76 07.10.21 11:24:30 MSK (всего исправлений: 1)

Ответ на: комментарий от xpahos 07.10.21 10:52:47 MSK

как его составить?
узел дерева - уникальный октет ip адреса ?

Vlad-76 ★★★★
(07.10.21 11:29:19 MSK) автор топика

Ответ на: комментарий от Vlad-76 07.10.21 11:23:58 MSK

не могут

значит из второго файла делать двоичное(или еще какое) дерево отрезков, а потом последовательно матчить записи из первого по нему. тогда n*log m.

alysnix ★★★
(07.10.21 11:29:46 MSK)

Ссылка

Ответ на: комментарий от Vlad-76 07.10.21 11:29:19 MSK

узел дерева - уникальный октет ip адреса ?

нетерминальный узел есть отрезок, охватывающий подчиненные отрезки. терминальный узел - собственно отрезок подсети, или что у тебя там.

alysnix ★★★
(07.10.21 11:49:42 MSK)

Ответ на: комментарий от Vlad-76 07.10.21 11:13:07 MSK

Чтобы сразу логи в базу писать и метрики без особых вопросов выбирать.

vvn_black ★★★★★
(07.10.21 11:50:39 MSK)
Последнее исправление: vvn_black 07.10.21 11:50:50 MSK (всего исправлений: 1)

Ответ на: комментарий от alysnix 07.10.21 11:49:42 MSK

в принципе понятно, осталось эффективный код написать

Vlad-76 ★★★★
(07.10.21 11:50:42 MSK) автор топика

Ответ на: комментарий от vvn_black 07.10.21 11:50:39 MSK

в этой БД есть функции проверки вхождения IP в блоки сетей?

Vlad-76 ★★★★
(07.10.21 11:54:39 MSK) автор топика

Следует учитывать, что адрес может попасть в несколько подсетей, и выбирать обычно следует самую узкую.

Elyas ★★★★★
(07.10.21 11:54:50 MSK)
Последнее исправление: Elyas 07.10.21 11:55:28 MSK (всего исправлений: 1)

Ответ на: комментарий от Vlad-76 07.10.21 11:50:42 MSK

в принципе понятно, осталось эффективный код написать

можно и троичное дерево сделать (лево,центр, право). если в узел попал, и он нетерминальный, то сначала ищешь в центральном отрезке, если ты левей - уходишь на левый, правей - на правый

alysnix ★★★
(07.10.21 11:55:37 MSK)

Поделить на сегменты по маске, соответствие AS num получать поиском бинарного 32-битного значения ip&~mask по сегментам бинарным поиском.

bormant ★★★★★
(07.10.21 11:55:56 MSK)

Ссылка

Ответ на: комментарий от Elyas 07.10.21 11:54:50 MSK

Это первый фильтр на файл п.2 - очистить файл (сеть,AS) от мелких блоков, оставить нужно самые крупные блоки от AS ки.

Vlad-76 ★★★★
(07.10.21 11:57:46 MSK) автор топика

Ссылка

какие у тебя проблемы со скоростью, что конкретно тормозит?

anonymous
(07.10.21 11:59:12 MSK)

Ответ на: комментарий от Vlad-76 07.10.21 11:54:39 MSK

https://stackoverflow.com/questions/66054802/how-to-match-ip-addresses-to-a-subnets-and-get-sum

https://github.com/ClickHouse/ClickHouse/issues/6808

vvn_black ★★★★★
(07.10.21 12:00:13 MSK)
Последнее исправление: vvn_black 07.10.21 12:00:47 MSK (всего исправлений: 1)

Ответ на: комментарий от anonymous 07.10.21 11:59:12 MSK

да проблем ни каких, )) тупой перебор еще не реализовал.
просто подумалось что можно сделать быстрее и решил пообщаться со спецами на форуме.

Vlad-76 ★★★★
(07.10.21 12:02:06 MSK) автор топика

Ссылка

Ответ на: комментарий от vvn_black 07.10.21 12:00:13 MSK

все так

Vlad-76 ★★★★
(07.10.21 12:10:15 MSK) автор топика

Ссылка

Ответ на: комментарий от alysnix 07.10.21 11:55:37 MSK

в принципе да, в интернете префиксов длиннее чем /24 быть не может для IPv4

Vlad-76 ★★★★
(07.10.21 12:19:54 MSK) автор топика

Ссылка

https://www.postgresql.org/docs/14/functions-net.html

Turbid ★★★★★
(07.10.21 12:41:23 MSK)

Ссылка

Trie. Оно же raidix tree. Подумай про IP не как о числе, а как о бинарной строке. Тебе нужно найти все строки (сети с маской), являющиеся подстрокой из твоей строки (ip).

Нужно dst_ip каждой записи первого файла сматчить по сеть/маска записи второго файла и посчитать байты всех сматченных записей.чтобы в итоге получить число байт которое ушло на AS num как организовать быстрый поиск соответствия? пробегать записью первого файла по второму - в лоб так сказать, видится не оптимальным.

Тебе нужно найти прямое произведение всех элементов двух множеств. Ясен хрен у тебя n^2 будет. Если список сетей отсортируешь, то можешь уложиться в n*log(n).

Вот тебе либа на русте, которая позволяет такое сделать: https://docs.rs/treebitmap/0.4.0/treebitmap/

~~hateyoufeel~~ ★★★★★
(07.10.21 15:03:54 MSK)
Последнее исправление: hateyoufeel 07.10.21 15:12:19 MSK (всего исправлений: 3)

Ответ на: комментарий от hateyoufeel 07.10.21 15:03:54 MSK

ее как то к сишке или через сишку прикрутить можно?

Vlad-76 ★★★★
(07.10.21 15:25:11 MSK) автор топика

Ответ на: комментарий от Vlad-76 07.10.21 15:25:11 MSK

Наверняка да, но стопудов сишные реализации этого тоже есть. Посмотри сырцы любого BGP демона.

Либо выучи раст. Тут не то чтобы много кода тебе придётся написать:

Всосать файл с подсетями и сделать из него вот это дерево.
Построчно перебрать IP адреса, сделать поиск по дереву, выдать результат в другой файл.
???
PROFIT!

~~hateyoufeel~~ ★★★★★
(07.10.21 16:44:19 MSK)