Data mining

data mining, алгоритмы, обработка данных, оптимизация

1

3

Всем привет!

Мне иногда требуется анализировать большие текстовые файлы, хочется автоматизировать этот процесс. Написал PoC:

% find /usr/bin |head -300 |~/classifier.pl|tail -30
75      /usr/bin/*g
2       /usr/bin/idevice*proxy
2       /usr/bin/tri-*edgeflag
113     /usr/bin/*r
11      /usr/bin/*-config
2       /usr/bin/transmission-*
3       /usr/bin/tri-unfilled-*
4       /usr/bin/Magick*-config
14      /usr/bin/tri-*
29      /usr/bin/*y
19      /usr/bin/l*
2       /usr/bin/mate-*-properties
107     /usr/bin/*s
98      /usr/bin/*d
21      /usr/bin/m*
20      /usr/bin/c*
2       /usr/bin/tri-unfilled-userclip*
3       /usr/bin/x86_64-unknown-linux-gnu-*
108     /usr/bin/*l
2       /usr/bin/x86_64-unknown-linux-gnu-gcc-*
24      /usr/bin/i*
23      /usr/bin/g*
142     /usr/bin/*e
300     /usr/bin*
123     /usr/bin/*p
141     /usr/bin/*t
37      /usr/bin/t*
36      /usr/bin/p*
299     /usr/bin/*

Утилита находит наиболее длинные и общие wildcards и выводит количество совпавших строк stdin. (Звёздочек может быть больше одной).

К сожалению, сложность текущего алгоритма растёт пропорционально квадрату строк. Как подобное написать без квадратичной зависимости? Может есть готовая утилита?

Ссылка

← Годные нишевые языки с перспективой

Perl - опередилть, существует ли метод. →

google://longest common substring ?

Deleted
(25.05.15 12:31:09 MSK)

К сожалению, сложность текущего алгоритма растёт пропорционально квадрату строк. Как подобное написать без квадратичной зависимости?

Ты бы хоть детали текущего алгоритма привел для начала.

yoghurt ★★★★★
(25.05.15 12:34:31 MSK)

Ответ на: комментарий от Deleted 25.05.15 12:31:09 MSK

Да, сейчас ищу через эти них. Проблема в том, чтобы найти вайлдкарды, мне нужно найти LCS для N*N строк, а это очень долго для больших объёмов (22 секунды уже на пятистах строках).

disarmer ★★★
(25.05.15 12:40:52 MSK) автор топика

Ссылка

Ответ на: комментарий от yoghurt 25.05.15 12:34:31 MSK

Вот код: http://disarmer.ru/ln/?1E

функция s2r - построение общего вайлдкарда для двух строк

Вкратце, читаю весь stdin в массив, потом прохожу по нему в двойном цикле для нахождения общих вайдкардов(отсюда и квадратичная сложность). Записываю найденные общие строки в ассоциативный массив с количеством повторов. Потом сортирую по количеству повторов и длине вайдкарда и вывожу

disarmer ★★★
(25.05.15 12:57:20 MSK) автор топика

Ответ на: комментарий от disarmer 25.05.15 12:57:20 MSK

На ум приходит введение какой-нибудь метрики на основе расстояния Левенштейна или около того, либо построение radix tree для всех известных строк и анализ его

yoghurt ★★★★★
(25.05.15 13:19:35 MSK)

Ответ на: комментарий от yoghurt 25.05.15 13:19:35 MSK

А такое дерево сможет мне помочь, в чём-то кроме как подсчёте LCS? http://en.wikipedia.org/wiki/Longest_common_substring_problem#Suffix_tree

disarmer ★★★
(25.05.15 13:45:13 MSK) автор топика

1) по тобой же приведенной ссылке указана оценка сложности алгоритма.

2) если ты анализируешь что то такое как привел, то сохранение кеша мемоизированной функции извлечения общей части строк возможно даст ускорение в заполнении матрицы сравнений

psv1967 ★★★★★
(25.05.15 15:11:11 MSK)

Ответ на: комментарий от psv1967 25.05.15 15:11:11 MSK

указана оценка сложности алгоритма.

Там же оценка сложности нахождения общей подстроки, у меня задача шире - по этим подстрокам найти наиболее общие. Здесь то и получается квадратичная сложность, потому что кроме как перебора всех со всеми, я не знаю алгоритма.

сохранение кеша мемоизированной функции извлечения общей части строк

Проверил, стало дольше(25 секунд против 22). Оно и понятно - ведь в эту функцию передаются неповторяющиеся аргументы

disarmer ★★★
(25.05.15 16:02:39 MSK) автор топика

Ссылка

Ответ на: комментарий от disarmer 25.05.15 13:45:13 MSK

А такое дерево сможет мне помочь, в чём-то кроме как подсчёте LCS?

Да в нем же все что нужно и будет? Все наиболее длинные подстроки, с количеством вхождений.

Там в статье как-то слишком уж адово изобразили суффиксное дерево, вот здесь http://en.wikipedia.org/wiki/Suffix_tree все нормально описано.

Суффиксные деревья легко программировать, идеи очень простые. Единственная неприятность - они требуют неприлично много памяти. Можно получить дерево порядка на 2 объемнее, чем исходные данные. Ну, если данных сотни килобайт, нормально.

Deleted
(25.05.15 18:22:10 MSK)

Не знаю, насколько это годится именно для строк, но для майнинга линейных паттернов применяется Apriori algorithm http://en.wikipedia.org/wiki/Apriori_algorithm

его расширения Partitioning, Apriori pruning и масштабируемые алгоритмы Eclat, FPgrowth

Bell
(25.05.15 19:21:23 MSK)

Ответ на: комментарий от Deleted 25.05.15 18:22:10 MSK

Да, подстроки из дерева можно извлечь, я легко смогу найти количество упоминаний например /usr/bin/t*, но как найти вайлдкарды с звёздочкой в середине, вроде /usr/bin/*-config?

Данных обычно немного, до десятка тысяч строк, в крайнем этого хватит для репрезентативной выборки. Ну и tradeoff в сторону памяти выгоднее, время выполнения важнее.

disarmer ★★★
(25.05.15 21:26:26 MSK) автор топика

Ответ на: комментарий от Bell 25.05.15 19:21:23 MSK

Пока не вижу как применить к этой задаче, разве что учитывать связи между подстроками, но тут надо экспериментировать.

А в machine learning нет никаких готовых утилит для поиска закономерностей в тексте такого типа?

disarmer ★★★
(25.05.15 21:48:59 MSK) автор топика

Ответ на: комментарий от disarmer 25.05.15 21:48:59 MSK

ML это немного другая область. У тебя именно Data mining. Я этим не занимался, посоветовать готовое решение не могу. Но задача типичная, поэтому можно искать так:
frequent Pattern Mining in Web Log Data
frequent pattern mining text/strings
sequential pattern mining

Вот что-то попалось:
http://www.philippe-fournier-viger.com/spmf/
http://stackoverflow.com/questions/19775978/fuzzy-pattern-search-in-a-string-...

Bell
(25.05.15 22:58:49 MSK)

Ответ на: комментарий от Bell 25.05.15 22:58:49 MSK

Спасибо, spmf интересно выглядит, надо посмотреть

disarmer ★★★
(25.05.15 23:18:56 MSK) автор топика

Ссылка

Ответ на: комментарий от disarmer 25.05.15 21:26:26 MSK

как найти вайлдкарды с звёздочкой в середине, вроде /usr/bin/*-config?

Да, для такого, наверное, суффиксные деревья не помогут.

Тогда более правильная ссылка - http://en.wikipedia.org/wiki/Longest_common_subsequence_problem

А какая конечная цель этого? Что нужно получить?

Я из любопытства сделал руками поиск наибольшей общей подпоследовательности и прогнал так же как и ты попарно названия файлов из /usr/bin/:

$ find /usr/bin/ | wc -l
1703
$ time find /usr/bin/ | ./a.out >/dev/null

real	0m3.720s
user	0m3.720s
sys	0m0.004s

То есть если пооптимизировать, можно, наверное и десятки тысяч строк обрабатывать за секунды

Вот код (на С++): https://gist.github.com/vmxdev/a795aa4a9b6d60896b9d/ , там главное это функция wildcard, пытается найти в двух строках максимально похожее и сгенерировать из этого шаблон со звездочками

Deleted
(26.05.15 23:06:21 MSK)

Ответ на: комментарий от Deleted 26.05.15 23:06:21 MSK

Спасибо, сишный код намного быстрее работает, но результат странный, попробую настроить вывод до похожего

Longest_common_subsequence_problem

Я посмотрел внутрь модуля, оказывается мой алгоритм как раз последовательности ищет, а не подстроки

А какая конечная цель этого? Что нужно получить?

Попытаться получить наиболее частовстречающиеся шаблоны строк для первичного анализа. Например для анализа более-менее однообразных логов или списков файлов. Отфильтровать незначимые(вроде /usr/bin/*r*e*) можно по длине шаблона

В идеале хочется получить что-то вроде такого, на примере лога nginx:

150   2014/12/* [error] 19460#0: * open() "/*" failed (2: No such file or directory), client: *, server: , request: "HEAD /* HTTP/1.1", host: "disarmer.ru"
40   2014/12/01 [error] 19460#0: * open() "/*" failed (2: No such file or directory), client: *, server: , request: "HEAD /* HTTP/1.1", host: "disarmer.ru"
20    2014/12/* [error] 19460#0: * connect() failed (111: Connection refused) while connecting to upstream, client: *, server: disarmer.ru, request: "GET /* HTTP/1.1", upstream: "http://*",

Один взгляд на результат такого фильтра избавит от десятков выполнения grep

disarmer ★★★
(27.05.15 00:28:40 MSK) автор топика

Ответ на: комментарий от disarmer 27.05.15 00:28:40 MSK

для анализа более-менее однообразных логов или списков файлов. Отфильтровать незначимые(вроде /usr/bin/*r*e*) можно по длине шаблона

А-а. Ну, возможно я неправильно понимаю задачу, но попарным сравнением особо много не увидишь?

Может быть лучше было бы держать два набора - один с закономерностями, другой с аномалиями (с разными вычислениями метрики)? В закономерностях то что мелькает чаще всего (например), в аномалиях редкие (резко отличающиеся от остальных) элементы?

Deleted
(27.05.15 19:45:27 MSK)

Ответ на: комментарий от Deleted 27.05.15 19:45:27 MSK

Да, мне кажется настраивать вывод в одну или другую сторону можно неким коэффициентом сортировки, увеличивающим вес длины строки:

15*length($a)+$pats{$a}

То есть, увеличив этот коэффициент, получим в выводе больший шанс на длинные шаблоны, уменьшив - более частые. Вот тут видно (добавил этот коэффициент в аргументы): http://disarmer.ru/ln/?2P

disarmer ★★★
(27.05.15 20:04:55 MSK) автор топика