Посоветуйте алгоритм кластеризации.

1

2

Основное требование - заранее не известно количество кластеров. Входные данные - одномерный список целых чисел. Вот пример входных данных - (5 1 3 5 7 3 50 30 45 32 1000 800 300 10000 8000) Желаемый результат(| - разделитель кластеров) - (5 1 3 5 7 3 | 50 30 45 32 | 1000 800 | 300 | 10000 8000). Простота, в плане понимания и реализации, приветствуется. Основная сложность, как мне кажется, в том, что есть большая разница в сосредоточенности точек различных(желаемых) кластерах. Спасибо.

Ссылка

← Читать устройство как файл

Програмно узнать свободный размер точки монтирования →

affinity propagation - непараметрический, есть реализации на python, R, java (кажется). В качестве метрики авторы советуют отрицательную евклидову.

silw ★★★★★
(14.04.15 19:33:18 MSK)
Последнее исправление: silw 14.04.15 19:34:37 MSK (всего исправлений: 2)

http://www.ehdp.com/vitalnet/breaks-1.htm

Manhunt ★★★★★
(14.04.15 22:53:45 MSK)
Последнее исправление: Manhunt 14.04.15 22:59:55 MSK (всего исправлений: 1)

Ответ на: комментарий от Manhunt 14.04.15 22:53:45 MSK

http://wiki.objectvision.nl/index.php/Fisher's_Natural_Breaks_Classification

Manhunt ★★★★★
(14.04.15 23:04:50 MSK)

Ссылка

Вот пример входных данных - (5 1 3 5 7 3 50 30 45 32 1000 800 300 10000 8000)

А в методе, на который я сослался, на вход ожидается монотонная последовательность. Твою последовательность x[k] можно превратить в монотонную y[k] следующим образом:

y[0]:=x[0]
y[k]:=y[k-1]+abs(x[k] - x[k-1])

Manhunt ★★★★★
(14.04.15 23:16:24 MSK)

Ссылка

Основная сложность, как мне кажется, в том, что есть большая разница в сосредоточенности точек различных(желаемых) кластерах.

Глядя на твой пример, может быть, кластеризировать не сами числа, а логарифмы от них?

Manhunt ★★★★★
(14.04.15 23:17:43 MSK)

Ссылка

Основное требование - заранее не известно количество кластеров.

Основное решение — человеческий волюнтаризм :)

Простота, в плане понимания и реализации, приветствуется.

Statistica: модуль «методы кластерного анализа» — полный набор стандартных методов. ©

P.S. Погугли ещё «непараметрическая кластеризация».

quickquest ★★★★★
(15.04.15 12:25:25 MSK)
Последнее исправление: quickquest 15.04.15 12:26:08 MSK (всего исправлений: 1)

Ответ на: комментарий от quickquest 15.04.15 12:25:25 MSK

Зачем для одномерного массива это все?

Quickern ★★
(15.04.15 14:51:52 MSK)

Ответ на: комментарий от Quickern 15.04.15 14:51:52 MSK

Зачем для одномерного массива это все?

Для освоения стандартных методов, которые могут пригодится ТС'у в будущем.

P.S. Зачем 2-мерная таблица умножения, если можно складывать одномерный массив [1+1+... +1]? :)

quickquest ★★★★★
(15.04.15 15:05:39 MSK)

Ответ на: комментарий от silw 14.04.15 19:33:18 MSK

Вот посмотрите сколько их всяких

http://scikit-learn.org/stable/modules/clustering.html#clustering

Из непараметрических возможно лучший DBSCAN А из параметрических я бы взял старый добрый KMeans, простой и быстрый как пуля. Но требует количество кластеров.

Bell
(15.04.15 15:07:27 MSK)

Ответ на: комментарий от Quickern 15.04.15 14:51:52 MSK

а что использовать для одномерного массива?

pseudo-cat ★★★
(15.04.15 15:14:47 MSK) автор топика

Ссылка

Ответ на: комментарий от silw 14.04.15 19:33:18 MSK

сделал его, только одно не понимаю, у меня, для других входных данных - не как в топике, матрица результатов(A+R) сходится к такому виду -

  a   b    c    d    e
a 12  -30  -30  -20  -25
b 10  -15  -26  -10  -15
c 12  -26  -16  -12  -15
d -4  -24  -26    0    0
e -4  -24  -24    0    0

не могу понять, интерпретировать ли это как два кластера - {a b c} и {d e} или в этом методе должны получаться равные оценки по столбцам для элементов одного кластера, то есть должно быть a=b=c и по строкам быть один максимум?

pseudo-cat ★★★
(15.04.15 19:26:23 MSK) автор топика

Ответ на: комментарий от pseudo-cat 15.04.15 19:26:23 MSK

Там же, даже в примерах, есть процедура для соотнесения объект - номер кластера. Affinity propagation на выходе выдает плоские кластеры.

silw ★★★★★
(15.04.15 20:10:32 MSK)

Ответ на: комментарий от Bell 15.04.15 15:07:27 MSK

Спасибо кэп! Именно поэтому я и написал про реализацию на питоне. На моих данных только AP смог выдать разумные кластеры, для которых обнаруживалось биологическое объяснение.

А если еще почитать исходную статью с описанием (Science, между прочим) можно обнаружить сравнение качества и производительности с KMeans.

silw ★★★★★
(15.04.15 20:47:45 MSK)

Ответ на: комментарий от silw 15.04.15 20:47:45 MSK

KMeans конечно примитивный, но зависит от задач и данных. Для моих ничего другого не надо. И у него есть on-line разновидность для любого объема данных. Если бы задача была параметрическая, то для одномерного случая другого и не надо!

Bell
(15.04.15 21:10:44 MSK)

Ссылка

Ответ на: комментарий от silw 15.04.15 20:10:32 MSK

где там же? я делал по этой статье - http://www.cs.columbia.edu/~delbert/docs/DDueck-thesis_small.pdf и там процедура соотношения выбирает максимальное значение из строки матрицы C=A+R. Что значит плоский кластер? то что для всех элементов кластера значения в матрице C равны?

pseudo-cat ★★★
(15.04.15 21:54:36 MSK) автор топика

Ссылка

Ответ на: комментарий от silw 15.04.15 20:10:32 MSK

Извиняюсь, я на автомате подумал, что вы взяли готовую реализацию.

Вот, про что я говорю. В данном примере выводятся центры кластеров и номера кластера для каждого элемента.

silw ★★★★★
(15.04.15 22:41:47 MSK)

Ответ на: комментарий от silw 15.04.15 22:41:47 MSK

там же просто вызов библиотечной функции и визуализация результатов. Меня интересует какая может быть матрица внутри самого алгоритма. Не могу нигде найти описания алгоритма, где было бы про это сказано, если вы не знаете, то прийдётся лезть внутрь этой питоновской библиотеки и добавить печать матрицы-результата чтобы сравнить со своими результатами. Но питон...

pseudo-cat ★★★
(15.04.15 22:59:14 MSK) автор топика

Ответ на: комментарий от quickquest 15.04.15 15:05:39 MSK

а ещё ТС может поприседать :)

psv1967 ★★★★★
(16.04.15 10:44:26 MSK)

Ссылка

1й Подход, когда точки случайно перемешаны

В этой задаче надо получить метрику расстояния между точками. Функция dist() и далее над матрицей можно изгаляться любым известным методом. Если кластеры имеют «протяженный» вид надо использовать что то типа «спектральной» кластеризации из kernlab.

2й Подход, когда точки идут по порядку.

Берем любой метод который отслеживает «Структурные изменения» (или онлайн алгоритм делающий аналогичное, или марковский процесс со скрытыми состояниями)...

psv1967 ★★★★★
(16.04.15 10:52:17 MSK)

Ссылка

http://www.machinelearning.ru - хороший сайт по тематике, ещё есть лекции в школе анализа данных от яндекса.

Jurik_Phys ★★★★★
(16.04.15 11:45:44 MSK)

Ссылка

Можно попробовать копнуть тут:

-математическая статистика (курс ВТУЗ) - мультимодальные распределения, спектральный анализ

anonymous
(16.04.15 12:20:46 MSK)

Ответ на: комментарий от anonymous 16.04.15 12:20:46 MSK

бывает такое, что нужно решить небольшую задачу в составе более крупного и изучать для этого весь курс по тематике как-то нет времени.

pseudo-cat ★★★
(16.04.15 13:08:11 MSK) автор топика

Ответ на: комментарий от pseudo-cat 16.04.15 13:08:11 MSK

Простейший стат-анализ не требует углублённого изучения полного курса - достаточно основ.

По-быстрому не напрягаясь это тогда из серии - можно рандомом...

... две конфеты куча? нет. а три? ну-у... что тогда считать кучей?

Формальный подход: методом дихотомии:

сколько конфет куча?

10 - да 5 - да 2 - нет 3 - нет 4 - почти...

Почему так? - это нечёткие множества

anonymous
(16.04.15 13:17:33 MSK)

Ответ на: комментарий от anonymous 16.04.15 13:17:33 MSK

почему не напрягаясь, вот тут предложили несколько вполне простых алгоритмов, чтобы их можно было за вечер написать, я взял первый и он, вроде бы, нормально работает на моих данных.

pseudo-cat ★★★
(16.04.15 13:27:46 MSK) автор топика

Ссылка

Этот afinity propagation сводит меня с ума, на таких входных данных (при damping = 0.9) -

[
 [1]; [2]; [30]; [31]; [4]; [5]; [29]
]

У меня получается на выходе такая матрица -

  -13,26   0,0175973  -623,801  -744,851   0,0179447  -13,0466  -628,854
-12,5769  0,00644317  -544,437  -663,487   !0,0287952!  -12,5785   -551,49
-569,856    -499,898   70,2865     -70,3      -391,9  -353,861     -70,3
-646,067    -574,109   70,2806  -70,5101    -462,111  -422,072  -70,2938
-12,5785  !0,0287952!   -436,44   -551,49  0,00644317  -12,5769  -447,493
-13,0466   0,0179447  -407,806  -520,857   0,0175973    -13,26  -420,859
 -530,07    -462,111   70,2806  -70,2938    -358,114  -322,075  -70,5101

из чего следует, что 2 - в кластере 5, а 5 в кластере 2. И ни в одной статье не могу найти, нормально ли такие циклические зависимости или нет!

pseudo-cat ★★★
(16.04.15 15:25:16 MSK) автор топика

Ответ на: комментарий от pseudo-cat 16.04.15 15:25:16 MSK

хотя нет, просто надо увеличить количество итераций. Я взял это количество из питоновской библиотеки, там по дефолту 200, но матрица сходится у меня ближе к 1000. И это странно.

pseudo-cat ★★★
(16.04.15 15:36:33 MSK) автор топика

Ответ на: комментарий от pseudo-cat 16.04.15 15:36:33 MSK

Посмотри еще DBSCAN. Очень простой

http://en.wikipedia.org/wiki/DBSCAN#Algorithm

Bell
(16.04.15 20:22:54 MSK)

Ответ на: комментарий от pseudo-cat 16.04.15 15:36:33 MSK

Да нет, это нормально. дампинг фактор 0.5 не очень хороший. В исходной статье советуют 0.9.

silw ★★★★★
(17.04.15 12:03:23 MSK)

Ссылка

Ответ на: комментарий от pseudo-cat 15.04.15 22:59:14 MSK

А, в этом смысле. Тогда лучше смотреть в код - процедура проверки сходимости и присвоения индексов там довольно проcто описана, хотя и с numpy специфичными фишками.

silw ★★★★★
(17.04.15 12:15:00 MSK)

Ссылка

Ответ на: комментарий от Bell 16.04.15 20:22:54 MSK

Не подходит, также как и affinity propagation. Они зависят от размеров кластеров, а в моих данных есть, обычно, 3-4 группы данных, сильно отличающихся по количеству элементов. То есть на выходе может быть один кластер с 10^3 элементами, а в другом 1 элемент.

pseudo-cat ★★★
(30.04.15 13:12:16 MSK) автор топика

Ответ на: комментарий от pseudo-cat 30.04.15 13:12:16 MSK

В общем-то ничего из предложенного не подходит как есть. Думается, что в моём случае надо сначала выделять сильно отличающиеся показания, как случайные помехи, а затем отдельно делать 1)кластеризацию для них, добавляя средние шумы 2)кластеризацию для данных, не являющихся «помехами».

pseudo-cat ★★★
(30.04.15 13:17:42 MSK) автор топика

Ссылка

Ответ на: комментарий от pseudo-cat 30.04.15 13:12:16 MSK

AP нормально справляется с такими ситуациями. Вот пример моего аутпута. Размеры кластеров указаны после :.

silw ★★★★★
(30.04.15 13:21:36 MSK)

Ответ на: комментарий от silw 30.04.15 13:21:36 MSK

А вашу similitary матрицу можно посмотреть?

pseudo-cat ★★★
(30.04.15 13:59:58 MSK) автор топика

Ответ на: комментарий от pseudo-cat 30.04.15 13:59:58 MSK

Вечерком выложу. Я сейчас бегло глянул, там, оказывается, была тонкость - мы вручную слили, кажется, 6 близких кластеров в 1, потому, что между ними совсем копеечные расстояния и это слияние никак не противоречило физическому смыслу данных. В сыром разбиении минимум - 1 объект в кластере, максимум - 146 объектов.

Плюс на количество, а следовательно размеры, кластеров влияет наложенная поправка на preference (продиктована физическим смыслом входных данных).

silw ★★★★★
(30.04.15 14:19:23 MSK)

Ссылка

Ответ на: комментарий от pseudo-cat 30.04.15 13:12:16 MSK

Не подходит, также как и affinity propagation. Они зависят от размеров кластеров, а в моих данных есть, обычно, 3-4 группы данных, сильно отличающихся по количеству элементов. То есть на выходе может быть один кластер с 10^3 элементами, а в другом 1 элемент.

Это не должно влиять, т.к. в DBSCAN ищет связные области, а связность задается параметром. affinity propagation я не знаю, но думаю, что и там не должно влиять. Вот K-means сильно зависит от инициализации, но он тебе в чистом виде равно не подходит. Хотя можешь и его посмотреть. У него есть модификации для правильной инициализации и для автоматического выбора числа кластеров, а главное что он очень быстрый. Но я бы взял DBSCAN как один из самых простых. Твоя задача очень простая, ничего городить не надо.

Bell
(30.04.15 19:05:51 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Читать устройство как файл

Development

Програмно узнать свободный размер точки монтирования →

Похожие темы