LINUX.ORG.RU
ФорумTalks

Метод главных компонент

 ,


0

1

Всем привет!

Зная, что на лоре собираются специалисты всех мастей), решил спросить о статистическом методе - методе главных компонент.

1) Для меня не понятна суть метода : ну понижение размерности даннх - ОК, но вот что значит извлечение «главной информации» ?

2) Короче, имеются входные данные. после проведения всех мат. операций над ними, с использованием метода PCA, на выходе я имею матрицу «счетов» и матрицу «нагрузок». Вопрос: как мне теперь интерпретировать эти данные. Как лучше визуализировать (что по осям координат?) И вообще что делать с полученными матрицами (loadings, scores)?

Заранее спасибо)!

По осям координат - значимые компоненты, и исходные переменные визуализируются как векторы в этом пространстве. см . http://en.wikipedia.org/wiki/Biplot

C ()

что значит извлечение «главной информации»

Например, в обработке изображений, обычно считают, что в первых компонентах содержится основная полезная «главная» информация (само изображение), в последних - ненужный шум. Простейший критерий отбора - правило Кайзера.

на выходе я имею матрицу «счетов» и матрицу «нагрузок». Вопрос: как мне теперь интерпретировать эти данные.

Матрица счетов - это проекции исходных данных на подпространство главных компонент.
Матрица нагрузок - это матрица перехода из исходного пространства переменных в пространство главных компонент.
Смысл в том, что при увеличении числа компонент, из-за ортогональности главных компонент матрицы счетов и нагрузок не перестраивается, а к ним просто добавляется еще один столбец.

что по осям координат?

Собственные векторы корреляционной матрицы.
Графики счетов показывают как расположены данные в проекционном пространстве.
Графики нагрузок показывают какие переменные и как связаны между собой, что влияет на что.
Подробности можно почитать в книжках по кластерному и факторному анализу.

quickquest ★★★★★ ()

Спасибо за ответы.

Я, наверное, совсем нуб(. Мне не ясно:

Графики нагрузок показывают какие переменные и как связаны между собой, что влияет на что.

Как построить эти графики? то есть, по одной оси - собственные значения матрицы, а по другой что должно быть?

KernelPanic ()
Ответ на: комментарий от KernelPanic

Мне кажется, ты не до конца разобрался с тем, что происходит в PCA. У тебя же линейный PCA? Представь себе 2-мерную выборку, например, с вики( https://upload.wikimedia.org/wikipedia/ru/thumb/4/4a/FirstPrincipalComponent.... ) По сути, ты выбираешь прямую, которая лучше всего вписывается в эти точки, а потом просто проецируешь точки(элементы выборки) на эту прямую. В данном случае эта прямая и есть подпространство, матрица нагрузок тут параметризует прямую, а матрица счетов представляет из себя проекцию выборки на эту прямую.

Вот иллюстрация для случая 3-мерной выорки http://www.nlpca.org/fig_pca_principal_component_analysis.png.

Так вот, по сути у тебя матрица счетов это и есть новые координаты в каком-то «подпространстве», их можешь визуализировать(например, добавив цветовое кодирование невязки проектирования). Другой вопрос в том, что если у тебя высокая размерность, то и после PCA ты не особо хорошо визуализируешь все это.

что значит извлечение «главной информации»

Не парься, это просто пафосные слова.

maggotroot ()
Ответ на: комментарий от KernelPanic

Как построить эти графики? то есть, по одной оси - собственные значения матрицы, а по другой что должно быть?

Посмотри видео: Principal Component Analysis 1 Introduction (flash, 12:33), там всё весьма наглядно показано.

P.S. Исходные коды МГК на разных языках.

quickquest ★★★★★ ()
Последнее исправление: quickquest (всего исправлений: 1)

Спасибо всем, помогли. PCA анализ, как я понял, очень распространённая штука. Для анализа удобно использовал среду «R» (только узнал о ней), там всё одной функцией делается -

princomp().
. Там же можно и графики построить.

KernelPanic ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.