Пређи на садржај

Анализа главних компоненти

С Википедије, слободне енциклопедије
ПЦА мултиваријантне нормалне дистрибуције центриране на (1,3) са стандардном девијацијом од 3 у приближно (0,866, 0,5) правцу и од 1 у ортогоналном правцу. Приказани вектори су сопствени вектори коваријансне матрице скалирани квадратним кореном кореспондирајућих сопствених вредности, и померени тако да су њихови почеци у средњој вредности.

Анализа главних компоненти (енгл. Principal component analysis - PCA) је статистички поступак који користи ортогоналну трансформацију да претвори скуп опажања евентуално корелисаних променљивих (ентитета од којих сваки поприма различите нумеричке вредности) у скуп вредности линеарно некорелисаних променљивих које се називају главним компонентама. Ова трансформација је дефинисана на такав начин да прва главна компонента има највећу могућу варијансу (то јест, обухвата што је могуће више варијабилности података), а свака следећа компонента затим има највећу преосталу могућу варијансу под ограничењем да је ортогонална на претходне компоненте. Резултирајући вектори (сваки од којих је линеарна комбинација променљивих и садржи n опажања) су некорелисани ортогонални базни скуп. ПЦА је сензитивна на релативно скалирање оригиналних променљивих.

ПЦА је изумео Карл Пирсон 1901. године,[1] као аналог теореме главне осе у механици. ПЦА је касније током 1930-их независно развио и именовао Харолд Хотелинг.[2] У зависности од области примене користе се различити називи за ПЦА, као што су дискретна Карунен-Лоевова трансформација (КЛТ) у обради сигнала, Хотелингова трансформација у мултиваријантној контроли квалитета, правилна ортогонална декомпозиција (ПОД) у машинском инжењерству, декомпозиција сингуларне вредности (СВД) од X,[3] декомпозиција сопствене вредности (ЕВД) од XТX у линеарној алгебри, факторска анализа,[4][5] Екарт–Јангова теорема[6], или емпиријске ортогоналне функције (ЕОФ) у метеоролошкој науци, декомпозиција емпиријске сопствене функције[7], анализа емпиријских компоненти[8], квазихармонични модуси[9], спектрална декомпозиција у шуму и вибрацијама, и емпиријска модална анализа структурне динамике.

ПЦА се углавном користи као алат у истраживачкој анализи података и за израду предиктивних модела. Она се често користи за визуелизацију генетске дистанце и повезаности између популација. ПЦА се може обавити декомпозицијом сопствених вредности коваријансне (или корелационе) матрице, или декомпозицијом сингуларне вредности матрице података, обично након корака нормализације почетних података. Нормализација сваког атрибута састоји се од средњег центрирања - одузимања сваке вредности података од средње вредности њене измерене променљиве тако да је њена емпиријска средња вредност (просек) једнака нули - и, по могућности, нормализације варијансе сваке променљиве да би била једнака 1; погледајте З-оцене.[10] ПЦА резултати се обично дискутују у смислу компонентних оцена (енгл. scores), које се понекад називају факторске оцене, вредности трансформисаних променљивих које одговарају одређеној тачки података, и оптерећења (енгл. loadings), пондери којима се свака стандардизована оригинална променљива мора множити да би се добила компонентна оцена.[11] Ако су компонентне оцене стандардизоване на јединичну варијансу, оптерећења морају да садрже варијанцу података у њима (а то је магнитуда сопствених вредности). Ако компонентне оцене нису стандардизоване (стога садрже варијансу података), оптерећења морају бити јединично скалирана („нормализована”) и ти се пондери називају сопственим векторима; они су косинуси ортогоналне ротације променљивих у главне компоненте или назад.

ПЦА је најједноставнија од правих мултиваријантних анализа заснованих на сопственим векторима. Често се може сматрати да њено деловање открива унутрашњу структуру података на начин који најбоље објашњава варијансу података. Ако се мултиваријантни скуп података визуално приказује као скуп координата у високодимензионалном простору података (1 оса по променљивој), ПЦА може да пружи кориснику слику ниже димензије, пројекцију овог објекта када се посматра са његовог најинформативнијег гледишта. То се постиже коришћењем само првих неколико главних компоненти, тако да се смањује димензионалност трансформисаних података.

ПЦА је уско повезана са факторском анализом. Факторска анализа типично укључује више претпоставки специфичних за домен о основној структури и решава сопствене векторе донекле другачије матрице.

ПЦА је такође повезана са каноничком корелацијском анализом (CCA). CCA дефинише координатне системе који оптимално описују унакрсну коваријансу између два скупа података, док ПЦА дефинише нови ортогонални координатни систем који оптимално описује варијансу у појединачном сету података.[12][13]

Историја

[уреди | уреди извор]

ПЦА је 1901. изумео Карл Пирсон,[14] као аналог теореме о главној оси у механици; касније ју је независно развио и именовао Харолд Хотелинг 1930-их.[15] У зависности од подручја примене, назива се и дискретна Карунен-Лоева трансформација (КЛТ) у обради сигнала, Хотелингова трансформација у мултиваријантној контроли квалитета, правилна ортогонална декомпозиција (ПОД) у машинству, декомпозиција сингуларне вредности (енгл. singular value decomposition - SVD) од X,[16] декомпозиција сопствених вредности (ЕВД) од XТX у линеарној алгебри, факторска анализа (за расправу о разликама између ПЦА и факторске анализе видети поглавље 7 Џолифеове Анализе главних компонената),[5] Екарт–Јангова теорема,[6] или емпиријске ортогоналне функције (ЕОФ) у метеоролошкој науци, емпиријска декомпозиција сопствених функција,[7] анализа емпиријских компонената,[8] квазихармонски модови,[9] спектрална декомпозиција у буци и вибрацијама, и емпиријска модална анализа у структурној динамици.

Интуиција

[уреди | уреди извор]

ПЦА се може сматрати прилагођавањем п-димензионалног елипсоида подацима, при чему свака оса елипсоида представља главну компоненту. Ако је нека оса елипсоида мала, тада је и варијанса дуж те осе мала.

Да би се пронашле осе елипсоида, прво се мора одузети средишња вредност сваке променљиве из скупа података да би се центрирали подаци око координатног почетка. Затим се израчунава коваријансна матрицу података и израчунавају се сопствене вредности и кореспондирајући сопствени вектори ове коваријансне матрице. Затим је неопходно да се нормализује сваки од ортогоналних сопствених вектора да би се претворили у јединичне векторе. Након што је то урађено, сваки од међусобно ортогоналних, јединичних сопствених вектора може се протумачити као оса елипсоида уклопљеног у податке. Овај избор основе трансформише нашу коваријансну матрицу у дијагонализовани облик са дијагоналним елементима који представљају варијансу сваке осе. Проценат варијансе који сваки својствени вектор представља може се израчунати дељењем сопствене вредности која одговара том својственом вектору са збиром свих сопствених вредности.

ПЦА се дефинише као ортогонална линеарна трансформација која трансформише податке у нови координатни систем тако да највећа варијанса по некој скаларној пројекцији података лежи на првој координати (која се назива прва главна компонента), друга највећа варијанса на другој координати и тако даље.[5]

Ако се узме у обзир X матрица података са нултом колонском емпиријском средином (средња вредност узорка сваке колоне је померена на нулу), где је сваки од n редова представља различито понављање експеримента, а сваки од п колона даје извесну врсту карактеристике (рецимо, резултате са датог сензора).

Математички, трансформација је дефинисана скупом величине п-димензионалних вектора тежина или коефицијената који мапирају сваки ред вектора од X на нови вектор скорова главне компоненте , дат са

на тај начин да се индивидуалне променљиве од t разматрају над скупом променљивих који сукцесивно наслеђује максималну могућу варијансу од X, при чему је сваки коефицијент вектора w ограничен да буде јединични вектор (где је обично одабрано да буде мање од ради редукције димензионалности).

Референце

[уреди | уреди извор]
  1. ^ Пеарсон, К. (1901). „Он Линес анд Планес оф Цлосест Фит то Сyстемс оф Поинтс ин Спаце”. Пхилосопхицал Магазине. 2 (11): 559—572. дои:10.1080/14786440109462720. 
  2. ^ Хотеллинг, Х. (1933). Аналyсис оф а цомплеx оф статистицал вариаблес инто принципал цомпонентс. Јоурнал оф Едуцатионал Псyцхологy, 24, 417–441, анд 498–520.
    Хотеллинг, Х (1936). „Релатионс бетwеен тwо сетс оф вариатес”. Биометрика. 28 (3/4): 321—377. ЈСТОР 2333955. дои:10.2307/2333955. 
  3. ^ Голуб и Ван Лоан, 1983.
  4. ^ Расправа о разликама између ПЦА и факторске анализе је доступна у поглављу 7 Јолифеове књиге Анализа главних компоненти.
  5. ^ а б в Јоллиффе I.Т. Принципал Цомпонент Аналyсис, Сериес: Спрингер Сериес ин Статистицс, 2нд ед., Спрингер, НY, 2002, XXIX, 487 п. 28 иллус. ISBN 978-0-387-95442-4
  6. ^ а б Harman 1960
  7. ^ а б Sirovich 1987
  8. ^ а б Lorenz 1956
  9. ^ а б Brooks et al., 1988
  10. ^ Abdi. H. & Williams, L.J. (2010). „Principal component analysis”. Wiley Interdisciplinary Reviews: Computational Statistics. 2 (4): 433—459. arXiv:1108.4372Слободан приступ. doi:10.1002/wics.101. 
  11. ^ Shaw P.J.A. (2003) Multivariate statistics for the Environmental Sciences, Hodder-Arnold. ISBN 0-340-80763-6.
  12. ^ Барнетт, Т. П. & Р. Преисендорфер. (1987). „Оригинс анд левелс оф монтхлy анд сеасонал форецаст скилл фор Унитед Статес сурфаце аир температурес детерминед бy цаноницал цоррелатион аналyсис”. Монтхлy Wеатхер Ревиеw. 115 (9): 1825. дои:10.1175/1520-0493(1987)115<1825:оалома>2.0.цо;2. 
  13. ^ Хсу, Даниел; Схам M. Какаде; Тонг Зханг (2008). „А спецтрал алгоритхм фор леарнинг хидден марков моделс.”. Бибцоде:2008арXив0811.4413Х. арXив:0811.4413Слободан приступ. 
  14. ^ Пеарсон, К. (1901). „Он Линес анд Планес оф Цлосест Фит то Сyстемс оф Поинтс ин Спаце”. Пхилосопхицал Магазине. 2 (11): 559—572. дои:10.1080/14786440109462720. 
  15. ^ Хотеллинг, Х. (1933). Аналyсис оф а цомплеx оф статистицал вариаблес инто принципал цомпонентс. Јоурнал оф Едуцатионал Псyцхологy, 24, 417–441, анд 498–520.
    Хотеллинг, Х (1936). „Релатионс бетwеен тwо сетс оф вариатес”. Биометрика. 28 (3/4): 321—377. ЈСТОР 2333955. дои:10.2307/2333955. 
  16. ^ Голуб анд Ван Лоан, 1983

Литература

[уреди | уреди извор]
  • Јацксон, Ј.Е. (1991). А Усер'с Гуиде то Принципал Цомпонентс (Wилеy).
  • Јоллиффе, I. Т. (1986). Принципал Цомпонент Аналyсис. Спрингер Сериес ин Статистицс. Спрингер-Верлаг. стр. 487. ЦитеСеерX 10.1.1.149.8828Слободан приступ. ИСБН 978-0-387-95442-4. дои:10.1007/б98835. [мртва веза]
  • Јоллиффе, I.Т. (2002). Принципал Цомпонент Аналyсис, сецонд едитион (Спрингер).
  • Хуссон Франçоис, Лê Сéбастиен & Пагèс Јéрôме (2009). Еxплораторy Мултивариате Аналyсис бy Еxампле Усинг Р. Цхапман & Халл/ЦРЦ Тхе Р Сериес, Лондон. 224п. ISBN 978-2-7535-0938-2
  • Pagès Jérôme (2014). Multiple Factor Analysis by Example Using R. Chapman & Hall/CRC The R Series London 272 p
  • S. Ouyang and Y. Hua, "Bi-iterative least square method for subspace tracking," IEEE Transactions on Signal Processing, pp. 2948-2996, Vol. 53, No. 8, August 2005.
  • Y. Hua and T. Chen, "On convergence of the NIC algorithm for subspace computation," IEEE Transactions on Signal Processing, pp. 1112-1115, Vol. 52, No. 4, April 2004.
  • Y. Hua, “Asymptotical orthonormalization of subspace matrices without square root,” IEEE Signal Processing Magazine, Vol. 21, No. 4, pp. 56-61, July 2004.
  • Y. Hua, M. Nikpour and P. Stoica, "Optimal reduced rank estimation and filtering," IEEE Transactions on Signal Processing, pp. 457-469, Vol. 49, No. 3, March 2001.
  • Y. Hua, Y. Xiang, T. Chen, K. Abed-Meraim and Y. Miao, "A new look at the power method for fast subspace tracking," Digital Signal Processing, Vol. 9. pp. 297-314, 1999.
  • Y. Hua and W. Liu, "Generalized Karhunen-Loeve Transform", IEEE Signal Processing Letters, Vol. 5, No. 6, pp. 141-142, June 1998.
  • Y. Miao and Y. Hua, "Fast subspace tracking and neural network learning by a novel information criterion," IEEE Transactions on Signal Processing, Vol. 46, No. 7, pp. 1967-1979, July 1998.
  • T. Chen, Y. Hua and W. Y. Yan, "Global convergence of Oja's subspace algorithm for principal component extraction," IEEE Transactions on Neural Networks, Vol. 9, No. 1, pp. 58-67, Jan 1998.

Dodatna literatura

[уреди | уреди извор]

Spoljašnje veze

[уреди | уреди извор]