Analiza glavnih komponenti

PCA multivarijantne normalne distribucije centrirane na (1,3) sa standardnom devijacijom od 3 u približno (0,866, 0,5) pravcu i od 1 u ortogonalnom pravcu. Prikazani vektori su sopstveni vektori kovarijansne matrice skalirani kvadratnim korenom korespondirajućih sopstvenih vrednosti, i pomereni tako da su njihovi počeci u srednjoj vrednosti.

Analiza glavnih komponenti (engl. Principal component analysis - PCA) je statistički postupak koji koristi ortogonalnu transformaciju da pretvori skup opažanja eventualno korelisanih promenljivih (entiteta od kojih svaki poprima različite numeričke vrednosti) u skup vrednosti linearno nekorelisanih promenljivih koje se nazivaju glavnim komponentama. Ova transformacija je definisana na takav način da prva glavna komponenta ima najveću moguću varijansu (to jest, obuhvata što je moguće više varijabilnosti podataka), a svaka sledeća komponenta zatim ima najveću preostalu moguću varijansu pod ograničenjem da je ortogonalna na prethodne komponente. Rezultirajući vektori (svaki od kojih je linearna kombinacija promenljivih i sadrži n opažanja) su nekorelisani ortogonalni bazni skup. PCA je senzitivna na relativno skaliranje originalnih promenljivih.

PCA je izumeo Karl Pirson 1901. godine,^[1] kao analog teoreme glavne ose u mehanici. PCA je kasnije tokom 1930-ih nezavisno razvio i imenovao Harold Hoteling.^[2] U zavisnosti od oblasti primene koriste se različiti nazivi za PCA, kao što su diskretna Karunen-Loevova transformacija (KLT) u obradi signala, Hotelingova transformacija u multivarijantnoj kontroli kvaliteta, pravilna ortogonalna dekompozicija (POD) u mašinskom inženjerstvu, dekompozicija singularne vrednosti (SVD) od X,^[3] dekompozicija sopstvene vrednosti (EVD) od X^TX u linearnoj algebri, faktorska analiza,^[4]^[5] Ekart–Jangova teorema^[6], ili empirijske ortogonalne funkcije (EOF) u meteorološkoj nauci, dekompozicija empirijske sopstvene funkcije^[7], analiza empirijskih komponenti^[8], kvaziharmonični modusi^[9], spektralna dekompozicija u šumu i vibracijama, i empirijska modalna analiza strukturne dinamike.

PCA se uglavnom koristi kao alat u istraživačkoj analizi podataka i za izradu prediktivnih modela. Ona se često koristi za vizuelizaciju genetske distance i povezanosti između populacija. PCA se može obaviti dekompozicijom sopstvenih vrednosti kovarijansne (ili korelacione) matrice, ili dekompozicijom singularne vrednosti matrice podataka, obično nakon koraka normalizacije početnih podataka. Normalizacija svakog atributa sastoji se od srednjeg centriranja - oduzimanja svake vrednosti podataka od srednje vrednosti njene izmerene promenljive tako da je njena empirijska srednja vrednost (prosek) jednaka nuli - i, po mogućnosti, normalizacije varijanse svake promenljive da bi bila jednaka 1; pogledajte Z-ocene.^[10] PCA rezultati se obično diskutuju u smislu komponentnih ocena (engl. scores), koje se ponekad nazivaju faktorske ocene, vrednosti transformisanih promenljivih koje odgovaraju određenoj tački podataka, i opterećenja (engl. loadings), ponderi kojima se svaka standardizovana originalna promenljiva mora množiti da bi se dobila komponentna ocena.^[11] Ako su komponentne ocene standardizovane na jediničnu varijansu, opterećenja moraju da sadrže varijancu podataka u njima (a to je magnituda sopstvenih vrednosti). Ako komponentne ocene nisu standardizovane (stoga sadrže varijansu podataka), opterećenja moraju biti jedinično skalirana („normalizovana”) i ti se ponderi nazivaju sopstvenim vektorima; oni su kosinusi ortogonalne rotacije promenljivih u glavne komponente ili nazad.

PCA je najjednostavnija od pravih multivarijantnih analiza zasnovanih na sopstvenim vektorima. Često se može smatrati da njeno delovanje otkriva unutrašnju strukturu podataka na način koji najbolje objašnjava varijansu podataka. Ako se multivarijantni skup podataka vizualno prikazuje kao skup koordinata u visokodimenzionalnom prostoru podataka (1 osa po promenljivoj), PCA može da pruži korisniku sliku niže dimenzije, projekciju ovog objekta kada se posmatra sa njegovog najinformativnijeg gledišta. To se postiže korišćenjem samo prvih nekoliko glavnih komponenti, tako da se smanjuje dimenzionalnost transformisanih podataka.

PCA je usko povezana sa faktorskom analizom. Faktorska analiza tipično uključuje više pretpostavki specifičnih za domen o osnovnoj strukturi i rešava sopstvene vektore donekle drugačije matrice.

PCA je takođe povezana sa kanoničkom korelacijskom analizom (CCA). CCA definiše koordinatne sisteme koji optimalno opisuju unakrsnu kovarijansu između dva skupa podataka, dok PCA definiše novi ortogonalni koordinatni sistem koji optimalno opisuje varijansu u pojedinačnom setu podataka.^[12]^[13]

Istorija

PCA je 1901. izumeo Karl Pirson,^[14] kao analog teoreme o glavnoj osi u mehanici; kasnije ju je nezavisno razvio i imenovao Harold Hoteling 1930-ih.^[15] U zavisnosti od područja primene, naziva se i diskretna Karunen-Loeva transformacija (KLT) u obradi signala, Hotelingova transformacija u multivarijantnoj kontroli kvaliteta, pravilna ortogonalna dekompozicija (POD) u mašinstvu, dekompozicija singularne vrednosti (engl. singular value decomposition - SVD) od X,^[16] dekompozicija sopstvenih vrednosti (EVD) od X^TX u linearnoj algebri, faktorska analiza (za raspravu o razlikama između PCA i faktorske analize videti poglavlje 7 Džolifeove Analize glavnih komponenata),^[5] Ekart–Jangova teorema,^[6] ili empirijske ortogonalne funkcije (EOF) u meteorološkoj nauci, empirijska dekompozicija sopstvenih funkcija,^[7] analiza empirijskih komponenata,^[8] kvaziharmonski modovi,^[9] spektralna dekompozicija u buci i vibracijama, i empirijska modalna analiza u strukturnoj dinamici.

Intuicija

PCA se može smatrati prilagođavanjem p-dimenzionalnog elipsoida podacima, pri čemu svaka osa elipsoida predstavlja glavnu komponentu. Ako je neka osa elipsoida mala, tada je i varijansa duž te ose mala.

Da bi se pronašle ose elipsoida, prvo se mora oduzeti središnja vrednost svake promenljive iz skupa podataka da bi se centrirali podaci oko koordinatnog početka. Zatim se izračunava kovarijansna matricu podataka i izračunavaju se sopstvene vrednosti i korespondirajući sopstveni vektori ove kovarijansne matrice. Zatim je neophodno da se normalizuje svaki od ortogonalnih sopstvenih vektora da bi se pretvorili u jedinične vektore. Nakon što je to urađeno, svaki od međusobno ortogonalnih, jediničnih sopstvenih vektora može se protumačiti kao osa elipsoida uklopljenog u podatke. Ovaj izbor osnove transformiše našu kovarijansnu matricu u dijagonalizovani oblik sa dijagonalnim elementima koji predstavljaju varijansu svake ose. Procenat varijanse koji svaki svojstveni vektor predstavlja može se izračunati deljenjem sopstvene vrednosti koja odgovara tom svojstvenom vektoru sa zbirom svih sopstvenih vrednosti.

Detalji

PCA se definiše kao ortogonalna linearna transformacija koja transformiše podatke u novi koordinatni sistem tako da najveća varijansa po nekoj skalarnoj projekciji podataka leži na prvoj koordinati (koja se naziva prva glavna komponenta), druga najveća varijansa na drugoj koordinati i tako dalje.^[5]

Ako se uzme u obzir X matrica podataka $n\times p$ sa nultom kolonskom empirijskom sredinom (srednja vrednost uzorka svake kolone je pomerena na nulu), gde je svaki od n redova predstavlja različito ponavljanje eksperimenta, a svaki od p kolona daje izvesnu vrstu karakteristike (recimo, rezultate sa datog senzora).

Matematički, transformacija je definisana skupom veličine $l$ p-dimenzionalnih vektora težina ili koeficijenata $\mathbf {w} _{(k)}=(w_{1},\dots ,w_{p})_{(k)}$ koji mapiraju svaki red vektora $\mathbf {x} _{(i)}$ od X na novi vektor skorova glavne komponente $\mathbf {t} _{(i)}=(t_{1},\dots ,t_{l})_{(i)}$ , dat sa

{t_{k}}_{(i)}=\mathbf {x} _{(i)}\cdot \mathbf {w} _{(k)}\qquad \mathrm {za} \qquad i=1,\dots ,n\qquad k=1,\dots ,l

na taj način da se individualne promenljive $t_{1},\dots ,t_{l}$ od t razmatraju nad skupom promenljivih koji sukcesivno nasleđuje maksimalnu moguću varijansu od X, pri čemu je svaki koeficijent vektora w ograničen da bude jedinični vektor (gde je $l$ obično odabrano da bude manje od $p$ radi redukcije dimenzionalnosti).

Reference

^ Pearson, K. (1901). „On Lines and Planes of Closest Fit to Systems of Points in Space”. Philosophical Magazine. 2 (11): 559—572. doi:10.1080/14786440109462720.
^ Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24, 417–441, and 498–520.
Hotelling, H (1936). „Relations between two sets of variates”. Biometrika. 28 (3/4): 321—377. JSTOR 2333955. doi:10.2307/2333955.
^ Golub i Van Loan, 1983.
^ Rasprava o razlikama između PCA i faktorske analize je dostupna u poglavlju 7 Jolifeove knjige Analiza glavnih komponenti.
^ ^а ^б ^в Jolliffe I.T. Principal Component Analysis, Series: Springer Series in Statistics, 2nd ed., Springer, NY, 2002, XXIX, 487 p. 28 illus. ISBN 978-0-387-95442-4
^ ^а ^б Harman 1960
^ ^а ^б Sirovich 1987
^ ^а ^б Lorenz 1956
^ ^а ^б Brooks et al., 1988
^ Abdi. H. & Williams, L.J. (2010). „Principal component analysis”. Wiley Interdisciplinary Reviews: Computational Statistics. 2 (4): 433—459. arXiv:1108.4372 . doi:10.1002/wics.101.
^ Shaw P.J.A. (2003) Multivariate statistics for the Environmental Sciences, Hodder-Arnold. ISBN 0-340-80763-6.
^ Barnett, T. P. & R. Preisendorfer. (1987). „Origins and levels of monthly and seasonal forecast skill for United States surface air temperatures determined by canonical correlation analysis”. Monthly Weather Review. 115 (9): 1825. doi:10.1175/1520-0493(1987)115<1825:oaloma>2.0.co;2.
^ Hsu, Daniel; Sham M. Kakade; Tong Zhang (2008). „A spectral algorithm for learning hidden markov models.”. Bibcode:2008arXiv0811.4413H. arXiv:0811.4413 .
^ Pearson, K. (1901). „On Lines and Planes of Closest Fit to Systems of Points in Space”. Philosophical Magazine. 2 (11): 559—572. doi:10.1080/14786440109462720.
^ Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24, 417–441, and 498–520.
Hotelling, H (1936). „Relations between two sets of variates”. Biometrika. 28 (3/4): 321—377. JSTOR 2333955. doi:10.2307/2333955.
^ Golub and Van Loan, 1983

Literatura

Jackson, J.E. (1991). A User's Guide to Principal Components (Wiley).
Jolliffe, I. T. (1986). Principal Component Analysis. Springer Series in Statistics. Springer-Verlag. стр. 487. CiteSeerX 10.1.1.149.8828 . ISBN 978-0-387-95442-4. doi:10.1007/b98835. ^{[мртва веза]}
Jolliffe, I.T. (2002). Principal Component Analysis, second edition (Springer).
Husson François, Lê Sébastien & Pagès Jérôme (2009). Exploratory Multivariate Analysis by Example Using R. Chapman & Hall/CRC The R Series, London. 224p. ISBN 978-2-7535-0938-2
Pagès Jérôme (2014). Multiple Factor Analysis by Example Using R. Chapman & Hall/CRC The R Series London 272 p
S. Ouyang and Y. Hua, "Bi-iterative least square method for subspace tracking," IEEE Transactions on Signal Processing, pp. 2948-2996, Vol. 53, No. 8, August 2005.
Y. Hua and T. Chen, "On convergence of the NIC algorithm for subspace computation," IEEE Transactions on Signal Processing, pp. 1112-1115, Vol. 52, No. 4, April 2004.
Y. Hua, “Asymptotical orthonormalization of subspace matrices without square root,” IEEE Signal Processing Magazine, Vol. 21, No. 4, pp. 56-61, July 2004.
Y. Hua, M. Nikpour and P. Stoica, "Optimal reduced rank estimation and filtering," IEEE Transactions on Signal Processing, pp. 457-469, Vol. 49, No. 3, March 2001.
Y. Hua, Y. Xiang, T. Chen, K. Abed-Meraim and Y. Miao, "A new look at the power method for fast subspace tracking," Digital Signal Processing, Vol. 9. pp. 297-314, 1999.
Y. Hua and W. Liu, "Generalized Karhunen-Loeve Transform", IEEE Signal Processing Letters, Vol. 5, No. 6, pp. 141-142, June 1998.
Y. Miao and Y. Hua, "Fast subspace tracking and neural network learning by a novel information criterion," IEEE Transactions on Signal Processing, Vol. 46, No. 7, pp. 1967-1979, July 1998.
T. Chen, Y. Hua and W. Y. Yan, "Global convergence of Oja's subspace algorithm for principal component extraction," IEEE Transactions on Neural Networks, Vol. 9, No. 1, pp. 58-67, Jan 1998.

Dodatna literatura

Shlens, Jonathon (2014). „A Tutorial on Principal Component Analysis”. arXiv:abs/1404.1100  Проверите вредност параметра |arxiv= (помоћ). doi:10.48550/arXiv.1404.1100.

Spoljašnje veze

University of Copenhagen video by Rasmus Bro na sajtu YouTube
Stanford University video by Andrew Ng na sajtu YouTube
PCA primeri
A layman's introduction to principal component analysis na sajtu YouTube (a video of less than 100 seconds.)
StatQuest: Principal Component Analysis (PCA) clearly explained na sajtu YouTube
See also the list of Software implementations

[1] Pearson, K. (1901). „On Lines and Planes of Closest Fit to Systems of Points in Space”. Philosophical Magazine. 2 (11): 559—572. doi:10.1080/14786440109462720.

[2] Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24, 417–441, and 498–520.
Hotelling, H (1936). „Relations between two sets of variates”. Biometrika. 28 (3/4): 321—377. JSTOR 2333955. doi:10.2307/2333955.

[3] Golub i Van Loan, 1983.

[4] Rasprava o razlikama između PCA i faktorske analize je dostupna u poglavlju 7 Jolifeove knjige Analiza glavnih komponenti.

[Principal_Component_Analysis-5] а ^б ^в Jolliffe I.T. Principal Component Analysis, Series: Springer Series in Statistics, 2nd ed., Springer, NY, 2002, XXIX, 487 p. 28 illus. ISBN 978-0-387-95442-4

[#1-6] а ^б Harman 1960

[#2-7] а ^б Sirovich 1987

[#3-8] а ^б Lorenz 1956

[#4-9] а ^б Brooks et al., 1988

[10] Abdi. H. & Williams, L.J. (2010). „Principal component analysis”. Wiley Interdisciplinary Reviews: Computational Statistics. 2 (4): 433—459. arXiv:1108.4372 . doi:10.1002/wics.101.

[11] Shaw P.J.A. (2003) Multivariate statistics for the Environmental Sciences, Hodder-Arnold. ISBN 0-340-80763-6.

[12] Barnett, T. P. & R. Preisendorfer. (1987). „Origins and levels of monthly and seasonal forecast skill for United States surface air temperatures determined by canonical correlation analysis”. Monthly Weather Review. 115 (9): 1825. doi:10.1175/1520-0493(1987)115<1825:oaloma>2.0.co;2.

[13] Hsu, Daniel; Sham M. Kakade; Tong Zhang (2008). „A spectral algorithm for learning hidden markov models.”. Bibcode:2008arXiv0811.4413H. arXiv:0811.4413 .

[14] Pearson, K. (1901). „On Lines and Planes of Closest Fit to Systems of Points in Space”. Philosophical Magazine. 2 (11): 559—572. doi:10.1080/14786440109462720.

[15] Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24, 417–441, and 498–520.
Hotelling, H (1936). „Relations between two sets of variates”. Biometrika. 28 (3/4): 321—377. JSTOR 2333955. doi:10.2307/2333955.

[16] Golub and Van Loan, 1983

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]