Hovedkomponentanalyse

Hovedkomponentanalyse ( PCA for korte ), også kjent som Karhunen-Loève-transformasjonen [1] , er en dataforenklingsteknikk som brukes i multivariat statistikk . [2] Denne metoden ble først foreslått i 1901 av Karl Pearson og deretter utviklet av Harold Hotelling i 1933, og er en del av faktoranalyse . Teknikken, et eksempel på dimensjonalitetsreduksjon , tar sikte på å redusere det mer eller mindre høye antallet variabler som beskriver et sett med data til et mindre antall latente variabler, og begrense tapet av informasjon så mye som mulig. [2]

Lineær oppløsning

Dette skjer gjennom en lineær transformasjon av variablene som projiserer de opprinnelige inn i et nytt kartesisk system der den nye variabelen med størst varians projiseres på den første aksen, den nye variabelen, nest etter dimensjon av variansen, på den andre aksen og så videre.

Reduksjonen av kompleksitet skjer ved å begrense seg til å analysere de viktigste, ved varians, av de nye variablene.

I motsetning til andre lineære transformasjoner av variabler som praktiseres i statistikk, er det i denne teknikken de samme dataene som bestemmer transformasjonsvektorene.

Forutsatt at hver av de opprinnelige variablene trekkes fra gjennomsnittet, og at den nye variabelen derfor har null gjennomsnitt,

der arg max indikerer settet med argumenter der maksimum er nådd. Med de første komponentene kan den -te komponenten bli funnet ved å trekke de første hovedkomponentene fra :

og erstatte denne

Matriseoppløsning

En enklere metode for å beregne komponenten bruker kovariansmatrisen til . Den samme operasjonen kan utføres fra matrisen til korrelasjonskoeffisientene i stedet for varians-kovariansmatrisen til variablene .

Først må egenverdiene til kovariansmatrisen eller korrelasjonskoeffisientmatrisen finnes. Vi får like mange egenverdier som det finnes variabler . Hvis korrelasjonsmatrisen brukes, vil egenverdien for den første hovedkomponenten, det vil si den med maksimal varians, være lik . I alle fall tilsvarer egenverdien med størst verdi den dimensjonen som har størst varians: den vil derfor være variansen til hovedkomponenten 1 . I synkende rekkefølge vil den andre egenverdien være variansen til hovedkomponent 2, og så videre for de n egenverdiene. For hver egenverdi beregnes den tilsvarende egenvektoren , dvs. matrisen (vektorraden) av koeffisientene som multipliserer de gamle variablene i den lineære kombinasjonen for å få de nye variablene . Disse koeffisientene blir også referert til som belastning . Matrisen til egenvektorene, det vil si matrisen som har hver egenvektor tidligere beregnet for hver rad, er den såkalte rotasjonsmatrisen . Ved å utføre matriseoperasjonen , hvor er kolonnevektoren som har de nye variablene som elementer og er kolonnevektoren som har de "gamle variablene" som elementer , kan vi finne koordinatene til hvert punkt i det nye vektorrommet . Ved å bruke koordinatene for hvert punkt i forhold til hovedkomponentene, konstrueres grafen kalt scoreplott . Hvis hovedkomponentene er 3 vil du ha en tredimensjonal graf, hvis de er 2 vil den være todimensjonal, hvis du i stedet har valgt kun én hovedkomponent vil poengsummen da være endimensjonal. Ved hjelp av skåreplottet er det mulig å verifisere hvilke data som ligner hverandre og derfor er det for eksempel mulig å utlede hvilke prøver som har samme sammensetning.

I PCA er det også en annen type graf, kalt lastingsplott, der variablene rapporteres i det nye systemet med hovedkomponentene som akser. Med denne typen grafer er det mulig å observere om to variabler er like, og derfor gir samme type informasjon, eller om de er fjerne (og derfor ikke like).

Derfor uttrykker elementene i kolonneegenvektoren som tilsvarer en egenverdi koblingen mellom startvariablene og komponenten vurdert gjennom vekter. Antall latente variabler som skal betraktes som hovedkomponenter er basert på den relative størrelsen til en egenverdi i forhold til de andre. På den annen side, hvis operatøren velger hovedkomponentene uten å vurdere den relative variansen uttrykt av de respektive egenverdiene, er det overvåket mønstergjenkjenning .

Matrisen av faktorer kan konstrueres, i praksis en modal matrise, som viser de opprinnelige variablene etter rad og de latente variablene etter kolonne: hver verdi, mellom 0 og 1, forteller hvor mye sistnevnte påvirker førstnevnte .

I stedet har den faktorielle poengsummatrisen samme struktur som den forrige, men forteller hvor mye de enkelte opprinnelige variablene veide for bestemmelsen av størrelsen på de latente.

Eksempel

Anta at du har en undersøkelse som rapporterer for 10 emner: gjennomsnittskarakter (0 til 33), intelligens (0 til 10), gjennomsnittlige timer studert i en dag og opprinnelsesområde, som varierer fra 1 til 3. Standardiser verdiene ​med formelen:

hvor er forventet verdi av , eller middelverdien, er standardavviket.

Matrisen til korrelasjonskoeffisientene er:

Z- poengsum (gjennomsnittlig vurdering) Z- score (intelligens) Z - poengsum (opprinnelse) Z- poengsum (gjennomsnittlig studietimer)
Z- poengsum (gjennomsnittlig vurdering) 1000 0,600 -0,838 0,788
Z- score (intelligens) 0,600 1000 -0,222 0,022
Z - poengsum (opprinnelse) -0,838 -0,222 1000 -0,918
Z- poengsum (gjennomsnittlig studietimer) 0,788 0,022 -0,918 1000


Hoveddiagonalen er sammensatt av verdier lik fordi den er korrelasjonskoeffisienten til en variabel med seg selv. Det er også en symmetrisk matrise fordi korrelasjonskoeffisienten mellom variabelen og variabelen er den samme som mellom og . Vi ser hvordan det er en sterk sammenheng mellom karakter, gjennomsnittlig studietid og intelligens.

Fra analysen av egenverdiene kan konklusjoner trekkes:

Komponent Innledende egenverdier Uttakssummer av kvadrerte laster
Total Forskjell% % kumulativ Total Forskjell% % kumulativ
1 2.828 70,708 70,708 2.828 70,708 70,708
2 1,070 26.755 97.463 1,070 26.755 97.496
3 0,084 2.088 99.551
4 0,018 -0,449 100 000

Egenverdiene er i synkende rekkefølge og deres forhold til summen av egenverdiene gir prosentandelen av variansen de representerer. Bare de som har en verdi større enn som mer signifikant er blitt vilkårlig valgt, som står for henholdsvis 70,708 % og 26,755 %.

Observer matrisen av hovedkomponentene:

Komponent
1 2
Z- poengsum (gjennomsnittlig vurdering) 0,966 0,204
Z- score (intelligens) 0,442 0,894
Z - poengsum (opprinnelse) -0,947 0,228
Z- poengsum (gjennomsnittlig studietimer) 0,897 -0,420

Faktor 1 veier tungt for gjennomsnittskarakteren. Det ser også ut til at det veier negativt på variabelen til opprinnelsesområdet; Denne uttalelsen gir tydeligvis ingen mening fordi den snur årsakssammenhengen: det er opp til statistikeren å gi en meningsfull forklaring og lese.

Beregn deretter faktoriell poengsummatris:

Komponent
1 2
Z- poengsum (gjennomsnittlig vurdering) 0,341 0,191
Z- score (intelligens) 0,156 0,836
Z - poengsum (opprinnelse) -0,335 0,213
Z- poengsum (gjennomsnittlig studietimer) 0,317 -0,392

Som man kan se, fortsetter kildevariabelen å ha negativ innflytelse på hovedegenverdien. De andre variablene har derimot en positiv vekt.

Merknader

  1. ^ kalles også Hotelling transform eller riktig ortogonal dekomponering
  2. ^ a b ( EN ) Stéphane Tufféry, Faktoranalyse , i Datautvinning og statistikk for beslutningstaking , Wiley, 2011, s. 175-180 , ISBN  978-0-470-68829-8 .

Bibliografi

Relaterte elementer

Andre prosjekter