|
Die Hauptkomponentenanalyse (englisch: Principal Component Analysis (PCA)) ist eine Methode
der multivariaten Verfahren in der Statistik. Sie ist
verwandt mit der Faktorenanalyse.
| Inhaltsverzeichnis |
|
1 Konzeption der Hauptkomponentenanalyse
1.1 Beispiel
1.2 Weitere Anwendungsbeispiele der
Hauptkomponentenanalyse
2 Verfahren
2.1 Statistisches Modell
2.2 Schätzung der Modellparameter
2.3 Beispiel mit drei Variablen
2.4 Beispiel mit acht Variablen
3 Literatur
|
Konzeption der Hauptkomponentenanalyse
In diesem Verfahren versucht man, aus Daten mit vielen Eigenschaften einige wenige latente Faktoren zu extrahieren, die für
diese Eigenschaften bestimmend sind. Da die Hauptkomponentenanalyse nicht ganz einfach ist, folgt zunächst ein
Beispiel
Betrachtet werden Artillerieschiffe des 2. Weltkriegs. Sie sind eingeteilt in die Klassen Schlachtschiffe, schwere Kreuzer,
leichte Kreuzer und Zerstörer. Es liegen Daten für ca. 200 Schiffe vor. Es wurden die Merkmale Länge, Breite, Wasserverdrängung, Tiefgang, PS-Stärke, Knoten, Aktionsradius und Mannschaftsstärke erfasst. Eigentlich messen die Merkmale Länge, Breite, Wasserverdrängung
und Tiefgang alle einen ähnlichen Sachverhalt. Man könnte hier also von einem Faktor ?Größe? sprechen. Die Frage ist, ob noch
andere Faktoren die Daten bestimmen. Es gibt tatsächlich noch einen zweiten deutlichen Faktor, der vor allem durch PS-Zahl und
Knoten bestimmt wird. Vielleicht könnte man ihn ?Geschwindigkeit? nennen.
Weitere Anwendungsbeispiele der Hauptkomponentenanalyse
Wendet man die Hauptkomponentenanalyse auf das Kaufverhalten von Konsumenten an, gibt es möglicherweise latente Faktoren wie
sozialer Status, Alter oder Familienstand, die bestimmte Käufe motivieren. Hier könnte man durch gezielte Werbung die Kauflust
entsprechend kanalisieren.
Hat man ein statistisches Modell mit sehr vielen Merkmalen, könnte mit Hilfe der Hauptkomponentenanalyse gegebenenfalls die
Zahl der Variablen im Modell reduziert werden, was meistens die Modellqualität steigert.
Anwendung findet die Hauptkomponentenanalyse auch in der Bildverarbeitung - insbesondere bei der Fernerkundung. Dabei kann man Satellitenbilder
analysieren und Rückschlüsse daraus
ziehen.
Verfahren
Es soll zunächst vorausgeschickt werden, dass die Varianz von Daten ein Maß für
ihren Informationsgehalt ist.
Die Daten liegen als n-dimensionale Punktwolke in einem n-dimensionalen kartesischen Koordinatensystem vor. Es wird nun ein neues Koordinatensystem in die Punktwolke gelegt, das
Koordinatensystem wird rotiert. Die erste Achse soll so durch die Punktwolke gelegt werden, dass die Varianz der Daten in dieser
Richtung maximal wird. Die zweite Achse steht auf der ersten Achse senkrecht. In ihrer Richtung ist die Varianz am zweitgrößten
usw. Für die n-dimensionalen Daten gibt es also grundsätzlich n viele Achsen, die aufeinander senkrecht stehen, sie sind orthogonal. Die Gesamtvarianz der Daten ist die Summe dieser "Achsenvarianzen". Wird
nun durch die ersten p (p<n) Achsen der größte Prozentsatz der Gesamtvarianz abgedeckt, erscheinen die Faktoren, die durch die
neuen Achsen repräsentiert werden, ausreichend für den Informationsgehalt der Daten.
Häufig können die Faktoren inhaltlich nicht interpretiert werden.
Statistisches Modell
Man betrachtet p viele Zufallsvariablen Xj, die
bezüglich ihrer Erwartungswerte zentriert sind, d.h. ihre
Erwartungswerte wurden von der Zufallsvariablen subtrahiert. Diese Zufallsvariablen werden in einem (px1)-Zufallsvektor x
zusammengefasst. x hat als Erwartungswertvektor einen Nullvektor und die (pxp)-Kovarianzmatrix ?, wobei ? symmetrisch und positiv definit ist. Die Eigenwerte ?j (j=1,...,p) der Matrix ? sind absteigend der Größe nach geordnet. Sie werden als Diagonalelemente in der
Diagonalmatrix ? aufgeführt. Die zu ihnen gehörenden Eigenvektoren bilden die orthogonale Matrix ?. Es gilt dann

Der Zufallsvektor x wird linear transformiert
zu
.
Zur Verdeutlichung betrachten wir einen dreidimensionalen Zufallsvektor
.
Die Matrix der Eigenwerte ist
wobei ?A > ?B > ?C ist.
Die (3x1)-Eigenvektoren ?j lassen sich in der Matrix ? zusammenfassen:
.
Die Multiplikation

ergibt die Gleichungen
- YA = ?1AX1 +
?2AX2 + ?3AX3
- YB = ?1BX1 +
?2BX2 + ?3BX3
- YC = ?1CX1 +
?2CX2 + ?3CX3.
Die Varianz von YAist
- varYA = ?A,
also hat die Hauptkomponente YA den größten Anteil an der Gesamtvarianz der Daten, YB den zweitgrößten
Anteil usw. Die Elemente ?jk (j=1,2,3; k = A,B,C) könnte man als Beitrag der Variablen Xj am Faktor k
bezeichnen. Die Matrix ? bezeichnet man in diesem Zusammenhang als Ladungsmatrix, sie gibt an, "wie hoch eine Variable X
auf einen Faktor Y lädt".
Schätzung der Modellparameter
Liegen konkret erhobene Daten mit p Merkmalen vor, wird aus den Merkmalswerten die Stichproben-Korrelationsmatrix errechnet. Aus dieser Matrix bestimmt man dann die Eigenwerte
und Eigenvektoren für die Hauptkomponentenanalyse.
Beispiel mit drei Variablen
Dieses obige Beispiel wird jetzt in Zahlen verdeutlicht:
Wir betrachten die Variablen Länge, Breite, Knoten. Die Streudiagramme geben einen Eindruck über die gemeinsame Verteilung der
Variablen wieder.
Mit diesen drei Variablen wurde mit dem statistischen Programmpaket SPSS eine Hauptkomponentenanalyse durchgeführt. Die
Ladungsmatrix ? ist
| Faktor |
A |
B |
C |
| Länge |
0,862 |
0,481 |
-0,159 |
| Breite |
0,977 |
0,083 |
0,198 |
| Knoten |
-0,679 |
0,730 |
0,082 |
Der Faktor yA setzt sich also zusammen aus
,
vor allem der Beitrag von Länge und Breite zum ersten Faktor ist groß. Beim zweiten Faktor ist vor allem der Beitrag von
Knoten groß. Der dritte Faktor ist unklar und wohl auch unerheblich.
Die Gesamtvarianz der Daten verteilt sich wie folgt auf die Hauptkomponenten:
| Faktor |
Eigenwert ?j |
Prozent der Gesamtvarianz |
Prozentualer Anteil der
Kumulierten Varianz
an Gesamtvarianz |
| A |
2,16 |
71,97 |
71,97 |
| B |
0,77 |
25,67 |
97,64 |
| C |
0,07 |
2,36 |
100,00 |
Es werden also durch die ersten zwei Hauptkomponenten bereits 97,64% der gesamten Varianz der Daten abgedeckt. Der dritte
Faktor trägt nichts Nennenswertes zum Informationsgehalt bei.
Beispiel mit acht Variablen
Es wurden nun acht Merkmale der Artillerieschiffe einer Hauptkomponentenanalyse unterzogen. Die Tabelle der Ladungsmatrix
zeigt, dass vor allem die Variablen Länge, Breite, Tiefgang, Wasserverdrängung und Mannschaftsstärke hoch auf die erste
Hauptkomponente laden. Diese Komponente könnte man als "Größe" bezeichnen. Die zweite Komponente wird zum größten Teil durch PS
und Knoten erklärt. Die könnte "Geschwindigkeit" genannt werden. Eine dritte Komponente lädt noch hoch auf Aktionsradius.
Die beiden ersten Faktoren decken bereits ca. 84% der Information der Schiffsdaten ab, der dritte Faktor erfasst noch einmal
ca. 10%. Der zusätzliche Beitrag der restlichen Komponenten ist unerheblich.

Literatur
- Mardia, KV, Kent, JT, und Bibby, JM: Multivariate Analysis, New York 1979
- Fahrmeir, Ludwig, Hamerle, Alfred, Tutz, Gerhard (Hrsg): Multivariate statistische Verfahren, New York 1996
- Hartung, Joachim, Elpelt, Bärbel: Multivariate Statistik, München, Wien 1999
|