|
Die Diskriminanzanalyse ist eine Methode der multivariaten Verfahren in der Statistik.
| Inhaltsverzeichnis |
|
1 Problemstellung
2 Klassifikation bei bekannten
Verteilungsparametern
2.1 Maximum-Likelihood-Methode
2.1.1 Ein Merkmal ? Zwei Gruppen - Gleiche
Varianzen
2.1.2 Wünschenswerte Verteilungseigenschaften der
Merkmale
2.1.2.1 Gleiche Varianzen
2.1.2.2 Große Intergruppenvarianz
2.1.2.3 Kleine Intragruppenvarianz
2.1.3 Mehrere Merkmale ? Zwei Gruppen - Gleiche
Kovarianzmatrizen
2.1.4 Mehrere Merkmale ? Mehrere Gruppen -
Gleiche Kovarianzmatrizen
2.1.5 (Fishersche) Diskriminanzfunktion
2.2 Bayessche Diskriminanzanalyse
3 Klassifikation bei unbekannten
Verteilungsparametern
4 Weitere Stichworte
5 Literatur
|
Problemstellung
Wir betrachten ein Objekt und mehrere gleichartige Klassen. Das Objekt gehört einer dieser Klassen an, aber welcher, ist unbekannt. Mit Hilfe der
Diskriminanzanalyse ordnet man das Objekt einer der Klasse zu. Die Diskriminanzanalyse ist also ein Klassifikationsverfahren.
Beispiele:
- Kreditnehmer können in kreditwürdig und nicht kreditwürdig eingeteilt werden. Wenn ein Bankkunde einen Kredit beantragt,
versucht das Institut anhand von Merkmalen wie Höhe des Einkommens, Zahl der Kreditkarten, Beschäftigungsdauer bei der letzten
Arbeitsstelle etc. auf die zukünftige Zahlungsfähigkeit und -willigkeit des Kunden zu schließen.
- Kunden einer Supermarktkette können als Markenkäufer und Noname-Käufer klassifiziert werden. In Frage kommende Merkmale wären
etwa die jährlichen Gesamtausgaben in diesen Läden, der Anteil von Markenprodukten an den Ausgaben etc.
An diesem Objekt kann mindestens ein statistisches metrisch skaliertes
Merkmal x beobachtet werden. Dieses Merkmal wird im Modell der Diskriminanzanalyse als eine Zufallsvariable X interpretiert. Es gibt mindestens zwei verschiedene Gruppen (Populationen, Grundgesamtheiten). Aus einer dieser Grundgesamtheiten stammt X. Mittels
einer Zuordnungsregel, der Klassifikationsregel wird das Objekt einer dieser Grundgesamtheiten zugeordnet. Die
Klassifikationsregel kann oft durch eine Diskriminanzfunktion angegeben werden.
Klassifikation bei bekannten Verteilungsparametern
Für das bessere Verständnis wird die Vorgehensweise anhand von Beispielen erläutert.
Maximum-Likelihood-Methode
Eine Methode der Zuordnung ist die Maximum-Likelihood-Methode: Man ordnet das Objekt der Gruppe zu, bei der die Wahrscheinlichkeit oder Wahrscheinlichkeitsdichte maximal wird.
Ein Merkmal ? Zwei Gruppen - Gleiche Varianzen
Beispiel
Eine Gärtnerei hat die Möglichkeit, eine größere Menge Samen einer bestimmten Sorte Nelken günstig zu erwerben. Um den
Verdacht auszuräumen, dass es sich dabei um alte, überlagerte Samen handelt, wird eine Keimprobe gemacht. Man sät also 1 g Samen
aus und zählt, wie viele dieser Samen keimen. Aus Erfahrung ist bekannt, dass die Zahl der keimenden Samen pro 1 g Saatgut
annähernd normalverteilt ist. Bei frischem Saatgut (Population I)
keimen im Durchschnitt 80 Samen, bei altem (Population II) sind es nur 40 Samen.
- Population I: Die Zahl der frischen Samen, die keimen, ist verteilt als

- Population II: Die Zahl der alten Samen, die keimen, ist verteilt als

Die Keimprobe hat nun
- x = 70
ergeben. Die Grafik zeigt, dass die Normalverteilungsdichte an der Stelle x = 70 bei der Population I am größten ist. Man
ordnet also diese Keimprobe als frisch ein.

Aus der Grafik ersehen wir, dass wir als Klassifikationsregel auch angeben können:
- Ordne das Objekt der Population I zu, wenn der Abstand von x zum Erwartungswert ?I am kleinsten ist, bzw. wenn
-
- | x - ?I | < | x - ?II |
- ist.
Wünschenswerte Verteilungseigenschaften der Merkmale
Gleiche Varianzen
Die Merkmale der beiden Gruppen sollten die gleiche Varianz haben. Bei verschiedenen Varianzen ergeben sich
mehrere Zuordnungsmöglichkeiten.
Unterschiedliche Gruppenvarianzen
In der obigen Grafik sind zwei Gruppen mit verschiedenen Varianzen gezeigt. Die flache Normalverteilung hat eine größere
Varianz als die schmale, hohe. Man erkennt, wie die Varianz der Gruppe I die Normalverteilung der Gruppe II "unterläuft". Wenn
nun in der Stichprobe beispielsweise x = 10 resultierte, müsste man die Samen als frisch einordnen, da die
Wahrscheinlichkeitsdichte für Gruppe I größer ist als für Gruppe II.
Im "Standardmodell" der Diskriminanzanalyse wird von gleichen Varianzen und Kovarianzen ausgegangen.
Große Intergruppenvarianz
Die Varianz zwischen den Gruppenmittelwerten, die Intergruppenvarianz, sollte groß sein,
weil sich dann die Verteilungen nicht durchmischen: Die Trennung der Gruppen ist schärfer.
 |
. |
 |
| Schlechter: Kleine Varianz zwischen den Gruppen |
. |
Besser: Große Varianz zwischen den Gruppen |
Kleine Intragruppenvarianz
Die Varianz innerhalb einer Gruppe, die Intragruppenvarianz, sollte möglichst klein sein,
dann durchmischen sich die Verteilungen nicht, die Trennung ist besser.
 |
. |
 |
| Schlechter: Große Varianz in einer Gruppe |
. |
Besser: Kleine Varianz in einer Gruppe |
Mehrere Merkmale ? Zwei Gruppen - Gleiche Kovarianzmatrizen
Das interessierende Objekt kann mehrere zu beobachtende Merkmale xj (j = 1, ..., m) aufweisen. Man erhält hier als
modellhafte Verteilungsstruktur einen Zufallsvektor
X. Dieser Vektor ist verteilt mit dem Erwartungswertvektor ? und der Kovarianzmatrix ?. Die konkrete
Realisation ist der Merkmalsvektor x, dessen Komponenten die einzelnen Merkmale xj enthalten.
Bei zwei Gruppen ordnet man analog zu oben das beobachtete Objekt der Gruppe zu, bei der die Distanz des Merkmalsvektors x zu dem Erwartungswertvektor minimal wird. Verwendet wird hier, teilweise etwas
umgeformt, die Mahalanobis-Distanz als Distanzmaß, die quasi
das Quadrat der Euklidischen Distanz darstellt.
Beispiel
In einem großen Freizeitpark wird das Ausgabeverhalten von Besuchern ermittelt. Insbesondere interessiert man sich dafür, ob
die Besucher in einem parkeigenen Hotel nächtigen werden. Jeder Familie entstehen bis 16 Uhr Gesamtausgaben (Merkmal
x1) und Ausgaben für Souvenirs (Merkmal x2). Die Marketingleitung weiß aus langjähriger Erfahrung, dass die
entsprechenden Zufallsvariablen X1 und X2 gemeinsam annähernd normalverteilt sind mit den Varianzen 25
[?2] und der Kovarianz Cov12 = 20 [?2]. Bezüglich der Hotelbuchungen lassen sich die Konsumenten
in ihrem Ausgabeverhalten in zwei Gruppen I und II einteilen, so dass die bekannten Verteilungsparameter in der folgenden Tabelle
aufgeführt werden können:
| Gruppe |
Gesamtausgaben |
Ausgaben für Souvernirs |
|
| |
Erwartungswert EX1 |
Erwartungswert EX2 |
Varianzen von X1 und X2 |
| Hotelbucher I |
70 |
40 |
25 |
| Keine Hotelbucher II |
60 |
20 |
25 |
Für die Gruppe I ist also der Zufallsvektor multivariat normalverteilt mit dem Erwartungswertvektor

und der Kovarianzmatrix

für die Gruppe II gilt Entsprechendes.
Die Grundgesamtheiten der beiden Gruppen sind in der folgenden Grafik als dichte Punktwolken angedeutet. Die Ausgaben für
Souvernirs werden als Luxusausgaben bezeichnet. Der rosa Punkt steht für die Erwartungswerte der ersten Gruppe, der hellblaue für
die Gruppe II.

Eine weitere Familie hat den Freizeitpark besucht. Sie hat bis 16 Uhr insgesamt 65 ? ausgegeben und für Souvernirs 35 ?
(grüner Punkt in der Grafik). Soll man für diese Familie ein Hotelzimmer bereithalten?
Ein Blick auf die Grafik lässt schon erahnen, dass der Abstand des grünen Punktes zum Erwartungswertvektor der Gruppe I
minimal ist. Deshalb vermutet die Hotelverwaltung, dass die Familie ein Zimmer nehmen wird.
Für die Mahalanobis-Distanz

des Merkmalsvektors x zum Zentrum der Gruppe I errechnet man
und von x zum Zentrum der Gruppe II
Mehrere Merkmale ? Mehrere Gruppen - Gleiche Kovarianzmatrizen
Es können der Analyse mehr als zwei Populationen zu Grunde liegen. Auch hier ordnet man analog zu oben das Objekt der
Population zu, bei der die Mahalanobis-Distanz des Merkmalsvektors x zu dem Erwartungswertvektor minimal wird.
(Fishersche) Diskriminanzfunktion
In der Praxis ist es umständlich, bei jedem zu klassifizierenden Merkmal die Mahalanobis-Distanz zu ermitteln. Einfacher ist
die Zuordnung mittels einer linearen Diskriminanzfunktion.
Ausgehend von der Entscheidungsregel
- "Ordne das Objekt der Gruppe I zu, wenn die Distanz des Objektes zur Gruppe I kleiner ist":
-

resultiert durch Umformen dieser Ungleichung die Entscheidungsregel mit Hilfe der Diskriminanzfunktion f(x):
- "Ordne das Objekt der Gruppe I zu, wenn gilt":
-

Die Diskriminanzfunktion errechnet sich im Fall zweier Gruppen und gleicher Kovarianzmatrizen als
Die Diskriminanzfunktion resultiert auch als empirischer Ansatz, wenn man die Varianz zwischen den Gruppen maximiert und die
Varianz innerhalb der Gruppen minimiert. Dieser Ansatz heißt Fishersche Diskriminanzfunktion, weil sie von R.A.
Fisher 1936 vorgestellt worden ist.
Bayessche Diskriminanzanalyse
Bisher wurde von der Annahme ausgegangen, dass die Gruppen in der Grundgesamtheit gleich groß sind. Dies ist aber nicht der
Regelfall. Will man die Anteile der Gruppen in die Klassifizierung miteinbeziehen, gewichtet man die Distanzmaße noch mit den
Anteilen ?(k), den so genannten A-Priori-Wahrscheinlichkeiten. Im Zwei-Gruppenfall ergibt das beispielsweise die Fishersche
Diskriminanzfunktion
mit der Entscheidungsregel wie oben. Siehe auch Bayes-Klassifikator
Klassifikation bei unbekannten Verteilungsparametern
Meistens werden die Verteilungen der zu Grunde liegenden Merkmale unbekannt sein. Sie müssen also geschätzt werden. Man
entnimmt beiden Gruppen eine so genannte Lernstichprobe im Umfang nI bzw. nII. Mit diesen Daten werden die
Erwartungswertvektoren ?k (i = I,II) und die Kovarianzmatrix ?k geschätzt. Analog zu oben verwendet man die
Mahalanobisdistanz oder die Diskriminanzfunktion, mit den geschätzten Parametern anstelle der wahren.
Geht man von dem Standardmodell mit gruppengleichen Kovarianzmatrizen aus, muss erst mit Hilfe des Boxschen M-Tests die Gleichheit der Kovarianzmatrizen bestätigt werden.
Beispiel
Freizeitpark-Beispiel von oben:
Die Grundgesamtheit ist nun unbekannt. Es wurden in jeder Gruppe je 16 Familien näher untersucht. Es ergaben sich in der
Stichprobe die folgenden Werte:

Die Mittelwerte für jede Gruppe, der Gesamtmittelwert, die Kovarianzmatrizen und die gepoolte Kovarianz errechneten sich wie
folgt:
Daraus erhält man nach obiger Formel die Diskriminanzfunktion

Die Klassifikationsregel lautet jetzt:
- Ordne das Objekt der Gruppe I zu, wenn
-

- ist.
Um die Güte des Modells zu überprüfen, kann man die Stichprobenwerte klassifizieren. Es ergibt sich hier die
Klassifikationsmatrix
| Gruppe |
Richtig zugeordnet |
falsch zugeordnet |
| I |
14 |
2 |
| II |
13 |
3 |
Nun soll wieder die Familie mit den Beobachtungen (65; 35) eingeordnet werden.
Die folgende Grafik zeigt das Streudiagramm der Lernstichprobe mit den Gruppenmittelwerten. Der grüne Punkt ist die
Lokalisation des Objekts (65;35).

Schon aus der Grafik ist zu erkennen, dass dieses Objekt zu Gruppe I gehört. Die Diskriminanzfunktion ergibt

Da

ist, ordnet man das Objekt der Gruppe I zu.
Weitere Stichworte
Literatur
- Mardia, KV, Kent, JT, Bibby, JM: Multivariate Analysis, New York 1979
- Fahrmeir, Ludwig, Hamerle, Alfred, Tutz, Gerhard (Hrsg): Multivariate statistische Verfahren, New York 1996
- Hartung, Joachim, Elpelt, Bärbel: Multivariate Statistik, München, Wien 1999
|