|
Die Varianzanalyse ist ein statistisches Verfahren der
Datenanalyse und Mustererkennung, das versucht, die Varianz einer metrischen Variablen durch eine oder mehrere Variablen zu erklären. Das Verfahren
untersucht, ob (und gegebenenfalls wie) sich der Erwartungswert einer
metrischen Zufallsvariablen in verschiedenen Gruppen (auch
Klassen) unterscheidet. In Prüfgrößen des Verfahrens wird getestet, ob die Varianz zwischen den Gruppen größer ist als
die Varianz innerhalb der Gruppen. Dadurch kann ermittelt werden, ob die
Gruppeneinteilung sinnvoll ist oder nicht bzw. ob sich die Gruppen signifikant unterscheiden oder nicht.
Beispiele für die Anwendung der Varianzanalyse sind die Untersuchung der Wirksamkeit von Medikamenten in der Medizin (siehe
Doppelblindversuch) und die Untersuchung des Einflusses von
Düngemitteln auf den Ertrag von Anbauflächen in der Landwirtschaft.
Siehe auch: Diskriminanzanalyse, Nullhypothese, Bestimmtheitsmaß
| Inhaltsverzeichnis |
|
1 Begriffe
2 Einfaktorielle Varianzanalyse
3 Zweifaktorielle Varianzanalyse
4 mehr als zwei Faktoren
5 Beispiel einer einfachen Varianzanalyse
6 Literatur
|
Begriffe
Die metrische Variable, deren Wert durch die kategorialen Variablen erklärt werden soll, heißt
- Zielvariable oder
- Abhängige Variable
Die kategorialen Variablen heißen
- Einflussvariablen oder
- Unabhängige Variablen oder
- Faktoren (die Kategorien heißen dann Faktorstufen)
Die Signifikanz einer ermittelten Gruppeneinteilung
lässt sich anhand der F-Verteilung testen.
Einfaktorielle Varianzanalyse
Bei der einfaktoriellen Varianzanalyse enthält das Modell nur einen Faktor (der dann beliebig viele Faktorstufen haben kann).
Das Modell in Effektdarstellung lautet: 
Yij: Zielvariable; Annahmegemäß in den Gruppen normalverteilt
I: Anzahl der Faktorstufen des betrachteten Faktors
ni: Stichprobenumfänge für die einzelnen Faktorstufen
?: Mittelwert der Gesamtstichprobe
?i: Effekt der i-ten Faktorstufe
?ij: Störvariablen, unahbhängig und Normalverteilt mit Erwartungswert 0 und gleicher Varianz.
Zweifaktorielle Varianzanalyse
Die zweifaktorielle Varianzanalyse berücksichtigt zur Erklärung der Zielvariablen zwei Faktoren (Faktor A und Faktor B). Das
Modell (für den Fall mit festen Effekten)in Effektdarstellung lautet:
Yijk: Zielvariable; Annahmegemäß in den Gruppen normalverteilt
I: Anzahl der Faktorstufen des ersten Faktors (A)
J: Anzahl der Faktorstufen des zweiten Faktors (B)
K: Anzahl der Beobachtungen pro Faktorstufe (hier für alle Kombinationen von Faktorstufen gleich)
?i: Effekt der i-ten Faktorstufe des Faktors A
?j: Effekt der j-ten Faktorstufe des Faktors B
&(??)ij: Interaktion (Wechselwirkung) der Faktoren auf der Faktorstufenkombination (i,j). Dies beschreibt einen besonderen Effekt, der nur auftritt, wenn die Faktorstufenkombination (i,j) vorliegt.
?ijk: Störvariablen, unahbhängig und Normalverteilt mit
mehr als zwei Faktoren
auch mehrere Faktoren sind möglich. Allerdings steigt der Datenbedarf für eine Schätzung der Modellparameter mit der Anzahl
der Faktoren stark an. Auch die Darstellungen des Modells (z.B. in Tabellen) werden mit zunehmender Anzahl der Faktoren
unübersichtlicher.
Beispiel einer einfachen Varianzanalyse
Bei dem folgenden Beispiel handelt es sich um eine einfache Varianzanalyse mit zwei Gruppen (auch Zwei-Stichproben
F-Test). In einem Versuch erhalten zwei Gruppen von Tieren (k = 2) unterschiedliche
Nahrung. Nach einer gewissen Zeit wird ihr Gewicht mit folgenden Werten gemessen:
- Gruppe 1: 45, 23, 55, 32, 51, 91, 74, 53, 70, 84 (Anzahl der Tiere n1 = 10)
- Gruppe 2: 64, 75, 95, 56, 44, 130, 106, 80, 87, 115 (Anzahl der Tiere n2 = 10)
Es soll untersucht werden, ob die unterschiedliche Nahrung einen signifikanten Einfluss auf das Gewicht hat. Der Mittelwert und die Varianz der beiden
Gruppen betragen


Das zugrunde liegende Wahrscheinlichkeitsmodell setzt voraus, dass die Gewichte der Tiere normalverteilt sind. Die zu testende Nullhypothese ist
- H0: "Die Mittelwerte der beiden Gruppen sind gleich"
Offensichtlich unterscheiden sich die Mittelwerte und . Diese Abweichung könnte
jedoch auch im Bereich der natürlichen Schwankungen liegen. Um zu prüfen, ob die Unterscheidung signifikant ist, wird eine
Testgröße F mit bekannter Wahrscheinlichkeitsverteilung berechnet. Dazu wird zunächst die gemeinsamen Varianz
varg bestimmt:

Anmerkung: Manchmal wird bei dieser Berechnung auch die um eins verringerte Größe der Stichproben verwendet, also ni - 1 statt ni. Mit Hilfe der
gemeinsamen Varianz berechnet sich die Testgröße F als:
Die größe F ist nach dem zugrunde liegenden Modell eine Zufallsvariable mit einer Fk - 1,n -
k-verteilung wobei k die Anzahl der Gruppen und n die Anzahl der Messwerte sind. Die Indizes werden als Freiheitsgrade bezeichnet. Der Wert der
F-Verteilung für gegebene Freiheitsgrade (F-Quantil) kann in einer Fisher-Tafel nachgeschlagen werden. Dabei muss noch ein gewünschtes Signifikanzniveau (die
Irrtumswahrscheinlichkeit) angegeben werden. Im vorliegenden Fall beträgt die Irrtumswahrscheinlichkeit von 5% . Das heißt, dass bei allen Werten der Testgröße
F bis 4,41 die Nullhypothese angenommen werden kann. Da 6,21 >
4,41, muss die Nullhypothese bei den vorliegenden Werten jedoch verworfen werden.
Es kann also mit einer Wahrscheinlichkeit von 95% davon ausgegangen werden, dass die Tiere in den beiden Gruppen im Mittel
wirklich ein unterschiedliches Gewicht aufweisen.
Siehe auch: Chi-Quadrat-Test, t-Verteilung
Literatur
- Fahrmeir u.A. (Hrsg): Multivariate statistische Verfahren. Walter de Gruyter, 1996
- Fahrmeir u.A.: Statistik - Der Weg zur Datenanalyse. Springer, 1999
|