|
Die Kreuzvalidierung (engl. cross validation) ist ein Testverfahren zur Messung der Güte von
Algorithmen und Methoden aus dem
Data Mining.
Die zur Verfügung stehende Datenmenge, bestehend aus N Instanzen, wird in k Teilmengen (k<N) aufgeteilt. Nun
werden k Testdurchläufe gestartet, bei denen die jeweils k-te Teilmenge als Testmenge und die verbleibenden k-1
Teilmengen als Trainingsmengen verwendet werden. Die Gesamtfehlerrate errechnet sich als Durchschnitt aus den Einzelfehlerraten der k Einzeldurchläufe.
Diese Testmethode nennt man k-fache Kreuzvalidierung.
Aus vielen Experimenten hat sich ein ideales k von zehn ergeben.
Verbesserte Varianten der Kreuzvalidierung:
- stratifizierte
Kreuzvalidierung
- Leave-One-Out Kreuzvalidierung
|