Weyde, Tillman: Lern- und wissensbasierte Analyse von Rhythmen

Dieser Prozeß wird stochastisch als Wahrscheinlichkeitsverteilung dargestellt. Wenn man unbegrenzt viele Daten zur Verfügung hat, z.B. bei leicht zugänglichen natürlichen oder technischen Prozessen, kann man der tatsächlichen Verteilung beliebig nahe kommen, indem man die Zahl der Beispiele erhöht. In der Praxis ist dies allerdings selten möglich, da normalerweise die Daten nur beschränkt verfügbar oder schwer zugänglich sind und der Berechnungsaufwand begrenzt werden muß.

Eine Technik, um die Komplexität des Modells anzupassen, ist die Regularisierung. Regularisierung bedeutet, zusätzlich zur Fehlerfunktion E einen Term _O_ zu verwenden, der ein Komplexitätsmaß darstellt, und die Summe von Fehler und Komplexitätsmaß zu minimieren:
$~E = E + _O_.$ (5.13)

Dieser Term wird für MLPs üblicherweise als die Summe aller Gewichte definiert und diese Art der Regularisierung Weight Decay genannt:
$sum _O_ = w2i. i$ (5.14)

Damit wird ein Modell mit geringen Gewichten gegenüber einem mit hohen Gewichten bevorzugt. Ein Modell mit kleineren Gewichten zu bevorzugen ist sinnvoll, da die üblicherweise verwendete sigmoide Aktivierungsfunktion im Bereich geringer Aktivierung näherungsweise linear ist, d.h. das Modell ist einfacher als im nichtlinearen Bereich. Weight Decay hält auch den Beitrag eines Teils der Gewichte vernachlässigbar klein, so daß weniger Verbindungen effektiv zum Gesamtergebnis beitragen, das Modell also wiederum einfacher wird. Der positive Effekt von Weight Decay ist zunächst empirisch festgestellt worden.²¹

²¹ Z.B. Hinton (1987), Riedmiller und Braun (1993b).

Weight Decay ist aber auch mit einer wahrscheinlichkeitstheoretischen Interpretation von Backpropagation als Bayesschem Lernen verträglich, die im nächsten Abschnitt behandelt wird.

5.1.6. Neuronale Netze als statistische Modelle

Neuronale Netze wurden in den letzten Jahren zunehmend unter dem Aspekt statistischer Modellierung betrachtet und das Lernen des Netzes wahrscheinlichkeitstheoretisch interpretiert. Hier sollen einige Zusammenhänge kurz dargestellt werden, die für diese Arbeit von Bedeutung sind; eine ausführliche Darstellung findet sich bei Bishop.²²

²² Bishop (1997).

Man betrachtet den Zusammenhang von Eingabedaten x_i und Ausgabedaten t_i als Wahrscheinlichkeitsdichte p(x,t) = p(t|x)p(x). Für den Fall eines Regressionsproblems geht man davon aus, daß es eine zu approximierende Funktion f(x) gibt, zu der sich in den Daten zufällige Abweichungen addieren:
$t = f(x )+ e . i i i$ (5.15)