- 207 -Weyde, Tillman: Lern- und wissensbasierte Analyse von Rhythmen 
  Erste Seite (i) Vorherige Seite (206)Nächste Seite (208) Letzte Seite (247)      Suchen  Nur aktuelle Seite durchsuchen Gesamtes Dokument durchsuchen     Aktuelle Seite drucken Hilfe 

12.4.1.  Weight Decay

Eine der am häufigsten verwendeten Techniken, um die Generalisierungsleistung neuronaler Netze zu verbessern, ist Weight Decay (vgl. Abschnitt 5.1). Weight Decay wurde in RhythmScan implementiert und in verschiedenen Konstellationen erprobt. Das Training der FLN ist empfindlich gegenüber Weight Decay; nur sehr kleine Werte (ca. 10-8) lassen noch ein erfolgreiches Training zu. Die Generalisierung der FLN ließ sich durch Weight Decay nicht verbessern, sie zeigten aber bereits ohne Weight Decay gute Werte. Die Netze MLP4 und MLP3/3 wurden mit der Trainingsmenge aus dem letzten Abschnitt trainiert und zeigten eine verbesserte Generalisierung, wie man Tabelle 12.3 entnehmen kann. Beim Training mit Weight-Decay, sigmoider Aktivierung des Komparatorneurons und Cross-Entropie erreichten die beiden Netze tatsächlich eine wesentlich bessere Generalisierung, die damit auf dem gleichen Niveau wie bei den FLN liegt.






FLN2 FLN3 MLP4 MLP3/3





Interpretationsfehler auf der Trainingsmenge
9 8 5 4

(18%) (16%) (10%) (8%)





Fehlerbetrag (Quadratsumme)

9.07e-7 3.67e-7 2.40e-7 5.06e-8





Relative Beispiele

170 139 250 95





Fehler auf den relativen Beispielen
88 61 26 25

(51%) (43%) (10%) (26%)





Relative Beispiele nach 50 Iterationen

170 427 248 243





Erreichte lokale Minima

0 1 3 3





Interpretationsfehler Testmenge
11 12 10 10

(22%) (24%) (20%) (20%)






Tabelle 12.3: Ergebnisse des Trainings mit Cross-Entropie-Fehler und Weight Decay für verschiedene Netztypen.

Es stellt sich die Frage, warum Weight Decay bei den FLN im Gegensatz zu den MLP keine Verbesserung bewirkt. Weight Decay wird verwendet, um die Modellkomplexität den Daten anzupassen, d.h. um Überlernen bei einem zu flexiblen Modell bzw. zu wenig Daten zu vermeiden. Wenn die Modellkomplexität bereits angemessen ist, kann man dagegen keine wesentliche Verbesserung durch Weight Decay erwarten. Ein Grund könnte also sein, daß das FLN für die Daten bereits eine geeignete Flexibilität hat, oder daß die durch die Fuzzy-Regeln begrenzte Struktur bestimmte falsche Lösungen verhindert. Weight Decay ist heuristisch dadurch motiviert, daß die Neuronen sich bei kleinen Gewichten näherungsweise linear verhalten, was bei MLP zu einem einfacheren Modell führt, das bevorzugt werden sollte.5

Diese Überlegung greift bei den hier verwendeten FLN nicht, da der q-Operator

Erste Seite (i) Vorherige Seite (206)Nächste Seite (208) Letzte Seite (247)      Suchen  Nur aktuelle Seite durchsuchen Gesamtes Dokument durchsuchen     Aktuelle Seite drucken Hilfe 
- 207 -Weyde, Tillman: Lern- und wissensbasierte Analyse von Rhythmen