Weyde, Tillman: Lern- und wissensbasierte Analyse von Rhythmen

- 205 -


	LN	FLN1	FLN2	FLN3	MLP4	MLP3/3

Interpretationsfehler Trainingsmenge	6	7	6	8	4	1
	(12%)	(14%)	(12%)	(16%)	(8%)	(2%)

Fehlerbetrag	3.95e-7	2.60e-7	3.94e-7	3.67e-7	3.19e-7	5.06e-8

Relative Beispiele	267	227	230	139	742	379

Fehler auf den relativen Beispielen	97	54	26	61	120	24
	(36%)	(23%)	(11%)	(43%)	(16%)	(6%)

Relative Beispiele nach 50 Iterationen	316	330	242	427	626	398

Erreichte lokale Minima	3	2	2	1	1	2

Interpretationsfehler Testmenge	36	11	10	12	19	14
	(72%)	(22%)	(20%)	(24%)	(38%)	(28%)

Tabelle 12.1:

Ergebnisse des Trainings mit verschiedenen Netztypen. LN: Lineares Netz, FLN1: fuzzy-logisches Netz, FLN2: Reduziertes fuzzy-logisches Netz, FLN3: Reduziertes fuzzy-logisches Netz mit Bias, MLP4: Multi-Layer-Perceptron, eine versteckte Schicht, MLP3/3: Multi-Layer-Perceptron, zwei versteckte Schichten.

etwas verbessert. Die Verwendung von Neuronen mit Bias bewirkt dagegen eine Verschlechterung der Ergebnisse.

12.3. Aktivierung und Fehlerfunktion

Verschiedene Interpretationen der Lernaufgabe führen zu unterschiedlichen Fehlerfunktionen, wie in Abschnitt 10.2.3 beschrieben. Für die Beispiele im vorigen Abschnitt wurde der ursprüngliche Ansatz mit der semilinearen Aktivierungsfunktion und der Quadratsumme als Fehlermaß verwendet. Als Alternative wurde auch eine sigmoide Aktivierungsfunktion des Komparatorneurons mit Quadratsumme als Fehlermaß verwendet, wie von Braun vorgeschlagen⁴

⁴ Vgl. Braun (1997).

, die jedoch keine guten Trainingserfolge lieferte. Problematisch ist, daß in die Ableitung der Fehlerfunktion nach der Netzeingabe die Ableitung der Ausgabefunktion als Faktor mit dem Term o_K(1 -o_K) eingeht. Dadurch wird die Ableitung der Fehlerfunktion nach der Aktivierung des Komparatorneurons in der Nähe von 1 sehr klein und der Trainingseffekt für Beispiele mit Aktivierungen nahe 1 – also solchen, die deutlich falsch bewertet werden – ist gering. Dieses Problem ist auch in anderen Zusammenhängen aufgetreten, und es wurden verschiedene Lösungen vorgeschlagen. Es ist möglich, eine Konstante zu der Ableitung zu addieren, was die Lernleistung etwas verbessert. Man kann auch die Ableitung der Aktivierungsfunktion durch eine Konstante ersetzen. Damit entfernt man sich allerdings relativ weit von der Minimierung der

- 205 -

Weyde, Tillman: Lern- und wissensbasierte Analyse von Rhythmen