inf-schule | Deep-Learning - Ziffernerkennung » Fachkonzept künstliche Neuronen

Fachkonzept künstliche Neuronen

Vom Perzeptron zum künstlichen Neuron

Wir hatte gesehen, dass die Delta-Lernregel für ein einzelnes Perzeptronen bei separierbaren Daten immer gegen ein perfektes Ergebnis konvergiert. Die Delta-Lernregel lässt sich zwar auch auf mehrlagige Perzeptronen verallgemeinern, allerdings liefert sie auch dann lediglich im Falle separierbarer Eingangsdaten brauchbare Ergebnisse. Bei nicht separierbaren Daten ergibt sich durch die Delta-Lernregel auch leider kein (mehrlagiges) Perzeptron, dass noch irgend etwas Sinnvolles tut, wie zumindest noch die meisten der Eingangsdaten korrekt zu erkennen, wenn es schon nicht alle erkennt.

Beim Perzeptron können sich die Ausgangsdaten wegen der nicht-stetigen Treppenfunktion sprunghaft mit den Eingangsdaten ändern. Deshalb können kleine Änderungen in den Eingangdaten große und sprunghafte Änderungen in den Ausgangsdaten zur Folge haben. Dadurch ist es schwierig, einen Lernprozess zu definieren, der auch bei nicht separierbaren Daten noch brauchbare Ergebnisse liefert.

Daher definieren wir nun ein so genanntes künstliches Neuron, bei dem die Treppenfunktion durch eine verallgemeinerte und stetige Aktivierungsfunktion ersetzt wird.

Progagierungs- und Aktivierungsfunktion beim künstlichen Neuron

Wir beschränken uns zunächst auf ein künstliches Neuron mit lediglich zwei Eingängen $x_1, x_2$. Die folgende Funktion $z=z(x_1,x_2)$ wird als Propagierungsfunktion bezeichnet: $$ z = w_1 \cdot x_1 + w_2 \cdot x_2+b $$ Dabei sind $w_1$ und $w_2$ wie vorher die Gewichte der beiden Eingange. Die reelle Zahl $b$ wird als Bias bezeichnet. Weiterhin wird die frühere Treppenfunktion durch eine so genannte Aktivierungsfunktion ersetzt. Es gibt verschiedene Möglichkeiten für Aktivierungsfunktionen, wir wählen hier zunächst die so genannte Tangens-Hyperbolicus-Funktion: $$ a(z) = tanh(z) := \frac{e^z-e^{-z}}{e^z+e^{-z}}$$

Um im Weiteren eine Lernregel für ein solches künstliches Neuron formulieren zu können, benötigen wir auch noch die Ableitung der Aktivierungsfunktion. Die hier gewählte tanh-Funktion hat den Vorteil, dass sich deren Ableitung sehr leicht berechnen lässt als: $$ tanh^\prime(z)=1-tanh^2(z) $$

Aufgabe 1

Vergleiche den Bias $b$ eines künstlichen Neurons mit dem Schwellenwert $\Theta$ eines Perzeptrons. Was stellst du fest?

Aufgabe 2

Vergleiche die tanh-Funktion mit der früher verwendeten Treppenfunktion. Worin bestehen Unterschiede, worin Gemeinsamkeiten?

Aufgabe 3

Weise nach, dass die Ableitung der tanh-Funktion gegeben ist durch: $$ tanh^\prime(z)=1-tanh^2(z) $$ Tipp: Verwende die Quotientenregel und die Kettenregel der Differentialrechnung.