Fachkonzept künstliche Neuronen
Vom Perzeptron zum künstlichen Neuron
Wir hatte gesehen, dass die Delta-Lernregel für ein einzelnes Perzeptronen bei separierbaren Daten immer gegen ein perfektes Ergebnis konvergiert. Die Delta-Lernregel lässt sich zwar auch auf mehrlagige Perzeptronen verallgemeinern, allerdings liefert sie auch dann lediglich im Falle separierbarer Eingangsdaten brauchbare Ergebnisse. Bei nicht separierbaren Daten ergibt sich durch die Delta-Lernregel auch leider kein (mehrlagiges) Perzeptron, dass noch irgend etwas Sinnvolles tut, wie zumindest noch die meisten der Eingangsdaten korrekt zu erkennen, wenn es schon nicht alle erkennt.
Beim Perzeptron können sich die Ausgangsdaten wegen der nicht-stetigen Treppenfunktion sprunghaft mit den Eingangsdaten ändern. Deshalb können kleine Änderungen in den Eingangdaten große und sprunghafte Änderungen in den Ausgangsdaten zur Folge haben. Dadurch ist es schwierig, einen Lernprozess zu definieren, der auch bei nicht separierbaren Daten noch brauchbare Ergebnisse liefert.
Daher definieren wir nun ein so genanntes künstliches Neuron, bei dem die Treppenfunktion durch eine verallgemeinerte und stetige Aktivierungsfunktion ersetzt wird.Progagierungs- und Aktivierungsfunktion beim künstlichen Neuron
Wir beschränken uns zunächst auf ein künstliches Neuron mit lediglich zwei Eingängen $x_1, x_2$. Die folgende Funktion $z=z(x_1,x_2)$ wird als Propagierungsfunktion bezeichnet: $$ z = w_1 \cdot x_1 + w_2 \cdot x_2+b $$ Dabei sind $w_1$ und $w_2$ wie vorher die Gewichte der beiden Eingange. Die reelle Zahl $b$ wird als Bias bezeichnet. Weiterhin wird die frühere Treppenfunktion durch eine so genannte Aktivierungsfunktion ersetzt. Es gibt verschiedene Möglichkeiten für Aktivierungsfunktionen, wir wählen hier zunächst die so genannte Tangens-Hyperbolicus-Funktion: $$ a(z) = tanh(z) := \frac{e^z-e^{-z}}{e^z+e^{-z}}$$![](https://inf-schule.de/content/5_ki/1_menueansicht/3_maschinelles_lernen_mit_python/6_deep_learning/7_kuenstliche_neuronen/tanh-funktion.png)