Fachkonzept: Lernrate
- $\alpha=1$
In diesem Fall wird der erste Summand 0 und die Formel reduziert sich gerade wieder auf die ursprüngliche, die wir vorher verwendet hatten und bei der der bisherige Q-Wert vollkommen in Vergessenheit gerät: \begin{equation} Q(s,a) \leftarrow r + \gamma \cdot \max_{a'} Q(s',a') \end{equation} - $\alpha=0$
In diesem Fall ist der zweite Summand 0 und der Q-Wert ändert sich einfach überhaupt nicht: \begin{equation} Q(s,a) \leftarrow Q(s,a) \end{equation}