Fachkonzept: Gierig und neugierig

Gierige Strategien

Das Verfahren, das du im letzten Abschnitt entwickelt hast, bestimmt aus den verschiedenen Q-Werten zu den möglichen Aktionen immer den allerbesten Q-Wert und gibt die entsprechende Aktion zurück. Eine solche Strategie wird in der Informatik als "gierig" (engl.: "greedy") bezeichnet. Wenn die Q-Werte der in der Q-Tabelle mit der Realität genau übereinstimmen, sorgt eine gierige Strategie für ein optimales Verhalten des Agenten.

Problematisch ist es allerdings, wenn die Q-Werte nicht der Realität entsprechen. Dann wird eine gierige Strategie dazu führen, dass das Programm niemals etwas anderes tut als das, was es für optimal hält. Bei einem Programm, das sein Verhalten erlernen oder selbstständig optimieren soll, ist dies ein gewaltiger Nachteil. Denn wie im richtigen Leben: Wenn man nicht mal etwas Neues ausprobiert, lernt man nichts dazu.

Neuigierige Stratgien

Damit ein Verfahren ab und zu etwas Neues ausprobiert, kann man mit einer gewissen Wahrscheinlichkeit von der als optimal angesehenen Aktion abweichen. Wohl gemerkt: Mit einer nicht allzu großen Wahrscheinlichkeit. Denn wenn man fast immer etwas anderes tut als das, was man für gut hält, dann hätte man sich das bisherige Lernen auch sparen können und man kann beim Lernen seine bisherigen Erfahrungen nicht nutzen. Eine solche neugierige Strategie kann so aussehen, dass man mit der Wahrscheinlichkeit $\varepsilon$ (griech. Buchstabe "epsilon") eine andere als die optimale Aktion ausführt, mit der Gegenwahrscheinlichkeit $1-\varepsilon$ jedoch weiterhin die optimale Aktion.

Eine solche Strategie wird als $\varepsilon$-gierig ($\varepsilon$-greedy) bezeichnet. Den Buchstabe $\varepsilon$ kann man sich gut merken, wenn man an die Wörter "erkunden" oder englisch "to explore" denkt.

X

Fehler melden

X

Suche