Die Diskontierte Belohnung ist Bestandteil des
bestärkenden Lernens und findet Anwendung bei Aufgaben, die keine endliche Zahl
an Zeitschritten haben, sondern durch andere Umstände beendet werden. Dabei
muss der Agent die Belohnung für zeitlich näher liegende Handlungen stärker
gewichten als für spätere. Dazu wird ein Faktor zwischen 0 und 1 eingeführt,
mit dem zeitlich weiter entfernte Belohnungen multipliziert werden. So entsteht
ein „Wichtigkeitsgefälle“ der Belohnungen und die unmittelbareren Belohnungen
erhalten einen größeren Einfluss auf den Agenten.