Die Optimalität beschreibt beim bestärkenden Lernen
das Ziel des Agenten, die optimale Policy zu finden, d. h. die Policy, die ihm die
höchstmögliche (diskontierte) Belohnung gibt. Die
optimale Policy hat eine optimale state-value function und eine optimale
action-value function.