update
This commit is contained in:
@@ -620,7 +620,7 @@ $$
|
|||||||
最佳价值函数是指,我们搜索一种策略$\pi$ 让每个状态的价值最大。$V^*$ 就是到达每一个状态,它的值的最大化情况。
|
最佳价值函数是指,我们搜索一种策略$\pi$ 让每个状态的价值最大。$V^*$ 就是到达每一个状态,它的值的最大化情况。
|
||||||
在这种最大化情况中,我们得到的策略就是最佳策略,即
|
在这种最大化情况中,我们得到的策略就是最佳策略,即
|
||||||
$$
|
$$
|
||||||
\pi^{*}(s)=\underset{\pi}{\arg \max }~ V_{\pi}(s)
|
\pi^{*}(s)=\underset{\pi}{\arg \max }~ V_{\pi}(s)
|
||||||
$$
|
$$
|
||||||
最佳策略使得每个状态的价值函数都取得最大值。所以如果我们可以得到一个最佳价值函数,就可以认为某个马尔可夫决策过程的环境可解。在这种情况下,最佳价值函数是一致的,环境中可达到的上限的值是一致的,但这里可能有多个最佳策略,多个最佳策略可以取得相同的最佳价值。
|
最佳策略使得每个状态的价值函数都取得最大值。所以如果我们可以得到一个最佳价值函数,就可以认为某个马尔可夫决策过程的环境可解。在这种情况下,最佳价值函数是一致的,环境中可达到的上限的值是一致的,但这里可能有多个最佳策略,多个最佳策略可以取得相同的最佳价值。
|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user