update ch1

2022-06-25 16:03:38 +08:00
parent 998ace0853
commit a2f6842751
1 changed files with 6 additions and 6 deletions
@@ -312,7 +312,7 @@ $$
 ###   1.4.4 强化学习智能体的类型
 #### 1.基于价值的智能体与基于策略的智能体

-根据智能体学习的事物不同，我们可以把智能体进行归类。**基于价值的智能体（value-based agent）**显式地学习价值函数，隐式地学习它的策略。策略是其从学到的价值函数里面推算出来的。**基于策略的智能体（policy-based agent）}直接学习策略，我们给它一个状态，它就会输出对应动作的概率。基于策略的智能体并没有学习价值函数。把基于价值的智能体和基于策略的智能体结合起来就有了**演员-评论员智能体（actor-critic agent）}。这一类智能体把策略和价值函数都学习了，然后通过两者的交互得到最佳的动作。
+根据智能体学习的事物不同，我们可以把智能体进行归类。**基于价值的智能体（value-based agent）**显式地学习价值函数，隐式地学习它的策略。策略是其从学到的价值函数里面推算出来的。**基于策略的智能体（policy-based agent）**直接学习策略，我们给它一个状态，它就会输出对应动作的概率。基于策略的智能体并没有学习价值函数。把基于价值的智能体和基于策略的智能体结合起来就有了**演员-评论员智能体（actor-critic agent）**。这一类智能体把策略和价值函数都学习了，然后通过两者的交互得到最佳的动作。

 Q: 基于策略和基于价值的强化学习方法有什么区别?