update ch1
This commit is contained in:
@@ -312,7 +312,7 @@ $$
|
||||
### 1.4.4 强化学习智能体的类型
|
||||
#### 1.基于价值的智能体与基于策略的智能体
|
||||
|
||||
根据智能体学习的事物不同,我们可以把智能体进行归类。**基于价值的智能体(value-based agent)**显式地学习价值函数,隐式地学习它的策略。策略是其从学到的价值函数里面推算出来的。**基于策略的智能体(policy-based agent)}直接学习策略,我们给它一个状态,它就会输出对应动作的概率。基于策略的智能体并没有学习价值函数。把基于价值的智能体和基于策略的智能体结合起来就有了**演员-评论员智能体(actor-critic agent)}。这一类智能体把策略和价值函数都学习了,然后通过两者的交互得到最佳的动作。
|
||||
根据智能体学习的事物不同,我们可以把智能体进行归类。**基于价值的智能体(value-based agent)**显式地学习价值函数,隐式地学习它的策略。策略是其从学到的价值函数里面推算出来的。**基于策略的智能体(policy-based agent)**直接学习策略,我们给它一个状态,它就会输出对应动作的概率。基于策略的智能体并没有学习价值函数。把基于价值的智能体和基于策略的智能体结合起来就有了**演员-评论员智能体(actor-critic agent)**。这一类智能体把策略和价值函数都学习了,然后通过两者的交互得到最佳的动作。
|
||||
|
||||
Q: 基于策略和基于价值的强化学习方法有什么区别?
|
||||
|
||||
|
||||
Reference in New Issue
Block a user