update ch1

This commit is contained in:
qiwang067
2022-06-25 16:03:38 +08:00
parent 998ace0853
commit a2f6842751

View File

@@ -312,7 +312,7 @@ $$
### 1.4.4 强化学习智能体的类型
#### 1.基于价值的智能体与基于策略的智能体
根据智能体学习的事物不同,我们可以把智能体进行归类。**基于价值的智能体value-based agent**显式地学习价值函数,隐式地学习它的策略。策略是其从学到的价值函数里面推算出来的。**基于策略的智能体policy-based agent}直接学习策略,我们给它一个状态,它就会输出对应动作的概率。基于策略的智能体并没有学习价值函数。把基于价值的智能体和基于策略的智能体结合起来就有了**演员-评论员智能体actor-critic agent}。这一类智能体把策略和价值函数都学习了,然后通过两者的交互得到最佳的动作。
根据智能体学习的事物不同,我们可以把智能体进行归类。**基于价值的智能体value-based agent**显式地学习价值函数,隐式地学习它的策略。策略是其从学到的价值函数里面推算出来的。**基于策略的智能体policy-based agent**直接学习策略,我们给它一个状态,它就会输出对应动作的概率。基于策略的智能体并没有学习价值函数。把基于价值的智能体和基于策略的智能体结合起来就有了**演员-评论员智能体actor-critic agent**。这一类智能体把策略和价值函数都学习了,然后通过两者的交互得到最佳的动作。
Q: 基于策略和基于价值的强化学习方法有什么区别?