fix ch1 typos
This commit is contained in:
@@ -137,12 +137,13 @@
|
||||
在跟环境的交互过程中,agent 会获得很多观测。在每一个观测会采取一个动作,它也会得到一个奖励。Agent 在采取当前动作的时候会依赖于它之前得到的这个历史,所以你可以把整个游戏的状态看成关于这个历史的函数。
|
||||
|
||||
Q: 状态和观测有什么关系?
|
||||
|
||||
A: `状态(state)` $s$ 是对世界的完整描述,不会隐藏世界的信息。`观测(observation)` $o$ 是对状态的部分描述,可能会遗漏一些信息。
|
||||
|
||||
在 deep RL 中,我们几乎总是用一个实值的向量、矩阵或者更高阶的张量来表示状态和观测。举个例子,我们可以用 RGB 像素值的矩阵来表示一个视觉的观测,我们可以用机器人关节的角度和速度来表示一个机器人的状态。
|
||||
|
||||

|
||||
在 Agent 的内部也有一个函数来更新这个状态。当 agent 的状态跟环境的状态等价的时候,我们就说这个环境是 full observability,就是全部可以观测。换句话说,当 agent 能够观察到环境的所有状态时,我们称这个环境是`完全可观测的(fully observed)`。
|
||||
在 agent 的内部也有一个函数来更新这个状态。当 agent 的状态跟环境的状态等价的时候,我们就说这个环境是 `full observability`,就是全部可以观测。换句话说,当 agent 能够观察到环境的所有状态时,我们称这个环境是`完全可观测的(fully observed)`。
|
||||
|
||||

|
||||
但是有一种情况是 agent 得到的观测并不能包含所有环境运作的状态,因为在这个强化学习的设定里面,环境的状态才是真正的所有状态。比如 agent 在玩这个 black jack 这个游戏,它能看到的其实是牌面上的牌。或者在玩雅达利游戏的时候,观测到的只是当前电视上面这一帧的信息,你并没有得到游戏内部里面所有的运作状态。也就是说当 agent 只能看到部分的观测,我们就称这个环境是`部分可观测的(partially observed)`。在这种情况下面,强化学习通常被建模成一个 POMDP 的问题。
|
||||
@@ -282,7 +283,7 @@ A: 针对是否需要对真实环境建模,强化学习可以分为有模型
|
||||
## Exploration and Exploitation
|
||||
|
||||

|
||||
在强化学习里面,Exploration 和 Exploitation 是两个很核心的问题。
|
||||
在强化学习里面,`Exploration` 和` Exploitation` 是两个很核心的问题。
|
||||
|
||||
* Exploration 是说我们怎么去探索这个环境,通过尝试不同的行为来得到一个最佳的策略,得到最大奖励的策略。
|
||||
|
||||
|
||||
Reference in New Issue
Block a user