fix some typos
This commit is contained in:
@@ -134,8 +134,14 @@
|
||||
在一个强化学习环境里面,agent 的目的就是为了选取一系列的动作来极大化它的奖励,所以这些采取的措施必须有长期的影响。但在这个过程里面,它的奖励其实是被延迟了,就是说你现在采取的某一步决策可能要等到时间很久过后才知道这一步到底产生了什么样的影响。这里一个示意图就是我们玩这个 Atari 的 Pong 这个游戏,你可能只有到最后游戏结束过后,才知道这个球到底有没有击打过去。中间你采取的 up 或 down 行为,并不会直接产生奖励。强化学习里面一个重要的课题就是近期奖励和远期奖励的一个 trade-off。怎么让 agent 取得更多的长期奖励是强化学习的问题。
|
||||
|
||||

|
||||
在跟环境的交互过程中,agent 会获得很多观测。在每一个观测会采取一个动作,它也会得到一个奖励。Agent 在采取当前动作的时候会依赖于它之前得到的这个历史,所以你可以把整个游戏的状态看成关于这个历史的函数。
|
||||
|
||||
在跟环境的交互过程中,agent 会获得很多观测。在每一个观测会采取一个动作,它也会得到一个奖励。**所以历史是观测、行为、奖励的序列:**
|
||||
$$
|
||||
H_{t}=O_{1}, R_{1}, A_{1}, \ldots, A_{t-1}, O_{t}, R_{t}
|
||||
$$
|
||||
Agent 在采取当前动作的时候会依赖于它之前得到的这个历史,**所以你可以把整个游戏的状态看成关于这个历史的函数:**
|
||||
$$
|
||||
S_{t}=f\left(H_{t}\right)
|
||||
$$
|
||||
Q: 状态和观测有什么关系?
|
||||
|
||||
A: `状态(state)` $s$ 是对世界的完整描述,不会隐藏世界的信息。`观测(observation)` $o$ 是对状态的部分描述,可能会遗漏一些信息。
|
||||
|
||||
Reference in New Issue
Block a user