fix some typos
This commit is contained in:
@@ -297,7 +297,7 @@ A: 对于一个状态转移概率已知的马尔可夫决策过程,我们可
|
||||
|
||||
具体来说,当智能体知道状态转移函数 $P(s_{t+1}|s_t,a_t)$ 和奖励函数 $R(s_t,a_t)$ 后,它就能知道在某一状态下执行某一动作后能带来的奖励和环境的下一状态,这样智能体就不需要在真实环境中采取动作,直接在虚拟世界中学习和规划策略即可。这种学习方法称为`有模型学习`。
|
||||
|
||||

|
||||

|
||||
|
||||
上图是有模型强化学习的流程图。
|
||||
|
||||
@@ -378,7 +378,7 @@ Learning 和 Planning 是序列决策的两个基本问题。
|
||||
* Exploration 就是说你可能尝试一些新的招式,有可能你会发出大招来,这样就可能一招毙命。
|
||||
|
||||
### K-armed Bandit
|
||||

|
||||

|
||||
|
||||
与监督学习不同,强化学习任务的最终奖赏是在多步动作之后才能观察到,这里我们不妨先考虑比较简单的情形:最大化单步奖赏,即仅考虑一步操作。需注意的是,即便在这样的简化情形下,强化学习仍与监督学习有显著不同,因为机器需通过尝试来发现各个动作产生的结果,而没有训练数据告诉机器应当做哪个动作。
|
||||
|
||||
|
||||
@@ -76,7 +76,7 @@ Var 是指 variance。
|
||||
|
||||
如果用 TD 的话,你是要去最小化这样的一个式子:
|
||||
|
||||

|
||||

|
||||
|
||||
在这中间会有随机性的是 r。因为计算你在 $s_t$ 采取同一个动作,你得到的奖励也不一定是一样的,所以 r 是一个随机变量。但这个随机变量的方差会比 $G_a$ 还要小,因为 $G_a$ 是很多 r 合起来,这边只是某一个 r 而已。$G_a$ 的方差会比较大,r 的方差会比较小。但是这边你会遇到的**一个问题是你这个 V 不一定估得准**。假设你的这个 V 估得是不准的,那你使用这个式子学习出来的结果,其实也会是不准的。所以 MC 跟 TD 各有优劣。**今天其实 TD 的方法是比较常见的,MC 的方法其实是比较少用的。**
|
||||
|
||||
|
||||
Reference in New Issue
Block a user