fix some typos

This commit is contained in:
qiwang067
2020-10-21 11:06:55 +08:00
parent 1b0043f9f5
commit 344c98165f
3 changed files with 37 additions and 24 deletions

View File

@@ -251,8 +251,8 @@ A: 对于一个状态转移概率已知的马尔可夫决策过程,我们可
![](img/1.34.png)
**另外,我们是可以通过 agent 到底有没有学习这个环境模型来分类。**
* 第一种是 `model-based(有模型)` RL agent它通过学习这个状态的转移来采取措施
* 另外一种是 ` model-free(免模型)` RL agent它没有去直接估计这个状态的转移也没有得到环境的具体转移变量。它通过学习 value function 和 policy function 进行决策。这种 model-free 的模型里面没有一个环境转移的一个模型。
* 第一种是 `model-based(有模型)` RL agent它通过学习这个状态的转移来采取动作
* 另外一种是 ` model-free(免模型)` RL agent它没有去直接估计这个状态的转移也没有得到环境的具体转移变量。它通过学习 value function 和 policy function 进行决策。这种 model-free 的模型里面没有一个环境转移的模型。
我们可以用马尔可夫决策过程来定义强化学习任务,并表示为四元组 $<S,A,P,R>$,即状态集合、动作集合、状态转移函数和奖励函数。如果这四元组中所有元素均已知,且状态集合和动作集合在有限步数内是有限集,则机器可以对真实环境进行建模,构建一个虚拟世界来模拟真实环境的状态和交互反应。
@@ -262,7 +262,7 @@ A: 对于一个状态转移概率已知的马尔可夫决策过程,我们可
上图是有模型强化学习的流程图。
然而在实际应用中,智能体并不是那么容易就能知晓 MDP 中的所有元素的。通常情况下,状态转移函数和奖励函数很难估计,甚至连环境中的状态都可能是未知的,这时就需要采用免模型学习。免模型学习没有对真实环境进行建模,智能体只能在真实环境中通过一定的策略来执行动作,等待奖励和状态迁移,然后根据这些反馈信息来更新行为策略,这样反复迭代直到学习到最优策略。
然而在实际应用中,智能体并不是那么容易就能知晓 MDP 中的所有元素的。**通常情况下,状态转移函数和奖励函数很难估计,甚至连环境中的状态都可能是未知的,这时就需要采用免模型学习。**免模型学习没有对真实环境进行建模,智能体只能在真实环境中通过一定的策略来执行动作,等待奖励和状态迁移,然后根据这些反馈信息来更新行为策略,这样反复迭代直到学习到最优策略。
Q: 有模型强化学习和免模型强化学习有什么区别?
@@ -280,8 +280,7 @@ A: 针对是否需要对真实环境建模,强化学习可以分为有模型
有模型的强化学习方法可以对环境建模,使得该类方法具有独特魅力,即“想象能力”。在免模型学习中,智能体只能一步一步地采取策略,等待真实环境的反馈;而有模型学习可以在虚拟世界中预测出所有将要发生的事,并采取对自己最有利的策略。
目前,大部分深度强化学习方法都采用了免模型学习,这是因为:
**目前,大部分深度强化学习方法都采用了免模型学习**,这是因为:
* 免模型学习更为简单直观且有丰富的开源资料,像 DQN、AlphaGo 系列等都采用免模型学习;
* 在目前的强化学习研究中,大部分情况下环境都是静态的、可描述的,智能体的状态是离散的、可观察的(如 Atari 游戏平台),这种相对简单确定的问题并不需要评估状态转移函数和奖励函数,直接采用免模型学习,使用大量的样本进行训练就能获得较好的效果。