fix some typos
This commit is contained in:
@@ -251,8 +251,8 @@ A: 对于一个状态转移概率已知的马尔可夫决策过程,我们可
|
||||

|
||||
**另外,我们是可以通过 agent 到底有没有学习这个环境模型来分类。**
|
||||
|
||||
* 第一种是 `model-based(有模型)` RL agent,它通过学习这个状态的转移来采取措施。
|
||||
* 另外一种是 ` model-free(免模型)` RL agent,它没有去直接估计这个状态的转移,也没有得到环境的具体转移变量。它通过学习 value function 和 policy function 进行决策。这种 model-free 的模型里面没有一个环境转移的一个模型。
|
||||
* 第一种是 `model-based(有模型)` RL agent,它通过学习这个状态的转移来采取动作。
|
||||
* 另外一种是 ` model-free(免模型)` RL agent,它没有去直接估计这个状态的转移,也没有得到环境的具体转移变量。它通过学习 value function 和 policy function 进行决策。这种 model-free 的模型里面没有一个环境转移的模型。
|
||||
|
||||
我们可以用马尔可夫决策过程来定义强化学习任务,并表示为四元组 $<S,A,P,R>$,即状态集合、动作集合、状态转移函数和奖励函数。如果这四元组中所有元素均已知,且状态集合和动作集合在有限步数内是有限集,则机器可以对真实环境进行建模,构建一个虚拟世界来模拟真实环境的状态和交互反应。
|
||||
|
||||
@@ -262,7 +262,7 @@ A: 对于一个状态转移概率已知的马尔可夫决策过程,我们可
|
||||
|
||||
上图是有模型强化学习的流程图。
|
||||
|
||||
然而在实际应用中,智能体并不是那么容易就能知晓 MDP 中的所有元素的。通常情况下,状态转移函数和奖励函数很难估计,甚至连环境中的状态都可能是未知的,这时就需要采用免模型学习。免模型学习没有对真实环境进行建模,智能体只能在真实环境中通过一定的策略来执行动作,等待奖励和状态迁移,然后根据这些反馈信息来更新行为策略,这样反复迭代直到学习到最优策略。
|
||||
然而在实际应用中,智能体并不是那么容易就能知晓 MDP 中的所有元素的。**通常情况下,状态转移函数和奖励函数很难估计,甚至连环境中的状态都可能是未知的,这时就需要采用免模型学习。**免模型学习没有对真实环境进行建模,智能体只能在真实环境中通过一定的策略来执行动作,等待奖励和状态迁移,然后根据这些反馈信息来更新行为策略,这样反复迭代直到学习到最优策略。
|
||||
|
||||
Q: 有模型强化学习和免模型强化学习有什么区别?
|
||||
|
||||
@@ -280,8 +280,7 @@ A: 针对是否需要对真实环境建模,强化学习可以分为有模型
|
||||
|
||||
有模型的强化学习方法可以对环境建模,使得该类方法具有独特魅力,即“想象能力”。在免模型学习中,智能体只能一步一步地采取策略,等待真实环境的反馈;而有模型学习可以在虚拟世界中预测出所有将要发生的事,并采取对自己最有利的策略。
|
||||
|
||||
|
||||
目前,大部分深度强化学习方法都采用了免模型学习,这是因为:
|
||||
**目前,大部分深度强化学习方法都采用了免模型学习**,这是因为:
|
||||
|
||||
* 免模型学习更为简单直观且有丰富的开源资料,像 DQN、AlphaGo 系列等都采用免模型学习;
|
||||
* 在目前的强化学习研究中,大部分情况下环境都是静态的、可描述的,智能体的状态是离散的、可观察的(如 Atari 游戏平台),这种相对简单确定的问题并不需要评估状态转移函数和奖励函数,直接采用免模型学习,使用大量的样本进行训练就能获得较好的效果。
|
||||
|
||||
Reference in New Issue
Block a user