update ch1
This commit is contained in:
@@ -329,7 +329,7 @@ A: 对于一个状态转移概率已知的马尔可夫决策过程,我们可
|
||||
**免模型(model-free)**强化学习智能体没有去直接估计状态的转移,也没有得到环境的具体转移变量,它通过学习价值函数和策略函数进行决策。免模型强化学习智能体的模型里面没有环境转移的模型。
|
||||
|
||||
我们可以用马尔可夫决策过程来定义强化学习任务,并将其表示为四元组 $<S,A,P,R>$,即状态集合、动作集合、状态转移函数和奖励函数。如果这个四元组中所有元素均已知,且状态集合和动作集合在有限步数内是有限集,则智能体可以对真实环境进行建模,构建一个虚拟世界来模拟真实环境中的状态和交互反应。
|
||||
具体来说,当智能体知道状态转移函数 $P(s_{t+1}|s_t,a_t)$ 和奖励函数 $R(s_t,a_t)$ 后,它就能知道在某一状态下执行某一动作后能带来的奖励和环境的下一状态,这样智能体就不需要在真实环境中采取动作,直接在虚拟世界中学习和规划策略即可。这种学习方法称为**有模型强化学习}。
|
||||
具体来说,当智能体知道状态转移函数 $P(s_{t+1}|s_t,a_t)$ 和奖励函数 $R(s_t,a_t)$ 后,它就能知道在某一状态下执行某一动作后能带来的奖励和环境的下一状态,这样智能体就不需要在真实环境中采取动作,直接在虚拟世界中学习和规划策略即可。这种学习方法称为**有模型强化学习**。
|
||||
有模型强化学习的流程如图 1.19 所示。
|
||||
|
||||
|
||||
@@ -402,7 +402,7 @@ A:针对是否需要对真实环境建模,强化学习可以分为有模型
|
||||
|
||||
想要最大化单步奖励需考虑两个方面:一是需知道每个动作带来的奖励,二是要执行奖励最大的动作。若每个动作对应的奖励是一个确定值,那么尝试遍所有的动作便能找出奖励最大的动作。然而,更一般的情形是,一个动作的奖励值是来自一个概率分布,仅通过一次尝试并不能确切地获得平均奖励值。
|
||||
|
||||
实际上,单步强化学习任务对应于一个理论模型,即** *K*-臂赌博机(*K*-armed bandit)**。*K*-臂赌博机也被称为**多臂赌博机(multi-armed bandit)** 。如图 1.23 所示,*K*-臂赌博机有 *K* 个摇臂,赌徒在投入一个硬币后可选择按下其中一个摇臂,每个摇臂以一定的概率吐出硬币,但这个概率赌徒并不知道。赌徒的目标是通过一定的策略最大化自己的奖励,即获得最多的硬币。
|
||||
实际上,单步强化学习任务对应于一个理论模型,即***K*-臂赌博机(*K*-armed bandit)**。*K*-臂赌博机也被称为**多臂赌博机(multi-armed bandit)** 。如图 1.23 所示,*K*-臂赌博机有 *K* 个摇臂,赌徒在投入一个硬币后可选择按下其中一个摇臂,每个摇臂以一定的概率吐出硬币,但这个概率赌徒并不知道。赌徒的目标是通过一定的策略最大化自己的奖励,即获得最多的硬币。
|
||||
若仅为获知每个摇臂的期望奖励,则可采用**仅探索(exploration-only)法**:将所有的尝试机会平均分配给每个摇臂(即轮流按下每个摇臂),最后以每个摇臂各自的平均吐币概率作为其奖励期望的近似估计。
|
||||
若仅为执行奖励最大的动作,则可采用**仅利用(exploitation-only)法**:按下目前最优的(即到目前为止平均奖励最大的)摇臂,若有多个摇臂同为最优,则从中随机选取一个。
|
||||
|
||||
|
||||
Reference in New Issue
Block a user