This commit is contained in:
qiwang067
2022-06-23 22:19:14 +08:00
parent 75fd6e543c
commit 448b1ad4cf

View File

@@ -76,7 +76,7 @@
</div>
<div align=center>图 1.5 Pong游戏</div>
在 Pong 游戏里面,其实只有两个动作:往上或者往下。如图 1.6 所示,如果强化学习通过学习一个 策略网络来进行分类,那么策略网络会输入当前帧的图片,输出所有决策的可能性,比如往上移动的概率。
在 Pong 游戏里面,其实只有两个动作:往上或者往下。如图 1.6 所示,如果强化学习通过学习一个策略网络来进行分类,那么策略网络会输入当前帧的图片,输出所有决策的可能性,比如往上移动的概率。
<div align=center>
<img width="450" src="../img/ch1/1.10.png"/>
@@ -218,7 +218,7 @@ A**状态**是对世界的完整描述,不会隐藏世界的信息。**观
### 1.4 强化学习智能体的组成成分和类型
**部分可观测马尔可夫决策过程(Partially Observable Markov Decision Processes, POMDP)**是一个马尔可夫决策过程的泛化。POMDP 依然具对于一个强化学习 agent它可能有一个或多个如下的组成成分
**部分可观测马尔可夫决策过程(Partially Observable Markov Decision Processes, POMDP)** 是一个马尔可夫决策过程的泛化。POMDP 依然具对于一个强化学习 agent它可能有一个或多个如下的组成成分
对于一个强化学习智能体,它可能有一个或多个如下的组成成分。
@@ -259,7 +259,7 @@ $$
我们还有一种价值函数Q 函数。Q 函数里面包含两个变量:状态和动作。其定义为
$$
Q_{\pi}(s, a) \doteq \mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, a_{t}=a\right]=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} r_{t+k+1} \mid s_{t}=s, a_{t}=a\right]
Q_{\pi}(s, a) \doteq \mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, a_{t}=a\right]=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} r_{t+k+1} \mid s_{t}=s, a_{t}=a\right]
$$
所以我们未来可以获得奖励的期望取决于当前的状态和当前的动作。Q 函数是强化学习算法里面要学习的一个函数。因为当我们得到 Q 函数后,进入某个状态要采取的最优动作可以通过 Q 函数得到。
@@ -401,7 +401,7 @@ A针对是否需要对真实环境建模强化学习可以分为有模型
想要最大化单步奖励需考虑两个方面:一是需知道每个动作带来的奖励,二是要执行奖励最大的动作。若每个动作对应的奖励是一个确定值,那么尝试遍所有的动作便能找出奖励最大的动作。然而,更一般的情形是,一个动作的奖励值是来自一个概率分布,仅通过一次尝试并不能确切地获得平均奖励值。
实际上,单步强化学习任务对应于一个理论模型,即** *K*-臂赌博机(*K*-armed bandit}。*K*-臂赌博机也被称为**多臂赌博机multi-armed bandit** 。如图 1.23 所示,*K*-臂赌博机有 *K* 个摇臂,赌徒在投入一个硬币后可选择按下其中一个摇臂,每个摇臂以一定的概率吐出硬币,但这个概率赌徒并不知道。赌徒的目标是通过一定的策略最大化自己的奖励,即获得最多的硬币。
实际上,单步强化学习任务对应于一个理论模型,即** *K*-臂赌博机(*K*-armed bandit**。*K*-臂赌博机也被称为**多臂赌博机multi-armed bandit** 。如图 1.23 所示,*K*-臂赌博机有 *K* 个摇臂,赌徒在投入一个硬币后可选择按下其中一个摇臂,每个摇臂以一定的概率吐出硬币,但这个概率赌徒并不知道。赌徒的目标是通过一定的策略最大化自己的奖励,即获得最多的硬币。
若仅为获知每个摇臂的期望奖励,则可采用**仅探索exploration-only法**:将所有的尝试机会平均分配给每个摇臂(即轮流按下每个摇臂),最后以每个摇臂各自的平均吐币概率作为其奖励期望的近似估计。
若仅为执行奖励最大的动作,则可采用**仅利用exploitation-only法**:按下目前最优的(即到目前为止平均奖励最大的)摇臂,若有多个摇臂同为最优,则从中随机选取一个。