diff --git a/docs/chapter6/chapter6.md b/docs/chapter6/chapter6.md index bf9a6b1..095ca31 100644 --- a/docs/chapter6/chapter6.md +++ b/docs/chapter6/chapter6.md @@ -1,7 +1,7 @@ # DQN 传统的强化学习算法会使用表格的形式存储状态值函数 $V(s)$ 或状态动作值函数 $Q(s,a)$,但是这样的方法存在很大的局限性。例如:现实中的强化学习任务所面临的状态空间往往是连续的,存在无穷多个状态,在这种情况下,就不能再使用表格对值函数进行存储。值函数近似利用函数直接拟合状态值函数或状态动作值函数,减少了对存储空间的要求,有效地解决了这个问题。 -为了在连续的状态和动作空间中计算值函数 $Q^{\pi}(s,a)$,我们可以用一个函数 $Q_{\phi}(\boldsymbol{s},\boldsymbol{a})$ 来表示近似计算,称为`价值函数近似(Value Function Approximation)`。 +为了在连续的状态空间中计算价值函数 $Q^{\pi}(s,a)$,我们可以用一个函数 $Q_{\phi}(\boldsymbol{s},\boldsymbol{a})$ 来表示近似计算,称为`价值函数近似(Value Function Approximation)`。 $$ Q_{\phi}(\boldsymbol{s}, \boldsymbol{a}) \approx Q^{\pi}(s, a) $$ @@ -10,11 +10,21 @@ $$ * $\boldsymbol{s},\boldsymbol{a}$ 分别是状态 $s$ 和动作 $a$ 的向量表示, * 函数 $Q_{\phi}(\boldsymbol{s}, \boldsymbol{a})$ 通常是一个参数为 $\phi$ 的函数,比如`神经网络`,输出为一个实数,称为`Q 网络(Q-network)`。 +深度Q网络(Deep Q-Network,DQN)算法的核心是维护 Q 函数并使用其进行决策。$Q^{\pi}(s,a)$ 为在该策略 $\pi$ 下的动作价值函数,每次到达一个状态 $s_t$ 之后,遍历整个动作空间,使用让 $Q^{\pi}(s,a)$ 最大的动作作为策略: +$$ +a_{t}=\underset{a}{\arg \max } ~Q^{\pi}\left(s_{t}, a\right) +$$ +DQN采用贝尔曼方程来迭代更新 $Q^{\pi}(s,a)$ : +$$ +Q^{\pi}\left(s_{t}, a_{t}\right) \leftarrow Q^{\pi}\left(s_{t}, a_{t}\right)+\alpha\left(r_{t}+\gamma \max _{a} Q^{\pi}\left(s_{t+1}, a\right)-Q^{\pi}\left(s_{t}, a_{t}\right)\right) +$$ +通常在简单任务上,使用全连接神经网络(fully connected neural network)来拟合 $Q^{\pi}$,但是在较为复杂的任务上(如玩雅达利游戏),会使用卷积神经网络来拟合从图像到价值函数的映射。由于DQN的这种表达形式只能处理有限个动作值,因此其通常用于处理离散动作空间的任务。 + ## State Value Function **Q-learning 是 `value-based` 的方法。在 value-based 的方法里面,我们学习的不是策略,我们要学习的是一个 `critic(评论家)`。**评论家要做的事情是评价现在的行为有多好或是有多不好。假设有一个演员(actor) $\pi$ ,评论家就是来评价这个演员的策略 $\pi$ 好还是不好,即 `Policy Evaluation(策略评估)`。 -> 注:「李宏毅深度强化学习」课程提到的 Q-learning,其实是 DQN(Deep Q-network)。 +> 注:「李宏毅深度强化学习」课程提到的 Q-learning,其实是 DQN。 > > DQN 是指基于深度学习的 Q-learning 算法,主要结合了`价值函数近似(Value Function Approximation)`与神经网络技术,并采用了目标网络和经历回放的方法进行网络的训练。 > @@ -379,6 +389,7 @@ A: 整体来说,DQN 与 Q-learning 的目标价值以及价值的更新方式 * [百面深度学习](https://book.douban.com/subject/35043939/) * [机器学习(北理工)](https://www.icourse163.org/course/BIT-1449601164) * 苗光辉. 面向部分可观测环境的值迭代深度网络模型研究[D].北京理工大学,2018. +* [天授文档](https://tianshou.readthedocs.io/zh/latest/index.html)