Merge branch 'master' of github.com:datawhalechina/easy-rl

This commit is contained in:
qiwang
2024-11-04 23:06:08 +08:00
3 changed files with 7 additions and 3 deletions

View File

@@ -18,7 +18,7 @@
<img src="https://raw.githubusercontent.com/datawhalechina/easy-rl/master/docs/res/mogu.png" width="300"> <img src="https://raw.githubusercontent.com/datawhalechina/easy-rl/master/docs/res/mogu.png" width="300">
推荐购买链接:[京东](https://u.jd.com/tG2sxLb) 推荐购买链接:[京东](https://u.jd.com/tG2sxLb) | [当当](http://product.dangdang.com/29374163.html)
<table border="0"> <table border="0">
<tbody> <tbody>
@@ -27,6 +27,10 @@
<img width="120" height="120" src="https://raw.githubusercontent.com/datawhalechina/easy-rl/master/docs/res/qrcode_jingdong.jpg" alt="pic"> <img width="120" height="120" src="https://raw.githubusercontent.com/datawhalechina/easy-rl/master/docs/res/qrcode_jingdong.jpg" alt="pic">
<br> <br>
<p>推荐京东扫码购买</p> <p>推荐京东扫码购买</p>
</td>
<td>
<img width="120" height="120" src="https://raw.githubusercontent.com/datawhalechina/easy-rl/master/docs/res/qrcode_dangdang.png" alt="pic"><br>
<p>当当扫码购买</p>
</td> </td>
</tr> </tr>
</tbody> </tbody>

View File

@@ -103,7 +103,7 @@ $$
### 1.1.3 强化学习的历史 ### 1.1.3 强化学习的历史
强化学习是有一定的历史的早期的强化学习我们称其为标准强化学习。最近业界把强化学习与深度学习结合起来就形成了深度强化学习deep reinforcemet learning因此深度强化学习 = 深度学习 + 强化学习。我们可将标准强化学习和深度强化学习类比于传统的计算机视觉和深度计算机视觉。 强化学习是有一定的历史的早期的强化学习我们称其为标准强化学习。最近业界把强化学习与深度学习结合起来就形成了深度强化学习deep reinforcement learning因此深度强化学习 = 深度学习 + 强化学习。我们可将标准强化学习和深度强化学习类比于传统的计算机视觉和深度计算机视觉。
如图 1.9a 所示,传统的计算机视觉由两个过程组成。 如图 1.9a 所示,传统的计算机视觉由两个过程组成。

View File

@@ -205,7 +205,7 @@ $$
\nabla \bar{R}_{\theta} \approx \frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}} R\left(\tau^{n}\right) \nabla \log p_{\theta}\left(a_{t}^{n} \mid s_{t}^{n}\right) \tag{4.6} \nabla \bar{R}_{\theta} \approx \frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}} R\left(\tau^{n}\right) \nabla \log p_{\theta}\left(a_{t}^{n} \mid s_{t}^{n}\right) \tag{4.6}
$$ $$
这是一个理想的情况但是实际上我们是在做采样本来这边应该是一个期望expectation对所有可能的$s$与$a$的对进行求和。 但我们真正在学习的时候,只是采样了少量的$s$与$a$的对。 因为我们做的是采样,所以有一些动作可能从来都没有被采样到。如图 4.11 所示,在某一个状态,虽然可以执行的动作有 a、b、c但我们可能只采样到动作 b 或者 只采样到动作 c没有采样到动作 a。但现在所有动作的奖励都是正的所以根据式(4.6)在这个状态采取a、b、c的概率都应该要提高。我们会遇到的问题是因为 a 没有被采样到所以其他动作的概率如果都要提高a 的概率就要下降。 所以a不一定是一个不好的动作 它只是没有被采样到。但因为 a 没有被采样到,它的概率就会下降,这显然是有问题的。要怎么解决这个问题呢?我们会希望奖励不总是正的。 这是一个理想的情况,但是实际上,我们是在做采样本来这边应该是一个期望expectation对所有可能的$s$与$a$的对进行求和。 但我们真正在学习的时候,只是采样了少量的$s$与$a$的对。 因为我们做的是采样,所以有一些动作可能从来都没有被采样到。如图 4.11 所示,在某一个状态,虽然可以执行的动作有 a、b、c但我们可能只采样到动作 b 或者 只采样到动作 c没有采样到动作 a。但现在所有动作的奖励都是正的所以根据式(4.6)在这个状态采取a、b、c的概率都应该要提高。我们会遇到的问题是因为 a 没有被采样到所以其他动作的概率如果都要提高a 的概率就要下降。 所以a不一定是一个不好的动作 它只是没有被采样到。但因为 a 没有被采样到,它的概率就会下降,这显然是有问题的。要怎么解决这个问题呢?我们会希望奖励不总是正的。
<div align=center> <div align=center>