This commit is contained in:
qiwang067
2021-08-04 21:36:11 +08:00
parent 9b3a2e0699
commit eced3f3168

View File

@@ -110,7 +110,7 @@
这有如下几点原因:
* 我们有了更多的计算能力(computation power),有了更多的 GPU可以更快地做更多的试错的尝试。
* 我们有了更多的力(computation power),有了更多的 GPU可以更快地做更多的试错的尝试。
* 通过这种不同尝试使得 agent 在这个环境里面获得很多信息,然后可以在这个环境里面取得很大的奖励。
* 我们有了这个端到端的一个训练,可以把特征提取和价值估计或者决策一块来优化,这样就可以得到了一个更强的决策网络。