Update chapter3_questions&keywords.md

This commit is contained in:
David Young
2020-10-22 10:27:28 +08:00
committed by GitHub
parent 6a17fdcb96
commit 8c681fb6a7

View File

@@ -22,7 +22,7 @@
我们现在有环境有agent。每交互一次以后我们的agent会向环境输出action接着环境会反馈给agent当前时刻的state和reward。那么agent此时会实现两个方法
1. 使用已经训练好的Q表格对应环境反馈的state和reward选取对应的action进行输出。
1.使用已经训练好的Q表格对应环境反馈的state和reward选取对应的action进行输出。
2.我们已经拥有了$(S_{t}, A_{t}, R_{t+1}, S_{t+1}, A_{t+1})$ 这几个值,并直接使用 $A_{t+1}$ 去更新我们的Q表格。