Update chapter1_questions&keywords.md

This commit is contained in:
Yiyuan Yang
2023-01-31 02:25:48 +00:00
committed by GitHub
parent 7bab0eb596
commit 93e0f51cad

View File

@@ -12,7 +12,7 @@
- **探索exploration**:在当前的情况下,继续尝试新的动作。其有可能得到更高的奖励,也有可能一无所有。
- **开发exploitation**:在当前的情况下,继续尝试已知的可以获得最大奖励的过程,即选择重复执行当前动作。
- **利用exploitation**:在当前的情况下,继续尝试已知的可以获得最大奖励的过程,即选择重复执行当前动作。
- **深度强化学习deep reinforcement learning**不需要手动设计特征仅需要输入状态就可以让系统直接输出动作的一个端到端end-to-end的强化学习方法。通常使用神经网络来拟合价值函数value function或者策略网络policy network