Add reward model

This commit is contained in:
KMnO4-zx
2024-12-09 17:43:53 +08:00
parent c46ca2b583
commit 2edfb76f7a
4 changed files with 89 additions and 0 deletions

View File

@@ -15,6 +15,8 @@
- 价值函数Value Function :这是一种对策略的评估工具,旨在预测从当前状态出发,长期来看能够获得的总奖励。值函数帮助智能体不仅考虑当前步骤的奖励,而且能更好地权衡短期和长期的收益。
- 模型Model :在有些强化学习系统中,我们会建立一个环境模型,帮助智能体预见其动作的结果。这在很多复杂计算情况下非常有用。
![Reinforcement Learning](./images/7.1-1.png)
这些元素共同作用,帮助智能体通过不断地在虚拟环境中试错来学习最佳的行动策略。在强化学习中,智能体是学习和决策的主体。它通过以下步骤与环境进行交互:
1. 观察状态 智能体首先观察当前的状态State