Add reward model

2024-12-09 17:43:53 +08:00
parent c46ca2b583
commit 2edfb76f7a
4 changed files with 89 additions and 0 deletions
--- a/强化学习的目标.md
+++ b/强化学习的目标.md
@@ -15,6 +15,8 @@
 - 价值函数（Value Function） ：这是一种对策略的评估工具，旨在预测从当前状态出发，长期来看能够获得的总奖励。值函数帮助智能体不仅考虑当前步骤的奖励，而且能更好地权衡短期和长期的收益。
 - 模型（Model） ：在有些强化学习系统中，我们会建立一个环境模型，帮助智能体预见其动作的结果。这在很多复杂计算情况下非常有用。

+![Reinforcement Learning](./images/7.1-1.png)
+
 这些元素共同作用，帮助智能体通过不断地在虚拟环境中试错来学习最佳的行动策略。在强化学习中，智能体是学习和决策的主体。它通过以下步骤与环境进行交互：

 1. 观察状态 ：智能体首先观察当前的状态（State）。