Add reward model
This commit is contained in:
@@ -15,6 +15,8 @@
|
||||
- 价值函数(Value Function) :这是一种对策略的评估工具,旨在预测从当前状态出发,长期来看能够获得的总奖励。值函数帮助智能体不仅考虑当前步骤的奖励,而且能更好地权衡短期和长期的收益。
|
||||
- 模型(Model) :在有些强化学习系统中,我们会建立一个环境模型,帮助智能体预见其动作的结果。这在很多复杂计算情况下非常有用。
|
||||
|
||||

|
||||
|
||||
这些元素共同作用,帮助智能体通过不断地在虚拟环境中试错来学习最佳的行动策略。在强化学习中,智能体是学习和决策的主体。它通过以下步骤与环境进行交互:
|
||||
|
||||
1. 观察状态 :智能体首先观察当前的状态(State)。
|
||||
|
||||
Reference in New Issue
Block a user