update ch1.md

This commit is contained in:
qiwang067
2023-10-08 12:50:28 +08:00
parent 8a67022041
commit 293526d5b1

View File

@@ -215,7 +215,7 @@ A**状态**是对世界的完整描述,不会隐藏世界的信息。**观
不同的环境允许不同种类的动作。在给定的环境中有效动作的集合经常被称为动作空间action space。像雅达利游戏和围棋Go这样的环境有离散动作空间discrete action space在这个动作 空间里,智能体的动作数量是有限的。在其他环境,比如在物理世界中控制一个智能体,在这个环境中就 有连续动作空间continuous action space。在连续动作空间中动作是实值的向量。
例如,走迷宫机器人如果只有往东、往南、往西、往北这 4 种移动方式,则其动作空间为离散动作空 间;如果机器人可以向 360 中的任意角度进行移动,则其动作空间为连续动作空间。
例如,走迷宫机器人如果只有往东、往南、往西、往北这 4 种移动方式,则其动作空间为离散动作空 间;如果机器人可以向 360 中的任意角度进行移动,则其动作空间为连续动作空间。
### 1.4 强化学习智能体的组成成分和类型