update ch1.md
This commit is contained in:
@@ -215,7 +215,7 @@ A:**状态**是对世界的完整描述,不会隐藏世界的信息。**观
|
|||||||
|
|
||||||
不同的环境允许不同种类的动作。在给定的环境中,有效动作的集合经常被称为动作空间(action space)。像雅达利游戏和围棋(Go)这样的环境有离散动作空间(discrete action space),在这个动作 空间里,智能体的动作数量是有限的。在其他环境,比如在物理世界中控制一个智能体,在这个环境中就 有连续动作空间(continuous action space)。在连续动作空间中,动作是实值的向量。
|
不同的环境允许不同种类的动作。在给定的环境中,有效动作的集合经常被称为动作空间(action space)。像雅达利游戏和围棋(Go)这样的环境有离散动作空间(discrete action space),在这个动作 空间里,智能体的动作数量是有限的。在其他环境,比如在物理世界中控制一个智能体,在这个环境中就 有连续动作空间(continuous action space)。在连续动作空间中,动作是实值的向量。
|
||||||
|
|
||||||
例如,走迷宫机器人如果只有往东、往南、往西、往北这 4 种移动方式,则其动作空间为离散动作空 间;如果机器人可以向 360 ◦ 中的任意角度进行移动,则其动作空间为连续动作空间。
|
例如,走迷宫机器人如果只有往东、往南、往西、往北这 4 种移动方式,则其动作空间为离散动作空 间;如果机器人可以向 360 度中的任意角度进行移动,则其动作空间为连续动作空间。
|
||||||
|
|
||||||
### 1.4 强化学习智能体的组成成分和类型
|
### 1.4 强化学习智能体的组成成分和类型
|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user