fix ch4 typos

2021-02-07 22:47:30 +08:00
parent 6af7c3775e
commit bc873e8a11
1 changed files with 4 additions and 4 deletions
@@ -8,16 +8,16 @@
 让机器玩视频游戏时，
 * 演员做的事情就是去操控游戏的摇杆， 比如说向左、向右、开火等操作；
-* 环境就是游戏的主机， 负责控制游戏的画面负责控制说，怪物要怎么移动， 你现在要看到什么画面等等；
+* 环境就是游戏的主机， 负责控制游戏的画面，负责控制怪物要怎么移动， 你现在要看到什么画面等等；
 * 奖励函数就是当你做什么事情，发生什么状况的时候，你可以得到多少分数， 比如说杀一只怪兽得到 20 分等等。
 同样的概念用在围棋上也是一样的，
-* 演员就是 alpha Go，它要决定下哪一个位置；
+* 演员就是 Alpha Go，它要决定下哪一个位置；
 * 环境就是对手；
-* 奖励函数就是按照围棋的规则， 赢就是得一分，输就是负一分等等。
+* 奖励函数就是按照围棋的规则， 赢就是得一分，输就是负一分。
-在强化学习里面，环境跟奖励函数不是你可以控制的，环境跟奖励函数是在开始学习之前，就已经事先给定的。你唯一能做的事情是调整演员里面的策略(policy)，使得 演员可以得到最大的奖励。演员里面会有一个策略， 这个策略决定了演员的行为。策略就是给一个外界的输入，然后它会输出演员现在应该要执行的行为。
+在强化学习里面，环境跟奖励函数不是你可以控制的，环境跟奖励函数是在开始学习之前，就已经事先给定的。你唯一能做的事情是调整演员里面的策略(policy)，使得演员可以得到最大的奖励。演员里面会有一个策略， 这个策略决定了演员的行为。策略就是给一个外界的输入，然后它会输出演员现在应该要执行的行为。
 ![](img/4.2.png)