fix ch4 typos

This commit is contained in:
qiwang067
2021-02-07 22:47:30 +08:00
parent 6af7c3775e
commit bc873e8a11

View File

@@ -8,16 +8,16 @@
让机器玩视频游戏时,
* 演员做的事情就是去操控游戏的摇杆, 比如说向左、向右、开火等操作;
* 环境就是游戏的主机, 负责控制游戏的画面负责控制说,怪物要怎么移动, 你现在要看到什么画面等等;
* 环境就是游戏的主机, 负责控制游戏的画面负责控制怪物要怎么移动, 你现在要看到什么画面等等;
* 奖励函数就是当你做什么事情,发生什么状况的时候,你可以得到多少分数, 比如说杀一只怪兽得到 20 分等等。
同样的概念用在围棋上也是一样的,
* 演员就是 alpha Go它要决定下哪一个位置
* 演员就是 Alpha Go它要决定下哪一个位置
* 环境就是对手;
* 奖励函数就是按照围棋的规则, 赢就是得一分,输就是负一分等等
* 奖励函数就是按照围棋的规则, 赢就是得一分,输就是负一分。
在强化学习里面,环境跟奖励函数不是你可以控制的,环境跟奖励函数是在开始学习之前,就已经事先给定的。你唯一能做的事情是调整演员里面的策略(policy),使得 演员可以得到最大的奖励。演员里面会有一个策略, 这个策略决定了演员的行为。策略就是给一个外界的输入,然后它会输出演员现在应该要执行的行为。
在强化学习里面,环境跟奖励函数不是你可以控制的,环境跟奖励函数是在开始学习之前,就已经事先给定的。你唯一能做的事情是调整演员里面的策略(policy),使得演员可以得到最大的奖励。演员里面会有一个策略, 这个策略决定了演员的行为。策略就是给一个外界的输入,然后它会输出演员现在应该要执行的行为。
![](img/4.2.png)