From bc873e8a1154951ad9b8535149ef73e2cf1d431a Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Sun, 7 Feb 2021 22:47:30 +0800 Subject: [PATCH] fix ch4 typos --- docs/chapter4/chapter4.md | 8 ++++---- 1 file changed, 4 insertions(+), 4 deletions(-) diff --git a/docs/chapter4/chapter4.md b/docs/chapter4/chapter4.md index 1387d05..fa50149 100644 --- a/docs/chapter4/chapter4.md +++ b/docs/chapter4/chapter4.md @@ -8,16 +8,16 @@ 让机器玩视频游戏时, * 演员做的事情就是去操控游戏的摇杆, 比如说向左、向右、开火等操作; -* 环境就是游戏的主机, 负责控制游戏的画面负责控制说,怪物要怎么移动, 你现在要看到什么画面等等; +* 环境就是游戏的主机, 负责控制游戏的画面,负责控制怪物要怎么移动, 你现在要看到什么画面等等; * 奖励函数就是当你做什么事情,发生什么状况的时候,你可以得到多少分数, 比如说杀一只怪兽得到 20 分等等。 同样的概念用在围棋上也是一样的, -* 演员就是 alpha Go,它要决定下哪一个位置; +* 演员就是 Alpha Go,它要决定下哪一个位置; * 环境就是对手; -* 奖励函数就是按照围棋的规则, 赢就是得一分,输就是负一分等等。 +* 奖励函数就是按照围棋的规则, 赢就是得一分,输就是负一分。 -在强化学习里面,环境跟奖励函数不是你可以控制的,环境跟奖励函数是在开始学习之前,就已经事先给定的。你唯一能做的事情是调整演员里面的策略(policy),使得 演员可以得到最大的奖励。演员里面会有一个策略, 这个策略决定了演员的行为。策略就是给一个外界的输入,然后它会输出演员现在应该要执行的行为。 +在强化学习里面,环境跟奖励函数不是你可以控制的,环境跟奖励函数是在开始学习之前,就已经事先给定的。你唯一能做的事情是调整演员里面的策略(policy),使得演员可以得到最大的奖励。演员里面会有一个策略, 这个策略决定了演员的行为。策略就是给一个外界的输入,然后它会输出演员现在应该要执行的行为。 ![](img/4.2.png)