fix ch4 typos
This commit is contained in:
@@ -8,16 +8,16 @@
|
|||||||
让机器玩视频游戏时,
|
让机器玩视频游戏时,
|
||||||
|
|
||||||
* 演员做的事情就是去操控游戏的摇杆, 比如说向左、向右、开火等操作;
|
* 演员做的事情就是去操控游戏的摇杆, 比如说向左、向右、开火等操作;
|
||||||
* 环境就是游戏的主机, 负责控制游戏的画面负责控制说,怪物要怎么移动, 你现在要看到什么画面等等;
|
* 环境就是游戏的主机, 负责控制游戏的画面,负责控制怪物要怎么移动, 你现在要看到什么画面等等;
|
||||||
* 奖励函数就是当你做什么事情,发生什么状况的时候,你可以得到多少分数, 比如说杀一只怪兽得到 20 分等等。
|
* 奖励函数就是当你做什么事情,发生什么状况的时候,你可以得到多少分数, 比如说杀一只怪兽得到 20 分等等。
|
||||||
|
|
||||||
同样的概念用在围棋上也是一样的,
|
同样的概念用在围棋上也是一样的,
|
||||||
|
|
||||||
* 演员就是 alpha Go,它要决定下哪一个位置;
|
* 演员就是 Alpha Go,它要决定下哪一个位置;
|
||||||
* 环境就是对手;
|
* 环境就是对手;
|
||||||
* 奖励函数就是按照围棋的规则, 赢就是得一分,输就是负一分等等。
|
* 奖励函数就是按照围棋的规则, 赢就是得一分,输就是负一分。
|
||||||
|
|
||||||
在强化学习里面,环境跟奖励函数不是你可以控制的,环境跟奖励函数是在开始学习之前,就已经事先给定的。你唯一能做的事情是调整演员里面的策略(policy),使得 演员可以得到最大的奖励。演员里面会有一个策略, 这个策略决定了演员的行为。策略就是给一个外界的输入,然后它会输出演员现在应该要执行的行为。
|
在强化学习里面,环境跟奖励函数不是你可以控制的,环境跟奖励函数是在开始学习之前,就已经事先给定的。你唯一能做的事情是调整演员里面的策略(policy),使得演员可以得到最大的奖励。演员里面会有一个策略, 这个策略决定了演员的行为。策略就是给一个外界的输入,然后它会输出演员现在应该要执行的行为。
|
||||||
|
|
||||||

|

|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user