From a538922f8c7001c6e46716558fc9253cf7ef7208 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Wed, 27 Jan 2021 18:19:29 +0800 Subject: [PATCH] fix ch1 typos --- docs/chapter1/chapter1.md | 1 + 1 file changed, 1 insertion(+) diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md index 099f439..2ee2d40 100644 --- a/docs/chapter1/chapter1.md +++ b/docs/chapter1/chapter1.md @@ -73,6 +73,7 @@ 在这个 pong 的游戏里面,决策其实就是两个动作:往上或者往下。如果强化学习是通过学习一个 policy network 来分类的话,其实就是输入当前帧的图片,policy network 就会输出所有决策的可能性。 ![](img/1.11.png) + 在这种情况下面,对于监督学习的话,我们就可以直接告诉这个 agent 正确的标签是什么。在这种游戏情况下面,我们并不知道它的正确的标签是什么。 ![](img/1.12.png)