fix ch1 typos
This commit is contained in:
@@ -73,6 +73,7 @@
|
|||||||
在这个 pong 的游戏里面,决策其实就是两个动作:往上或者往下。如果强化学习是通过学习一个 policy network 来分类的话,其实就是输入当前帧的图片,policy network 就会输出所有决策的可能性。
|
在这个 pong 的游戏里面,决策其实就是两个动作:往上或者往下。如果强化学习是通过学习一个 policy network 来分类的话,其实就是输入当前帧的图片,policy network 就会输出所有决策的可能性。
|
||||||
|
|
||||||

|

|
||||||
|
|
||||||
在这种情况下面,对于监督学习的话,我们就可以直接告诉这个 agent 正确的标签是什么。在这种游戏情况下面,我们并不知道它的正确的标签是什么。
|
在这种情况下面,对于监督学习的话,我们就可以直接告诉这个 agent 正确的标签是什么。在这种游戏情况下面,我们并不知道它的正确的标签是什么。
|
||||||
|
|
||||||

|

|
||||||
|
|||||||
Reference in New Issue
Block a user