From d9ef6fc4823a4268918a94d4e8e7f38dfcb3f585 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Wed, 30 Mar 2022 18:35:07 +0800 Subject: [PATCH] fix ch1 --- easy-rl-master/docs/chapter1/chapter1.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/easy-rl-master/docs/chapter1/chapter1.md b/easy-rl-master/docs/chapter1/chapter1.md index 0fcdff2..0104814 100644 --- a/easy-rl-master/docs/chapter1/chapter1.md +++ b/easy-rl-master/docs/chapter1/chapter1.md @@ -105,7 +105,7 @@ 我们可以把神经网络放到强化学习里面。 * Standard RL:之前的强化学习,比如 TD-Gammon 玩 backgammon 这个游戏,它其实是设计特征,然后通过训练价值函数的一个过程,就是它先设计了很多手工的特征,这个手工特征可以描述现在整个状态。得到这些特征过后,它就可以通过训练一个分类网络或者分别训练一个价值估计函数来做出决策。 -* Deep RL:现在我们有了深度学习,有了神经网络,那么大家也把这个过程改进成一个端到端训练(end-to-end training)的过程。你直接输入这个状态,我们不需要去手工地设计这个特征,就可以让它直接输出动作。那么就可以用一个神经网络来拟合我们这里的价值函数或策略网络,省去了特征工程(feature engineering)的过程。 +* Deep RL:现在我们有了深度学习,有了神经网络,那么大家也把这个过程改进成一个端到端训练(end-to-end training)的过程。我们直接输入这个状态,不需要去手工地设计这个特征,就可以让它直接输出动作。那么就可以用一个神经网络来拟合我们这里的价值函数或策略网络,省去了特征工程(feature engineering)的过程。 为什么强化学习在这几年就用到各种应用中去,比如玩游戏以及机器人的一些应用,并且可以击败人类的最好棋手。