This commit is contained in:
qiwang067
2022-03-30 18:35:07 +08:00
parent 809901894e
commit d9ef6fc482

View File

@@ -105,7 +105,7 @@
我们可以把神经网络放到强化学习里面。
* Standard RL之前的强化学习比如 TD-Gammon 玩 backgammon 这个游戏,它其实是设计特征,然后通过训练价值函数的一个过程,就是它先设计了很多手工的特征,这个手工特征可以描述现在整个状态。得到这些特征过后,它就可以通过训练一个分类网络或者分别训练一个价值估计函数来做出决策。
* Deep RL现在我们有了深度学习有了神经网络那么大家也把这个过程改进成一个端到端训练(end-to-end training)的过程。直接输入这个状态,我们不需要去手工地设计这个特征,就可以让它直接输出动作。那么就可以用一个神经网络来拟合我们这里的价值函数或策略网络,省去了特征工程(feature engineering)的过程。
* Deep RL现在我们有了深度学习有了神经网络那么大家也把这个过程改进成一个端到端训练(end-to-end training)的过程。我们直接输入这个状态,不需要去手工地设计这个特征,就可以让它直接输出动作。那么就可以用一个神经网络来拟合我们这里的价值函数或策略网络,省去了特征工程(feature engineering)的过程。
为什么强化学习在这几年就用到各种应用中去,比如玩游戏以及机器人的一些应用,并且可以击败人类的最好棋手。