make some changes

This commit is contained in:
qiwang067
2020-07-02 22:27:17 +08:00
parent 4574583679
commit 9b25d0a1a1
5 changed files with 63 additions and 1 deletions

0
docs/.nojekyll Normal file
View File

1
docs/README.md Normal file
View File

@@ -0,0 +1 @@
# LeeRL-notes

39
docs/_sidebar.md Executable file
View File

@@ -0,0 +1,39 @@
- 目录
- [P1 机器学习介绍](chapter1/chapter1.md)
- [P2 为什么要学习机器学习](chapter2/chapter2.md)
- [P3 回归](chapter3/chapter3.md)
- [P4 回归-演示](chapter4/chapter4.md)
- [P5 误差从哪来?](chapter5/chapter5.md)
- [P6 梯度下降](chapter6/chapter6.md)
- [P7 梯度下降用AOE演示](chapter7/chapter7.md)
- [P8 梯度下降用Minecraft演示](chapter8/chapter8.md)

View File

@@ -150,7 +150,7 @@ $$
第一个 tip 是 add 一个 baseline。add baseline 是什么意思呢?如果 given state s 采取 action a 会给你整场游戏正面的 reward就要增加它的概率。如果 state s 执行 action a整场游戏得到负的 reward就要减少这一项的概率。
但在很多游戏里面, reward 总是正的,就是说最低都是 0。比如说打乒乓球游戏 你的分数就是介于 0~21 分之间,所以这个 R 总是正的。假设你直接套用这个式子, 在 training 的时候,告诉 model 说,不管是什么 action 你都应该要把它的概率提升。 在理想上,这么做并不一定会有问题。因为虽然说 R 总是正的,但它正的量总是有大有小,你在玩乒乓球那个游戏里面,得到的 reward 总是正的,但它是介于 0~21分之间有时候你采取某些 action 可能是得到 0 分,采取某些 action 可能是得到 20 分。
但在很多游戏里面, reward 总是正的,就是说最低都是 0。比如说打乒乓球游戏 你的分数就是介于 021 分之间,所以这个 R 总是正的。假设你直接套用这个式子, 在 training 的时候,告诉 model 说,不管是什么 action 你都应该要把它的概率提升。 在理想上,这么做并不一定会有问题。因为虽然说 R 总是正的,但它正的量总是有大有小,你在玩乒乓球那个游戏里面,得到的 reward 总是正的,但它是介于 0~21分之间有时候你采取某些 action 可能是得到 0 分,采取某些 action 可能是得到 20 分。
![](img/1.12.png)
假设你有 3 个 action a/b/c 可以执行,在某一个 state 有 3 个 action a/b/c可以执行。根据这个式子你要把这 3 项的概率, log probability 都拉高。 但是它们前面 weight 的这个 R 是不一样的。 R 是有大有小的weight 小的它上升的就少weight 多的,它上升的就大一点。 因为这个 log probability它是一个概率所以action a、b、c 的和要是 0。 所以上升少的,在做完 normalize 以后, 它其实就是下降的,上升的多的,才会上升。

22
docs/index.html Normal file
View File

@@ -0,0 +1,22 @@
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Document</title>
<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" />
<meta name="description" content="Description">
<meta name="viewport" content="width=device-width, user-scalable=no, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0">
<link rel="stylesheet" href="//cdn.jsdelivr.net/npm/docsify/lib/themes/vue.css">
</head>
<body>
<div id="app"></div>
<script>
window.$docsify = {
name: '',
repo: '',
loadSidebar: true
}
</script>
<script src="//cdn.jsdelivr.net/npm/docsify/lib/docsify.min.js"></script>
</body>
</html>