diff --git a/docs/.nojekyll b/docs/.nojekyll new file mode 100644 index 0000000..e69de29 diff --git a/docs/README.md b/docs/README.md new file mode 100644 index 0000000..2396556 --- /dev/null +++ b/docs/README.md @@ -0,0 +1 @@ +# LeeRL-notes \ No newline at end of file diff --git a/docs/_sidebar.md b/docs/_sidebar.md new file mode 100755 index 0000000..250d6ef --- /dev/null +++ b/docs/_sidebar.md @@ -0,0 +1,39 @@ +- 目录 + - [P1 机器学习介绍](chapter1/chapter1.md) + - [P2 为什么要学习机器学习](chapter2/chapter2.md) + - [P3 回归](chapter3/chapter3.md) + - [P4 回归-演示](chapter4/chapter4.md) + - [P5 误差从哪来?](chapter5/chapter5.md) + - [P6 梯度下降](chapter6/chapter6.md) + - [P7 梯度下降(用AOE演示)](chapter7/chapter7.md) + - [P8 梯度下降(用Minecraft演示)](chapter8/chapter8.md) + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md index 3a77768..9eac895 100644 --- a/docs/chapter1/chapter1.md +++ b/docs/chapter1/chapter1.md @@ -150,7 +150,7 @@ $$ 第一个 tip 是 add 一个 baseline。add baseline 是什么意思呢?如果 given state s 采取 action a 会给你整场游戏正面的 reward,就要增加它的概率。如果 state s 执行 action a,整场游戏得到负的 reward,就要减少这一项的概率。 -但在很多游戏里面, reward 总是正的,就是说最低都是 0。比如说打乒乓球游戏, 你的分数就是介于 0~21 分之间,所以这个 R 总是正的。假设你直接套用这个式子, 在 training 的时候,告诉 model 说,不管是什么 action 你都应该要把它的概率提升。 在理想上,这么做并不一定会有问题。因为虽然说 R 总是正的,但它正的量总是有大有小,你在玩乒乓球那个游戏里面,得到的 reward 总是正的,但它是介于 0~21分之间,有时候你采取某些 action 可能是得到 0 分,采取某些 action 可能是得到 20 分。 +但在很多游戏里面, reward 总是正的,就是说最低都是 0。比如说打乒乓球游戏, 你的分数就是介于 0 到 21 分之间,所以这个 R 总是正的。假设你直接套用这个式子, 在 training 的时候,告诉 model 说,不管是什么 action 你都应该要把它的概率提升。 在理想上,这么做并不一定会有问题。因为虽然说 R 总是正的,但它正的量总是有大有小,你在玩乒乓球那个游戏里面,得到的 reward 总是正的,但它是介于 0~21分之间,有时候你采取某些 action 可能是得到 0 分,采取某些 action 可能是得到 20 分。  假设你有 3 个 action a/b/c 可以执行,在某一个 state 有 3 个 action a/b/c可以执行。根据这个式子,你要把这 3 项的概率, log probability 都拉高。 但是它们前面 weight 的这个 R 是不一样的。 R 是有大有小的,weight 小的,它上升的就少,weight 多的,它上升的就大一点。 因为这个 log probability,它是一个概率,所以action a、b、c 的和要是 0。 所以上升少的,在做完 normalize 以后, 它其实就是下降的,上升的多的,才会上升。 diff --git a/docs/index.html b/docs/index.html new file mode 100644 index 0000000..dc5fa17 --- /dev/null +++ b/docs/index.html @@ -0,0 +1,22 @@ + + +
+ +