fix ch1
This commit is contained in:
@@ -246,11 +246,11 @@ $$
|
||||
$$
|
||||
|
||||
|
||||

|
||||

|
||||
|
||||
当我们有了这三个组成部分过后,就形成了一个 `马尔可夫决策过程(Markov Decision Process)`。这个决策过程可视化了状态之间的转移以及采取的行为。
|
||||
|
||||

|
||||

|
||||
|
||||
我们来看一个走迷宫的例子。
|
||||
|
||||
@@ -259,14 +259,14 @@ $$
|
||||
* 可以采取的动作是往上下左右走。
|
||||
* 当前状态用现在 agent 所在的位置来描述。
|
||||
|
||||

|
||||

|
||||
|
||||
* 我们可以用不同的强化学习算法来解这个环境。
|
||||
* 如果采取的是 `基于策略的(policy-based)RL`,当学习好了这个环境过后,在每一个状态,我们就会得到一个最佳的行为。
|
||||
|
||||
* 比如说现在在第一格开始的时候,我们知道它最佳行为是往右走,然后第二格的时候,得到的最佳策略是往上走,第三格是往右走。通过这个最佳的策略,我们就可以最快地到达终点。
|
||||
|
||||

|
||||

|
||||
|
||||
* 如果换成 `基于价值的(value-based)RL` 这个算法,利用价值函数来作为导向,我们就会得到另外一种表征,这里就表征了你每一个状态会返回一个价值。
|
||||
|
||||
|
||||
Binary file not shown.
|
Before Width: | Height: | Size: 199 KiB After Width: | Height: | Size: 87 KiB |
Binary file not shown.
|
Before Width: | Height: | Size: 240 KiB After Width: | Height: | Size: 142 KiB |
Binary file not shown.
|
Before Width: | Height: | Size: 191 KiB After Width: | Height: | Size: 99 KiB |
Reference in New Issue
Block a user