diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md index 7ea2794..57b0c10 100644 --- a/docs/chapter2/chapter2.md +++ b/docs/chapter2/chapter2.md @@ -273,9 +273,9 @@ $$ 概率就代表了在所有可能的动作里面怎样采取行动,比如可能有 0.7 的概率往左走,有 0.3 的概率往右走,这是一个概率的表示。 -* 另外这个策略也可能是确定的,它有可能是直接输出一个值,或者就直接告诉你当前应该采取什么样的动作,而不是一个动作的概率。 +* 另外这个策略也可能是确定的,它有可能是直接输出一个值。或者就直接告诉你当前应该采取什么样的动作,而不是一个动作的概率。 -* 我们假设这个概率函数应该是静态的(stationary),不同时间点,你采取的动作其实都是对这个 policy function 进行采样。 +* 假设这个概率函数应该是稳定的(stationary),不同时间点,你采取的动作其实都是对这个 policy function 进行采样。 ![](img/2.20.png)