fix ch2 typos
This commit is contained in:
@@ -273,9 +273,9 @@ $$
|
||||
|
||||
概率就代表了在所有可能的动作里面怎样采取行动,比如可能有 0.7 的概率往左走,有 0.3 的概率往右走,这是一个概率的表示。
|
||||
|
||||
* 另外这个策略也可能是确定的,它有可能是直接输出一个值,或者就直接告诉你当前应该采取什么样的动作,而不是一个动作的概率。
|
||||
* 另外这个策略也可能是确定的,它有可能是直接输出一个值。或者就直接告诉你当前应该采取什么样的动作,而不是一个动作的概率。
|
||||
|
||||
* 我们假设这个概率函数应该是静态的(stationary),不同时间点,你采取的动作其实都是对这个 policy function 进行采样。
|
||||
* 假设这个概率函数应该是稳定的(stationary),不同时间点,你采取的动作其实都是对这个 policy function 进行采样。
|
||||
|
||||

|
||||
|
||||
|
||||
Reference in New Issue
Block a user