fix ch1 typos

This commit is contained in:
qiwang067
2021-01-27 18:41:53 +08:00
parent 4d83bb6f1d
commit 4a3f882555
3 changed files with 1 additions and 3 deletions

View File

@@ -138,9 +138,7 @@
### Reward ### Reward
**奖励是由环境给的一个标量的反馈信号(scalar feedback signal)** 奖励是由环境给的一个标量的反馈信号(scalar feedback signal),这个信号显示了 agent 在某一步采取了某个策略的表现如何
这个信号显示了 agent 在某一步采取了某个策略的表现如何。
强化学习的目的就是为了最大化 agent 可以获得的奖励agent 在这个环境里面存在的目的就是为了极大化它的期望的累积奖励(expected cumulative reward)。 强化学习的目的就是为了最大化 agent 可以获得的奖励agent 在这个环境里面存在的目的就是为了极大化它的期望的累积奖励(expected cumulative reward)。

Binary file not shown.

Before

Width:  |  Height:  |  Size: 859 KiB

After

Width:  |  Height:  |  Size: 767 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 406 KiB

After

Width:  |  Height:  |  Size: 366 KiB