From d94cf36e67e3d40ea33edd1ea326d0614fa33c51 Mon Sep 17 00:00:00 2001 From: David Young <46375780+yyysjz1997@users.noreply.github.com> Date: Tue, 8 Sep 2020 09:11:45 +0800 Subject: [PATCH] Update chapter1_questions&keywords.md --- docs/chapter1/chapter1_questions&keywords.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/docs/chapter1/chapter1_questions&keywords.md b/docs/chapter1/chapter1_questions&keywords.md index e619329..5690c37 100644 --- a/docs/chapter1/chapter1_questions&keywords.md +++ b/docs/chapter1/chapter1_questions&keywords.md @@ -1,6 +1,6 @@ -## Chapter1 强化学习概述 +# Chapter1 强化学习概述 -#### 1 关键词 +## 1 Keywords - **强化学习(Reinforcement Learning)**:Agent可以在与复杂且不确定的Environment进行交互时,尝试使所获得的Reward最大化的计算算法。 - **Action**: Environment接收到的Agent当前状态的输出。 @@ -17,7 +17,7 @@ - **model-based(有模型结构)**:Agent通过学习状态的转移来采取措施。 - **model-free(无模型结构)**:Agent没有去直接估计状态的转移,也没有得到Environment的具体转移变量。它通过学习 value function 和 policy function 进行决策。 -#### 2 思考题 +## 2 Questions - 强化学习的基本结构是什么?