This commit is contained in:
qiwang067
2021-09-23 21:37:23 +08:00
parent 4b984299d5
commit dc86837ebb
17 changed files with 8 additions and 8 deletions

View File

@@ -16,7 +16,7 @@ AlphaStar是DeepMind公司与暴雪使用深度强化学习技术进行PC与星
AlphaStar将星际争霸2的环境状态分为四部分分别为实体信息Entities、地图信息Map、玩家数据信息Player data、游戏统计信息Game statistics AlphaStar将星际争霸2的环境状态分为四部分分别为实体信息Entities、地图信息Map、玩家数据信息Player data、游戏统计信息Game statistics
![img1](img\img1.png) ![img1](img\13.1.png)
- 第一部分:实体信息,例如当前时刻环境中有什么建筑、兵种等等,并且我们将每一个实体的属性信息以向量的形式表示,例如对于一个建筑,其当前时刻的向量中包含此建筑的血量、等级、位置以及冷却时间等等信息。所以对于当前帧的全部实体信息,环境会给神经网络 $N$ 个长度为 $K$ 的向量,各表示此刻智能体能够看见的 $N$ 个实体的具体信息。(向量信息) - 第一部分:实体信息,例如当前时刻环境中有什么建筑、兵种等等,并且我们将每一个实体的属性信息以向量的形式表示,例如对于一个建筑,其当前时刻的向量中包含此建筑的血量、等级、位置以及冷却时间等等信息。所以对于当前帧的全部实体信息,环境会给神经网络 $N$ 个长度为 $K$ 的向量,各表示此刻智能体能够看见的 $N$ 个实体的具体信息。(向量信息)
- 第二部分:地图信息,这个比较好理解,也就是将地图中的信息以矩阵的形式送入神经网络中,来表示当前状态全局地图的信息。(向量信息或者说是图像信息) - 第二部分:地图信息,这个比较好理解,也就是将地图中的信息以矩阵的形式送入神经网络中,来表示当前状态全局地图的信息。(向量信息或者说是图像信息)
@@ -27,7 +27,7 @@ AlphaStar将星际争霸2的环境状态分为四部分分别为实体信息
AlphaStar的动作信息主要分为六个部分分别为动作类型Action type、选中的单元Selected units、目标Target、执行动作的队列Queued、是否重复Repeat、延时Delay每一个部分间是有关联的。 AlphaStar的动作信息主要分为六个部分分别为动作类型Action type、选中的单元Selected units、目标Target、执行动作的队列Queued、是否重复Repeat、延时Delay每一个部分间是有关联的。
![img2](img\img2.png) ![img2](img\13.2.png)
- 第一部分:动作类型,即下一次要进行的动作的类型是移动小兵、升级建筑还是移动小窗口的位置等等 - 第一部分:动作类型,即下一次要进行的动作的类型是移动小兵、升级建筑还是移动小窗口的位置等等
- 第二部分:选中的单元,即承接第一部分,例如我们要进行的动作类型是移动小兵,那么我们就应该选择具体“操作”哪一个小兵 - 第二部分:选中的单元,即承接第一部分,例如我们要进行的动作类型是移动小兵,那么我们就应该选择具体“操作”哪一个小兵
@@ -40,11 +40,11 @@ AlphaStar的动作信息主要分为六个部分分别为动作类型Actio
上面我们说明了AlphaStar网络的输入和输出即状态和动作那么从状态怎么得到动作呢其网络结构是怎么样的呢 上面我们说明了AlphaStar网络的输入和输出即状态和动作那么从状态怎么得到动作呢其网络结构是怎么样的呢
![img3](img\img3.png) ![img3](img\13.3.png)
### 输入部分 ### 输入部分
![img4](img\img4.png) ![img4](img\13.4.png)
从上图的红框可以看出模型的输入框架中主要有三个部分即Scalar features标量特征例如前面叙述的玩家的等级、小窗口的位置等等信息、Entities实体是向量即前面所叙述的一个建筑一个兵的当前的所有属性信息、Minimap地图即上面说的图像的数据。 从上图的红框可以看出模型的输入框架中主要有三个部分即Scalar features标量特征例如前面叙述的玩家的等级、小窗口的位置等等信息、Entities实体是向量即前面所叙述的一个建筑一个兵的当前的所有属性信息、Minimap地图即上面说的图像的数据。
@@ -56,13 +56,13 @@ AlphaStar的动作信息主要分为六个部分分别为动作类型Actio
中间过程比较简单即通过一个deep LSTM进行融合三种当前状态下的embedding进行下一时刻的embedding输出并且将该结果分别送入ValueNetwork、Residual MLP以及Actoin type的后续的MLP中。 中间过程比较简单即通过一个deep LSTM进行融合三种当前状态下的embedding进行下一时刻的embedding输出并且将该结果分别送入ValueNetwork、Residual MLP以及Actoin type的后续的MLP中。
![img5](img\img5.png) ![img5](img\13.5.png)
### 输出部分 ### 输出部分
正如前面介绍的,输出的动作是前后有关联的,按照顺序 正如前面介绍的,输出的动作是前后有关联的,按照顺序
![img6](img\img6.png) ![img6](img\13.6.png)
- 首先是动作类型Action type使用Deep LSTM的embedding的向量作为输入使用residual MLP得到Action type的softmax的输出结果并传给下一个子模型进行embedding。 - 首先是动作类型Action type使用Deep LSTM的embedding的向量作为输入使用residual MLP得到Action type的softmax的输出结果并传给下一个子模型进行embedding。
- 然后是延时Delay使用上一个上面的embedding的结果以及Deep LSTM的结果一起输入MLP后得到结果并传给下一个子模型进行embedding。 - 然后是延时Delay使用上一个上面的embedding的结果以及Deep LSTM的结果一起输入MLP后得到结果并传给下一个子模型进行embedding。
@@ -143,7 +143,7 @@ $$
### 宏观结果 ### 宏观结果
![img7](img\img7.png) ![img7](img\13.7.png)
图A为训练后的agent与人类对战的结果天梯图具体地刚刚结束监督学习后的AlphaStar可以达到钻石级别而训练到一半20天以及训练完结40天的AlphaStar可以达到GM的级别。AlphaStar已经可以击败绝大多数的普通玩家。 图A为训练后的agent与人类对战的结果天梯图具体地刚刚结束监督学习后的AlphaStar可以达到钻石级别而训练到一半20天以及训练完结40天的AlphaStar可以达到GM的级别。AlphaStar已经可以击败绝大多数的普通玩家。
@@ -155,7 +155,7 @@ $$
AlphaStar的论文中也使用了消融实验即控制变量法来进一步分析每一个约束条件对于对战结果的影响。下面举一个特别的例子 AlphaStar的论文中也使用了消融实验即控制变量法来进一步分析每一个约束条件对于对战结果的影响。下面举一个特别的例子
![img8](img\img8.png) ![img8](img\13.8.png)
上面的图片表示的是人类对局数据的使用的情况。可以看到如果没有人类对局数据的情况下数值仅仅为149但是只要经过了简单的监督学习对应的数值就可以达到936当然使用人类初始化后的强化学习可以达到更好的效果利用强化学习加监督学习的KL Loss的话可以达到接近于完整的利用人类统计量 $Z$ 的效果。可以分析出AlphaStar中人类对局的数据对于整个model的表现是很重要的其并没有完全像AlphaGo一样可以不使用人类数据的情况。 上面的图片表示的是人类对局数据的使用的情况。可以看到如果没有人类对局数据的情况下数值仅仅为149但是只要经过了简单的监督学习对应的数值就可以达到936当然使用人类初始化后的强化学习可以达到更好的效果利用强化学习加监督学习的KL Loss的话可以达到接近于完整的利用人类统计量 $Z$ 的效果。可以分析出AlphaStar中人类对局的数据对于整个model的表现是很重要的其并没有完全像AlphaGo一样可以不使用人类数据的情况。

BIN
docs/chapter13/img/13.1.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 292 KiB

BIN
docs/chapter13/img/13.2.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 91 KiB

BIN
docs/chapter13/img/13.3.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 121 KiB

BIN
docs/chapter13/img/13.4.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 121 KiB

BIN
docs/chapter13/img/13.5.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 121 KiB

BIN
docs/chapter13/img/13.6.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 120 KiB

BIN
docs/chapter13/img/13.7.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 224 KiB

BIN
docs/chapter13/img/13.8.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 696 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 308 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 100 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 218 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 202 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 201 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 201 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 239 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 43 KiB