# ICLR 2025 Oral | 单卡3090纯视觉玩 MineCraft:LS-Imagine 在开放世界中基于长短期想象进行强化学习
LS-Imagine 通过纯视觉观测来玩 Minecraft,仿照人类玩家的做法来学习 RL 控制策略,不开外挂,不使用特权信息。
在高维开放世界中训练视觉强化学习智能体面临诸多挑战。尽管有模型的强化学习方法(MBRL)通过学习交互式世界模型提高了样本效率,但这些智能体往往具有“短视”问题,因为它们通常仅在短暂的想象经验片段上进行训练。我们认为,开放世界决策的主要挑战在于**如何提高在庞大状态空间中的探索效率,特别是对于那些需要考虑长期回报的任务**。所以,我们提出了一种新的强化学习方法: **LS-Imagine**,通过构建一个**长短期世界模型**(Long Short-Term World Model),在目标驱动的情况下模拟跳跃式状态转换,并通过放大单张图像中的特定区域计算相应的**功用性图**(Affordance Map)来实现在有限的状态转移步数内扩展智能体的想象范围,使其能够探索可能带来有利长期回报的行为。
> 论文标题:Open-World Reinforcement Learning over Long Short-Term Imagination
> 论文作者:李佳键\*,王琦\*,王韫博(通讯作者),金鑫,李洋,曾文军,杨小康 (\* 共同一作)
> 项目网址:https://qiwang067.github.io/ls-imagine
> 论文链接:https://openreview.net/pdf?id=vzItLaEoDa
> 代码链接:https://github.com/qiwang067/LS-Imagine
## 1. 简介
在强化学习背景下,开放世界中的决策具有以下特征:
1. **广阔的状态空间**:智能体在一个具有巨大状态空间的交互式环境中运行;
2. **高度灵活的策略**:所学习的策略具有较高的灵活性,使智能体能够与环境中的各种对象进行交互;
3. **环境感知的不确定性**:智能体无法完全观测外部世界的内部状态和物理动力学,即其对环境的感知(例如,原始图像)通常具有较大的不确定性。
例如,**Minecraft** 是一个典型的开放世界游戏,符合上述特性。
基于最近在视觉控制领域的进展,开放世界决策的目标是训练智能体仅基于高维视觉观测来接近人类级别的智能。然而,这也带来了诸多挑战。例如在 Minecraft 任务中:
- 基于高层 API 的方法(如 Voyager)由特定环境的 API 进行高层控制,不符合标准的视觉控制设定,限制了泛化能力和适用范围。
- 无模型强化学习方法(如 DECKARD)缺乏对环境底层机制的理解,主要依赖高成本的试错探索,导致样本利用率低,探索效率不佳。
- 有模型的强化学习方法(如 DreamerV3)尽管提高了样本效率,但由于仅依赖短期经验优化策略,智能体表现出“短视”问题,难以进行有效的长期探索。
为了提高有模型强化学习过程中行为学习的效率,我们提出了一种新方法——LS-Imagine。该方法的核心在于**使世界模型能够高效模拟特定行为的长期影响,而无需反复进行逐步预测**。
| 任务 | 语言描述 | 最大步数 |
|---|---|---|
| 在平原收集原木 | "Cut a tree." | 1000 |
| 用桶收集水 | "Obtain water." | 1000 |
| 采集沙子 | "Obtain sand." | 1000 |
| 剪羊毛 | "Obtain wool." | 1000 |
| 开采铁矿石 | "Mine iron ore." | 2000 |
| Model | 在平原收集原木 | 用桶收集水 | 采集沙子 | 剪羊毛 | 开采铁矿石 | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| succ. (%) | succ. step | succ. (%) | succ. step | succ. (%) | succ. step | succ. (%) | succ. step | succ. (%) | succ. step | |
| VPT | 6.97 | 963.32 | 0.61 | 987.65 | 12.99 | 880.54 | 1.94 | 987.49 | 0.00 | — |
| STEVE-1 | 57.00 | 752.47 | 6.00 | 989.07 | 37.00 | 770.40 | 3.00 | 992.36 | 0.00 | — |
| PTGM | 41.86 | 811.19 | 2.78 | 977.78 | 17.71 | 833.64 | 21.54 | 887.03 | 15.14 | 1586.03 |
| Director | 8.67 | 968.09 | 20.90 | 931.74 | 36.36 | 825.35 | 1.27 | 995.99 | 7.82 | 1906.31 |
| DreamerV3 | 53.33 | 711.22 | 55.72 | 628.79 | 59.88 | 548.76 | 25.13 | 841.14 | 16.79 | 1789.06 |
| LS-Imagine | 80.63 | 503.35 | 77.31 | 502.61 | 62.68 | 601.18 | 54.28 | 633.78 | 20.28 | 1748.55 |