MineWorld:微软研究院开发的一个实时交互式世界模型

MineWorld项目简介

MineWorld是由微软研究院开发的一个实时交互式世界模型,基于热门游戏Minecraft。该模型利用视觉-动作自回归Transformer架构,通过将游戏场景和玩家动作转换为离散标记ID并进行交错组合,实现了对未来游戏场景的高效预测。开发团队引入了一种创新的并行解码算法,显著提升了模型的推理速度,使其能够以每秒4到7帧的速度与玩家实时互动。此外,MineWorld在评估中展现了卓越的视觉质量和动作跟随能力,大幅超越了现有的开源扩散模型。该模型的代码和权重已开源,为世界模型的研究树立了新的标杆。

MineWorld:微软研究院开发的一个实时交互式世界模型

MineWorld主要功能

  1. 实时交互:能够根据玩家的操作实时生成新的游戏场景,支持与玩家的即时互动,生成速度可达每秒4到7帧。
  2. 高质量视频生成:生成的游戏场景具有高保真度和连贯性,能够准确地模拟游戏中的物理规则和物体交互。
  3. 动作跟随能力:精确地根据输入的动作生成相应的游戏场景变化,确保生成结果与玩家的操作高度一致。
  4. 双重功能:既可以作为世界模型预测游戏状态,也可以作为策略模型生成玩家动作,具备自主玩游戏的潜力。

MineWorld技术原理

  1. 视觉-动作自回归Transformer架构:将游戏场景和玩家动作转换为离散的标记ID,并将这些标记以交错的方式组合成输入序列,通过自回归的方式训练Transformer模型,学习游戏状态之间的条件关系以及状态与动作之间的关系。
  2. 并行解码算法:利用空间相邻标记之间的依赖关系,允许某些标记组同时预测,从而显著加速了Transformer的自回归生成过程,提高了模型的推理速度。
  3. 视觉标记器(VQ-VAE):使用向量量化-变分自编码器(VQ-VAE)将游戏场景转换为离散的标记ID,通过空间压缩将游戏场景分解为小块(patch),并将其映射到离散的标记空间。
  4. 动作标记器:将玩家的动作(包括鼠标和键盘输入)转换为离散的标记ID,通过量化相机角度和将离散动作分类为不同的类别,简化了动作表示并提高了模型的效率。
  5. 逆动力学模型(IDM):用于评估模型的控制能力,通过预测生成的游戏状态之间的动作,与输入动作进行比较,从而量化模型的动作跟随能力。

MineWorld应用场景

  1. 游戏测试与开发:快速生成游戏场景和测试玩家行为,优化游戏设计。
  2. 玩家行为预测:分析玩家操作,预测后续行为,用于个性化游戏体验。
  3. 虚拟训练环境:为AI训练提供模拟环境,提升AI在复杂环境中的决策能力。
  4. 游戏内容生成:自动生成游戏关卡、地图和任务,丰富游戏内容。
  5. 教育与培训:用于教育场景,通过互动模拟帮助学生理解物理规则和逻辑思维。
  6. 娱乐与互动体验:增强玩家的沉浸感,支持实时互动,提升游戏趣味性。

MineWorld项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...