GameGen-X：首个开放世界游戏视频生成与交互控制模型

0 80

GameGen-X简介

GameGen-X 是由香港科技大学、中国科学技术大学和中国科学院合肥物质科学研究院联合开发的一款先进的扩散变换模型，它专门设计用于生成和交互控制开放世界游戏视频。该模型通过模拟复杂的游戏引擎特性，如多样的角色、动态的环境、复杂动作和多元事件，实现了高质量、开放领域的视频生成，并提供了基于当前视频剪辑预测和改变未来内容的交互控制能力。GameGen-X 的开发标志着游戏内容设计和开发领域的一个重要突破，展现了生成模型作为传统渲染技术辅助工具的巨大潜力。

GameGen-X主要功能

高质量视频生成： GameGen-X能够生成具有创新角色、动态环境、复杂动作和多样事件的开放世界游戏视频。
交互控制能力： 模型可以根据当前视频剪辑预测和调整未来内容，允许用户通过文本和键盘输入影响生成的视频内容，模拟游戏玩法。
两阶段训练过程： 包括基础模型预训练和指令调整，分别对应视频内容的生成和交互控制的实现。
数据集构建： 收集并构建了首个大规模的开放世界游戏视频数据集OGameData，为模型训练提供了基础。

GameGen-X技术原理

3D Spatio-Temporal Variational Autoencoder (3D-VAE)： 用于将视频剪辑压缩成潜在表示，以高效训练高分辨率、长帧序列视频。
Masked Spatial-Temporal Diffusion Transformer (MSDiT)： 结合空间注意力、时间注意力和交叉注意力机制，根据文本提示有效生成游戏视频。
统一视频生成和延续： 通过整合文本到视频扩散训练逻辑和掩蔽机制，GameGen-X能够处理视频生成和延续任务，增强模拟体验。
InstructNet设计： 为了实现交互控制能力，设计了InstructNet来调整基础模型的预测，允许用户输入信号控制生成内容。
多模态专家： 利用多模态专家处理不同的控制信号，如结构化文本、键盘输入和视频提示，确保每种控制信号都被有效利用。
自回归生成过程： 基于过去帧序列和控制信号生成未来帧，实现对开放世界游戏环境的高度控制能力。