GameGen-O：腾讯等推出的生成开放世界视频游戏的DiT模型

0 80

GameGen-O 简介

GameGen-O 是由香港科技大学、中国科技大学以及腾讯共同开发的先进扩散变换器模型，专门设计用于生成开放世界视频游戏。它模拟游戏引擎特性，如角色、环境、动作和事件，并提供交互式控制功能，允许用户定制游戏体验。通过两阶段训练过程和首个开放世界视频游戏数据集 OGameData 的支持，GameGen-O 能够生成高质量的游戏内容，同时实现多模态交互控制，为游戏开发、玩家体验和教育模拟等多个领域提供了强大的应用潜力。

GameGen-O主要功能

高质量游戏内容生成：能够生成创新的角色、动态的环境、复杂的动作和多样化的事件。
交互式控制：允许用户通过指令来模拟和控制游戏玩法，实现个性化游戏体验。
多模态输入处理：支持多种输入方式，包括文本、操作信号和视频提示，以实现更丰富的交互。
开放领域视频游戏生成：能够生成各种风格的游戏内容，不限于特定类型或主题。
数据集构建：构建了首个开放世界视频游戏数据集（OGameData），为模型训练提供基础。

GameGen-O技术原理

两阶段训练过程：
- 基础模型预训练：使用 OGameData 进行预训练，包括文本到视频和视频延续任务，使模型具备开放领域视频游戏生成的能力。
- 指令调优：在预训练模型的基础上，通过可训练的 InstructNet 进行微调，以实现基于多模态结构指令的内容生成。
数据集构建：
- 视频收集与筛选：从互联网收集大量视频，通过专家筛选出可用的视频片段。
- 场景检测与剪辑：将筛选后的视频切割成场景片段。
- 排序与过滤：基于美学、光流和语义内容对视频片段进行排序和过滤。
- 结构化标注：使用专家模型和多模态大型模型对视频片段进行结构化标注。
InstructNet 设计：
- 多模态输入：InstructNet 能够接受结构化文本、操作信号和视频提示等多种输入。
- 内容控制：利用当前内容作为条件，预测和修改未来内容，实现交互式控制。
模型架构：
- 2+1D VAE（Magvit-v2）：用于压缩视频剪辑，并通过调整 VAE 解码器以适应游戏领域。
- 混合训练策略：通过变化帧率和分辨率进行训练，以提高模型对不同帧率和分辨率的泛化能力。
交互式控制实现：
- 条件生成：在推理时，根据当前剪辑内容和多模态控制信号持续生成和控制下一个剪辑。
生成与控制的结合：通过结合生成和控制能力，GameGen-O 不仅能够创造内容，还能够根据用户的指令进行交互式调整。