GameGen-O:腾讯等推出的生成开放世界视频游戏的DiT模型
GameGen-O 简介
GameGen-O 是由香港科技大学、中国科技大学以及腾讯共同开发的先进扩散变换器模型,专门设计用于生成开放世界视频游戏。它模拟游戏引擎特性,如角色、环境、动作和事件,并提供交互式控制功能,允许用户定制游戏体验。通过两阶段训练过程和首个开放世界视频游戏数据集 OGameData 的支持,GameGen-O 能够生成高质量的游戏内容,同时实现多模态交互控制,为游戏开发、玩家体验和教育模拟等多个领域提供了强大的应用潜力。
GameGen-O主要功能
- 高质量游戏内容生成:能够生成创新的角色、动态的环境、复杂的动作和多样化的事件。
- 交互式控制:允许用户通过指令来模拟和控制游戏玩法,实现个性化游戏体验。
- 多模态输入处理:支持多种输入方式,包括文本、操作信号和视频提示,以实现更丰富的交互。
- 开放领域视频游戏生成:能够生成各种风格的游戏内容,不限于特定类型或主题。
- 数据集构建:构建了首个开放世界视频游戏数据集(OGameData),为模型训练提供基础。
GameGen-O技术原理
- 两阶段训练过程:
- 基础模型预训练:使用 OGameData 进行预训练,包括文本到视频和视频延续任务,使模型具备开放领域视频游戏生成的能力。
- 指令调优:在预训练模型的基础上,通过可训练的 InstructNet 进行微调,以实现基于多模态结构指令的内容生成。
- 数据集构建:
- 视频收集与筛选:从互联网收集大量视频,通过专家筛选出可用的视频片段。
- 场景检测与剪辑:将筛选后的视频切割成场景片段。
- 排序与过滤:基于美学、光流和语义内容对视频片段进行排序和过滤。
- 结构化标注:使用专家模型和多模态大型模型对视频片段进行结构化标注。
- InstructNet 设计:
- 多模态输入:InstructNet 能够接受结构化文本、操作信号和视频提示等多种输入。
- 内容控制:利用当前内容作为条件,预测和修改未来内容,实现交互式控制。
- 模型架构:
- 2+1D VAE(Magvit-v2):用于压缩视频剪辑,并通过调整 VAE 解码器以适应游戏领域。
- 混合训练策略:通过变化帧率和分辨率进行训练,以提高模型对不同帧率和分辨率的泛化能力。
- 交互式控制实现:
- 条件生成:在推理时,根据当前剪辑内容和多模态控制信号持续生成和控制下一个剪辑。
- 生成与控制的结合:通过结合生成和控制能力,GameGen-O 不仅能够创造内容,还能够根据用户的指令进行交互式调整。
GameGen-O应用场景
- 游戏设计辅助:为游戏设计师提供快速原型设计,通过生成的游戏内容快速验证设计理念。
- 游戏测试与验证:在游戏开发过程中,用于测试游戏机制和环境,确保游戏玩法的流畅性和平衡性。
- 玩家个性化体验:根据玩家的行为和偏好,生成个性化的游戏内容,提升玩家的游戏体验。
- 游戏内容扩展:为现有游戏提供额外的内容生成,如新角色、新环境或新事件,增加游戏的可玩性和重玩价值。
- 教育与培训:在教育领域,用于创建模拟游戏环境,帮助学生通过互动学习复杂的概念和技能。
- 虚拟环境模拟:在模拟训练和虚拟现实领域,用于生成逼真的游戏世界,用于军事训练、紧急响应演练等场景。
GameGen-O项目入口
- 官方项目主页:https://gamegen-o.github.io/
- GitHub代码库:https://github.com/GameGen-O/GameGen-O/
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...