GameGen-O:腾讯等推出的生成开放世界视频游戏的DiT模型

GameGen-O 简介

GameGen-O 是由香港科技大学、中国科技大学以及腾讯共同开发的先进扩散变换器模型,专门设计用于生成开放世界视频游戏。它模拟游戏引擎特性,如角色、环境、动作和事件,并提供交互式控制功能,允许用户定制游戏体验。通过两阶段训练过程和首个开放世界视频游戏数据集 OGameData 的支持,GameGen-O 能够生成高质量的游戏内容,同时实现多模态交互控制,为游戏开发、玩家体验和教育模拟等多个领域提供了强大的应用潜力。

GameGen-O:腾讯等推出的生成开放世界视频游戏的DiT模型

GameGen-O主要功能

  1. 高质量游戏内容生成:能够生成创新的角色、动态的环境、复杂的动作和多样化的事件。
  2. 交互式控制:允许用户通过指令来模拟和控制游戏玩法,实现个性化游戏体验。
  3. 多模态输入处理:支持多种输入方式,包括文本、操作信号和视频提示,以实现更丰富的交互。
  4. 开放领域视频游戏生成:能够生成各种风格的游戏内容,不限于特定类型或主题。
  5. 数据集构建:构建了首个开放世界视频游戏数据集(OGameData),为模型训练提供基础。

GameGen-O技术原理

  1. 两阶段训练过程
    • 基础模型预训练:使用 OGameData 进行预训练,包括文本到视频和视频延续任务,使模型具备开放领域视频游戏生成的能力。
    • 指令调优:在预训练模型的基础上,通过可训练的 InstructNet 进行微调,以实现基于多模态结构指令的内容生成。
  2. 数据集构建
    • 视频收集与筛选:从互联网收集大量视频,通过专家筛选出可用的视频片段。
    • 场景检测与剪辑:将筛选后的视频切割成场景片段。
    • 排序与过滤:基于美学、光流和语义内容对视频片段进行排序和过滤。
    • 结构化标注:使用专家模型和多模态大型模型对视频片段进行结构化标注。
  3. InstructNet 设计
    • 多模态输入:InstructNet 能够接受结构化文本、操作信号和视频提示等多种输入。
    • 内容控制:利用当前内容作为条件,预测和修改未来内容,实现交互式控制。
  4. 模型架构
    • 2+1D VAE(Magvit-v2):用于压缩视频剪辑,并通过调整 VAE 解码器以适应游戏领域。
    • 混合训练策略:通过变化帧率和分辨率进行训练,以提高模型对不同帧率和分辨率的泛化能力。
  5. 交互式控制实现
    • 条件生成:在推理时,根据当前剪辑内容和多模态控制信号持续生成和控制下一个剪辑。
  6. 生成与控制的结合:通过结合生成和控制能力,GameGen-O 不仅能够创造内容,还能够根据用户的指令进行交互式调整。

GameGen-O应用场景

  1. 游戏设计辅助:为游戏设计师提供快速原型设计,通过生成的游戏内容快速验证设计理念。
  2. 游戏测试与验证:在游戏开发过程中,用于测试游戏机制和环境,确保游戏玩法的流畅性和平衡性。
  3. 玩家个性化体验:根据玩家的行为和偏好,生成个性化的游戏内容,提升玩家的游戏体验。
  4. 游戏内容扩展:为现有游戏提供额外的内容生成,如新角色、新环境或新事件,增加游戏的可玩性和重玩价值。
  5. 教育与培训:在教育领域,用于创建模拟游戏环境,帮助学生通过互动学习复杂的概念和技能。
  6. 虚拟环境模拟:在模拟训练和虚拟现实领域,用于生成逼真的游戏世界,用于军事训练、紧急响应演练等场景。

GameGen-O项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...