OmniHuman:字节跳动推出的新型一阶段条件人类动画模型

OmniHuman简介

OmniHuman是由字节跳动团队开发的一种新型一阶段条件人类动画模型。该模型基于扩散变换器(Diffusion Transformer)架构,通过在训练阶段混合多种运动相关条件(如文本、音频和姿势)来扩展数据规模,从而实现高度逼真的人类视频生成。OmniHuman能够处理多种肖像内容(包括面部特写、半身像和全身像),支持说话和唱歌,并且可以处理人与物体的交互以及复杂的姿势。此外,它还兼容不同的图像风格,并支持多种驱动模态(如音频驱动、视频驱动和组合驱动信号)。与现有方法相比,OmniHuman不仅生成更逼真的视频,还提供了更灵活的输入方式,显著提升了人类动画生成的多样性和实用性。

OmniHuman:字节跳动推出的新型一阶段条件人类动画模型

OmniHuman主要功能

  1. 多模态驱动的人类视频生成
    • 支持音频驱动(如说话、唱歌)、姿势驱动(如肢体动作、手势)以及视频驱动等多种模态的输入信号,能够根据输入信号生成高度逼真的动态人类视频。
    • 支持多种输入组合,例如音频和姿势联合驱动,实现更复杂的人类行为生成。
  2. 多样化的人类图像内容支持
    • 兼容多种肖像内容,包括面部特写、半身像、全身像等,能够根据输入图像生成对应比例和视角的动态视频。
    • 支持不同风格的图像输入,包括写实风格、卡通风格,甚至可以对非人类图像进行拟人化动画生成。
  3. 复杂场景和交互处理
    • 能够处理人与物体的交互,例如生成人物与乐器互动、手持物体的自然动作等。
    • 支持复杂背景和多变的相机角度,生成的视频在不同场景下均具有高度的自然性和真实感。
  4. 高度灵活的输入和输出
    • 支持任意宽高比和分辨率的输入图像,生成的视频能够保持与输入图像一致的风格和比例。
    • 生成的视频长度可以根据需要灵活调整,支持长视频生成,并保持时间和身份的一致性。

OmniHuman技术原理

  1. 混合条件训练(Omni-Conditions Training)
    • 多条件融合:将文本、音频、姿势等多种运动相关条件融入训练过程,通过设计不同的训练阶段,逐步引入不同条件,使模型能够充分利用大规模数据。
    • 训练原则:遵循“强条件利用弱条件数据”和“强条件低训练比例”的原则,通过调整不同条件的训练比例,优化模型对不同条件的学习效果,避免过拟合。
  2. 扩散变换器架构(Diffusion Transformer-based Architecture)
    • 基于预训练的扩散模型(如MMDiT),通过因果3DVAE将视频投影到潜在空间,并采用流匹配作为训练目标,学习视频的去噪过程。
    • 利用Transformer架构的强大建模能力,捕捉视频中的时空特征,支持高效的大规模数据训练。
  3. 条件注入与特征融合
    • 音频条件:通过wav2vec模型提取音频特征,并将其与视频帧特征融合,生成音频标记,通过交叉注意力机制注入模型。
    • 姿势条件:使用姿势引导器编码姿势热图序列,生成姿势标记,与视频帧特征融合后输入模型。
    • 外观条件:重用原始去噪模型主干,将参考图像编码为潜在表示,并通过自注意力机制与视频潜在表示交互,保留身份和背景细节。
  4. 推理优化策略
    • 分类器自由引导(CFG):在推理过程中,对音频和文本条件应用CFG,通过调整CFG的幅度,平衡生成视频的表现力和计算效率。
    • CFG退火策略:逐步减少CFG幅度,减少生成视频中的皱纹和噪声,同时保持唇部同步和运动表现力。
  5. 大规模数据扩展
    • 通过混合条件训练,将原本因单一条件限制而被丢弃的数据重新利用,例如将音频条件数据用于文本条件任务,显著扩展了训练数据规模。
    • 利用大规模数据训练,使模型能够学习到更自然、多样化的运动模式,提升生成视频的真实感和泛化能力。

OmniHuman应用场景

  1. 虚拟主播与新闻播报:通过音频驱动,将静态主播图像生成动态视频,实现24小时不间断的新闻播报,降低人力成本。
  2. 虚拟客服与在线教育:利用音频和姿势信号生成虚拟客服或教师形象,提供更生动、自然的交互体验,增强用户参与感。
  3. 社交媒体与短视频创作:创作者可将静态照片或卡通形象快速转化为动态视频,丰富内容形式,吸引更多观众。
  4. 游戏与互动娱乐:在游戏中生成动态NPC(非玩家角色),根据玩家动作或语音实时互动,提升游戏的沉浸感和趣味性。
  5. 影视特效与动画制作:快速生成高质量的人物动画,辅助特效制作,降低动画制作成本和周期,提升生产效率。
  6. 智能会议与远程协作:为远程参会者生成虚拟形象,实现更自然的远程交流,提升会议的互动性和真实感。

OmniHuman项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...