ChatAnyone:阿里通义推出的实时肖像视频生成框架

ChatAnyone简介

ChatAnyone是由阿里巴巴集团通义实验室开发的一种新型实时肖像视频生成框架。它通过分层运动扩散模型和混合控制融合生成模型,能够根据输入的肖像图像和音频序列,实时生成具有丰富表情和自然上半身动作的高保真动画视频。该框架不仅支持从头部到上半身的交互,还能实现风格化控制和精细的表情变化。在技术上,ChatAnyone结合了显式和隐式运动表示,优化了手部动作的真实感,并通过面部细节优化模块提升了整体视频的真实感和表现力。它能够在4090 GPU上以最高512×768分辨率、30fps的速度进行高效生成,为实时视频聊天和数字人交互提供了强大的技术支持。

ChatAnyone:阿里通义推出的实时肖像视频生成框架

ChatAnyone主要功能

  1. 实时肖像视频生成:能够根据输入的肖像图像和音频序列,实时生成具有丰富表情和自然上半身动作的高保真动画视频。
  2. 风格化控制:支持从头部到上半身的交互,并且可以实现风格化控制,使生成的视频具有个性化的风格。
  3. 精细表情控制:能够生成多样化的面部表情,并实现表情强度的精细变化,以及从参考视频中进行风格转移。
  4. 自然身体动作同步:生成的视频中,头部和身体动作能够自然同步,包括手势动作,使交互更加真实。
  5. 高效实时生成:在4090 GPU上支持最大512×768分辨率、30fps的实时生成,满足实时视频聊天的需求。

ChatAnyone技术原理

  1. 分层运动扩散模型
    • 音频到运动表示:从音频中提取特征,通过扩散模型生成面部和身体的运动表示。该模型分为两个子阶段:首先预测面部运动,然后基于面部运动生成上半身运动。
    • 显式和隐式运动表示结合:使用显式的3D关键点表示头部运动,隐式的3D关键点表示上半身运动,并通过显式的手部控制信号来生成手部动作。
    • 风格控制与转移:通过自适应层归一化(AdaLN)注入表情和姿势范围信息,实现对生成视频风格的控制。同时,可以利用参考视频中的表情序列进行风格转移。
  2. 混合控制融合生成模型
    • 基于变形的GAN框架:使用基于变形的生成对抗网络(GAN)框架,结合显式的面部关键点和隐式的身体关键点,通过变形场估计器将源图像的特征体积变形到目标特征体积,并由生成器合成最终图像。
    • 手部生成优化:由于手部动作的复杂性,使用MANO模板渲染手部图像,并将其注入生成器,以提供更强的先验信息,从而提高手部生成的质量。
    • 面部细节优化:引入轻量级的面部优化网络,通过3D显式头部关键点和隐式偏移驱动,改善面部细节,使生成的图像在面部区域更加逼真。
  3. 高效推理管道
    • 实时推理:通过优化模型结构和推理流程,确保在4090 GPU上能够以30fps的速度实时生成高质量的肖像视频。
    • 灵活的模块组合:支持从头部动画到上半身动画的灵活扩展,适应不同的应用场景和需求。

ChatAnyone应用场景

  1. 虚拟直播:实时生成主播的虚拟形象,支持丰富的表情和自然的动作,提升直播的趣味性和互动性。
  2. 在线教育:为在线课程生成虚拟教师形象,使教学内容更加生动,增强学生的学习兴趣和参与感。
  3. 虚拟客服:创建虚拟客服形象,提供更加个性化和生动的服务体验,提升客户满意度。
  4. 社交媒体:用户可以生成个性化的虚拟形象视频,分享到社交媒体平台,增加内容的趣味性和吸引力。
  5. 游戏互动:在游戏中生成玩家的虚拟角色,支持实时表情和动作交互,提升游戏的沉浸感。
  6. 远程会议:在视频会议中生成虚拟形象,保护用户隐私的同时,提供更加生动的交流体验。

ChatAnyone项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...