INFP:一个音频驱动的交互式头部生成框架
INFP简介
INFP是一个音频驱动的交互式头部生成框架,专为双人对话场景设计,能够根据双向音频输入和单人肖像图像动态合成具有逼真面部表情和头部动作的视频。该框架包含两个阶段:基于运动的头部模仿和音频引导的运动生成,能够自然地在说话和倾听状态之间切换,无需显式的角色分配。INFP轻量且高效,适用于实时通讯,其创新之处在于能够捕捉对话中不同状态的独特特征,并根据对话进展自然适应角色变化。
INFP主要功能
- 音频驱动的头部生成:INFP能够根据双人对话中的双轨音频输入动态生成具有逼真面部表情和头部姿态的视频。
- 交互式对话模拟:框架可以模拟对话中的互动,使代理能够在倾听和说话状态之间自然切换。
- 实时通讯适用:由于框架轻量级,它适用于需要实时反馈的视频会议等通讯场景。
- 通用性:不依赖于特定个体,能够适用于任意人物的头部生成。
- 数据集支持:引入了大规模的DyConv数据集,支持双人对话场景下的头部生成研究。
INFP技术原理
- 运动潜在空间:通过从真实对话视频中提取非言语倾听线索和言语说话模式,并将这些行为编码到一个低维的运动潜在空间中。
- 头部模仿:
- 使用运动编码器从输入面部图像中学习隐式潜在表示,捕捉言语和非言语的交际行为。
- 应用面部结构离散化和面部像素掩码技术,以实现与外观信息的解耦。
- 音频引导的运动生成:
- 通过去噪过程,学习输入双轨音频到运动潜在代码的映射。
- 使用交互式运动引导器和条件扩散变换器,从音频中提取动作特征,并生成相应的运动潜在代码。
- 交互式运动特征构建:
- 利用两个记忆库(一个用于言语动作,一个用于非言语动作)来存储和检索典型的动作模式。
- 通过交叉注意力机制和元素级求和,动态构建基于对话内容的交互式运动特征。
- 风格控制:
- 通过运动风格向量显式编辑记忆库中的动作嵌入,增强生成结果的真实性和生动性。
- 条件扩散变换器:
- 用于将交互式运动特征映射到预训练的运动潜在空间,实现音频驱动的头部生成。
- 包含自注意力层、运动注意力层和时间注意力层,以确保平滑的时间过渡和条件分布的近似。
- 训练策略:
- 在训练阶段,采用预热策略,先使用单边对话剪辑训练模型,然后随机采样多轮剪辑进行剩余训练。
INFP应用场景
- 视频会议:在远程工作和在线会议中,INFP可以提供更加自然和逼真的虚拟形象,增强交流的亲切感和互动性。
- 在线教育:在虚拟教学环境中,教师可以使用INFP生成的虚拟形象进行授课,使得远程学习更加生动和吸引人。
- 客户服务:在自动化客户支持系统中,INFP可以创建虚拟客服代表,提供更加人性化的交互体验。
- 娱乐与游戏:在虚拟现实游戏或模拟环境中,INFP可以为玩家生成逼真的NPC(非玩家角色),提升游戏的沉浸感。
- 社交媒体:用户可以通过INFP创建个性化的虚拟形象,在社交平台上进行视频交流,保护隐私的同时增加互动乐趣。
- 新闻与广播:INFP可以用于生成新闻主播或虚拟记者的形象,为观众提供更加丰富和新颖的新闻体验。
INFP项目入口
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...