INFP：一个音频驱动的交互式头部生成框架

0 60

INFP简介

INFP是一个音频驱动的交互式头部生成框架，专为双人对话场景设计，能够根据双向音频输入和单人肖像图像动态合成具有逼真面部表情和头部动作的视频。该框架包含两个阶段：基于运动的头部模仿和音频引导的运动生成，能够自然地在说话和倾听状态之间切换，无需显式的角色分配。INFP轻量且高效，适用于实时通讯，其创新之处在于能够捕捉对话中不同状态的独特特征，并根据对话进展自然适应角色变化。

INFP主要功能

音频驱动的头部生成：INFP能够根据双人对话中的双轨音频输入动态生成具有逼真面部表情和头部姿态的视频。
交互式对话模拟：框架可以模拟对话中的互动，使代理能够在倾听和说话状态之间自然切换。
实时通讯适用：由于框架轻量级，它适用于需要实时反馈的视频会议等通讯场景。
通用性：不依赖于特定个体，能够适用于任意人物的头部生成。
数据集支持：引入了大规模的DyConv数据集，支持双人对话场景下的头部生成研究。

INFP技术原理

运动潜在空间：通过从真实对话视频中提取非言语倾听线索和言语说话模式，并将这些行为编码到一个低维的运动潜在空间中。
头部模仿：
- 使用运动编码器从输入面部图像中学习隐式潜在表示，捕捉言语和非言语的交际行为。
- 应用面部结构离散化和面部像素掩码技术，以实现与外观信息的解耦。
音频引导的运动生成：
- 通过去噪过程，学习输入双轨音频到运动潜在代码的映射。
- 使用交互式运动引导器和条件扩散变换器，从音频中提取动作特征，并生成相应的运动潜在代码。
交互式运动特征构建：
- 利用两个记忆库（一个用于言语动作，一个用于非言语动作）来存储和检索典型的动作模式。
- 通过交叉注意力机制和元素级求和，动态构建基于对话内容的交互式运动特征。
风格控制：
- 通过运动风格向量显式编辑记忆库中的动作嵌入，增强生成结果的真实性和生动性。
条件扩散变换器：
- 用于将交互式运动特征映射到预训练的运动潜在空间，实现音频驱动的头部生成。
- 包含自注意力层、运动注意力层和时间注意力层，以确保平滑的时间过渡和条件分布的近似。
训练策略：
- 在训练阶段，采用预热策略，先使用单边对话剪辑训练模型，然后随机采样多轮剪辑进行剩余训练。