FLOAT：DeepBrain AI等推出的音频驱动肖像视频生成框架

0 100

FLOAT简介

FLOAT是一种创新的音频驱动肖像视频生成框架，由DeepBrain AI Inc.和韩国科学技术院（KAIST）的研究团队共同开发。这项技术通过流匹配生成模型，将音频信号转化为自然而连贯的说话动作，包括唇部同步、头部运动和面部表情。FLOAT的独特之处在于其能够利用学习到的运动潜在空间进行高效的动作设计，并支持语音驱动的情感增强，使得生成的视频在视觉质量、动作保真度和效率方面超越了现有的方法。

FLOAT主要功能

音频驱动的肖像视频生成： FLOAT能够根据单一源图像和音频信号生成说话肖像视频。
时间一致性： 该技术能够生成时间上连贯的视频帧，保持动作的流畅性和一致性。
唇部同步： 视频中的人物能够实现与音频同步的唇部动作，增强真实感。
情感增强： 利用语音驱动的情感标签，FLOAT能够增强视频中的表情动作，使动作更加自然和富有表现力。
高效率采样： 与基于扩散的生成模型相比，FLOAT能够快速生成视频，减少等待时间。

FLOAT技术原理

流匹配生成模型： FLOAT基于流匹配（Flow Matching）原理，将生成建模从像素潜在空间转移到学习到的运动潜在空间，以实现更高效的时间一致性运动生成。
Transformer-based矢量场预测器： 引入基于Transformer的矢量场预测器，通过简单的帧间条件机制来预测运动矢量场，从而生成连续帧。
运动潜在空间： 通过运动自编码器学习到的运动潜在空间，能够捕捉全局和局部动态，如头部运动和面部表情。
帧间条件机制： 通过帧间条件机制，模型能够在生成过程中考虑前后帧的关系，以生成更加连贯的视频。
语音情感预测： 利用预训练的语音情感预测器，将情感标签整合到运动采样过程中，实现情感驱动的动作生成。
优化的采样效率： FLOAT通过流匹配技术，相较于传统的扩散模型，能够以更快的速度进行高质量采样，提高视频生成的效率。