JoyHallo：京东推出的的一款数字人模型

0 50

JoyHallo简介

JoyHallo是由京东推出的的一款数字人模型，专为普通话视频生成设计。该模型通过采用中国版的wav2vec2音频特征嵌入技术和创新的半解耦结构，有效提高了口型同步的准确性和视频质量。JoyHallo不仅在普通话视频生成方面表现出色，还保持了强大的跨语言生成能力，能够生成高质量的英语视频。此外，模型推理速度快，内存使用效率高，具有实际应用潜力。

JoyHallo主要功能

音频驱动视频生成： JoyHallo能够根据输入的音频信号生成相应的视频内容，尤其是针对普通话的口型和表情。
跨语言生成能力： 除了普通话，JoyHallo还能生成英语视频，展现了其跨语言的视频生成能力。
高保真度： 生成的视频具有高图像和视频质量，口型同步准确，运动平滑，主体和背景一致性高。
高效的推理速度： 相比于其他模型，JoyHallo在推理时速度更快，内存使用更少，适合实际部署。

JoyHallo技术原理

中国版wav2vec2模型： 使用专为中文优化的wav2vec2模型进行音频特征嵌入，以更好地理解和处理普通话的音频信号。
半解耦结构： 通过这种结构，模型能够更准确地预测口型动作，同时捕捉嘴唇、表情和姿态之间的相互关系。
交叉注意力机制： 在半解耦结构中，使用交叉注意力模块来处理耦合的特征，以捕捉特征之间的相关性。
特征分离： 在耦合特征处理后，通过解耦模块分离不同的特征，使模型能够专注于每个特征的特定细节。
多模态信息融合： 模型整合了音频和图像信息，通过Transformer模块和扩散框架来生成视频。
数据集构建： 收集了29小时的普通话语音视频数据，创建了jdh-Hallo数据集，涵盖了不同年龄和说话风格。
性能评估： 使用多种评估指标，如IQA、VQA、Sync-C、Sync-D、Smooth、Subject和Background，来测试视频生成的质量和速度。
模型优化： 通过实验和优化，JoyHallo在保持视频质量的同时，减少了推理时间和内存使用，提高了模型的实用性。