JoyHallo:京东推出的的一款数字人模型

JoyHallo简介

JoyHallo是由京东推出的的一款数字人模型,专为普通话视频生成设计。该模型通过采用中国版的wav2vec2音频特征嵌入技术和创新的半解耦结构,有效提高了口型同步的准确性和视频质量。JoyHallo不仅在普通话视频生成方面表现出色,还保持了强大的跨语言生成能力,能够生成高质量的英语视频。此外,模型推理速度快,内存使用效率高,具有实际应用潜力。

JoyHallo:京东推出的的一款数字人模型

JoyHallo主要功能

  1. 音频驱动视频生成: JoyHallo能够根据输入的音频信号生成相应的视频内容,尤其是针对普通话的口型和表情。
  2. 跨语言生成能力: 除了普通话,JoyHallo还能生成英语视频,展现了其跨语言的视频生成能力。
  3. 高保真度: 生成的视频具有高图像和视频质量,口型同步准确,运动平滑,主体和背景一致性高。
  4. 高效的推理速度: 相比于其他模型,JoyHallo在推理时速度更快,内存使用更少,适合实际部署。

JoyHallo技术原理

  1. 中国版wav2vec2模型: 使用专为中文优化的wav2vec2模型进行音频特征嵌入,以更好地理解和处理普通话的音频信号。
  2. 半解耦结构: 通过这种结构,模型能够更准确地预测口型动作,同时捕捉嘴唇、表情和姿态之间的相互关系。
  3. 交叉注意力机制: 在半解耦结构中,使用交叉注意力模块来处理耦合的特征,以捕捉特征之间的相关性。
  4. 特征分离: 在耦合特征处理后,通过解耦模块分离不同的特征,使模型能够专注于每个特征的特定细节。
  5. 多模态信息融合: 模型整合了音频和图像信息,通过Transformer模块和扩散框架来生成视频。
  6. 数据集构建: 收集了29小时的普通话语音视频数据,创建了jdh-Hallo数据集,涵盖了不同年龄和说话风格。
  7. 性能评估: 使用多种评估指标,如IQA、VQA、Sync-C、Sync-D、Smooth、Subject和Background,来测试视频生成的质量和速度。
  8. 模型优化: 通过实验和优化,JoyHallo在保持视频质量的同时,减少了推理时间和内存使用,提高了模型的实用性。

JoyHallo应用场景

  1. 在线教育: JoyHallo可以生成教师的虚拟形象,用于在线课程和讲座,提供更生动的教学体验。
  2. 客户服务: 在客服平台使用,创建虚拟客服代表,提供24/7的自动客户支持和咨询。
  3. 娱乐与游戏: 在视频游戏和互动故事中生成逼真的虚拟角色,增强玩家的沉浸感。
  4. 新闻播报: 用于生成新闻主播的虚拟形象,进行新闻播报,提高新闻制作的效率。
  5. 语言学习: 辅助语言学习应用,通过模拟真实对话场景,帮助学习者练习发音和口型。
  6. 虚拟会议: 在远程会议中使用,为参与者提供个性化的虚拟形象,保护隐私同时增加互动性。

JoyHallo项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...