PortraitGen:使用文本提示来驱动视频内容的编辑

PortraitGen简介

PortraitGen是由中国科学技术大学的开发团队推出的一种先进的肖像视频编辑方法。该技术利用多模态生成先验,能够实现一致且富有表现力的视频风格化编辑。通过将视频帧映射到动态3D高斯场并结合创新的神经高斯纹理机制,它在保持高速渲染的同时,确保了编辑过程中的结构和时间连贯性。此外,它还整合了表情相似性指导和面部感知编辑模块,以提升编辑质量和面部细节的准确性。

PortraitGen:使用文本提示来驱动视频内容的编辑

PortraitGen主要功能

  1. 文本驱动编辑: 使用文本提示来驱动视频内容的编辑,实现用户指定的风格或内容变化。
  2. 图像驱动编辑: 根据参考图像进行风格迁移或特定对象的替换,以定制视频内容。
  3. 重新照明: 根据文本描述调整视频帧的光照条件,改变场景的氛围。
  4. 多模态输入: 结合文本、图像等多种输入方式,实现更丰富的编辑效果。
  5. 高速渲染: 渲染速度超过100FPS,保证了实时编辑的流畅性。

PortraitGen技术原理

  1. 3D Gaussian Splatting (3DGS): 将肖像视频帧提升到一个统一的动态3D高斯场,确保结构和时间的连贯性。
  2. Neural Gaussian Texture机制: 存储每个高斯的可学习特征而非SH系数,使用2D神经渲染器将特征图转换为RGB信号,以支持复杂风格的编辑。
  3. SMPL-X模型: 利用SMPL-X模型来确保结构和时间的一致性,通过参数化的方式控制面部表情和姿态。
  4. 多模态面部感知编辑: 面部区域和肖像部分分别通过图像编辑模型进行编辑,然后合成最终的帧图像。
  5. 表情相似性指导: 通过映射到EMOCA的潜在表情空间并优化表情相似性,保持与原始视频帧一致的自然表情。
  6. 迭代数据集更新策略: 交替编辑视频帧数据集和更新底层3D肖像,使肖像模型逐渐接近目标提示。
  7. 重建损失和感知损失: 使用重建损失和感知损失来训练模型,确保渲染结果与输入RGB图像一致,并提高细节表现。

PortraitGen应用场景

  1. 电影和视频制作: 利用PortraitGen进行特效添加和角色形象调整,提升视觉冲击力。
  2. 社交媒体内容创作: 创作者可以使用它来生成个性化和风格化的视频内容,增加作品吸引力。
  3. 虚拟现实(VR)和增强现实(AR): 在虚拟形象和增强视频中使用,提供更加丰富和逼真的用户体验。
  4. 游戏开发: 游戏中的非玩家角色(NPC)可以利用PortraitGen进行快速且高质量的形象生成和编辑。
  5. 广告制作: 广告商可以利用这项技术来定制引人入胜的广告视频,提高广告的吸引力和记忆度。
  6. 教育和培训: 在模拟训练和教育材料中创建逼真的虚拟教师或角色,提高学习体验的互动性和沉浸感。

PortraitGen项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...