TaoAvatar：阿里推出的实时生成逼真全身动态3D虚拟形象的系统

0 10

TaoAvatar简介

TaoAvatar是由阿里巴巴集团开发的实时生成逼真全身动态3D虚拟形象的系统。该系统基于3D高斯点绘（3DGS）技术，结合个性化的人体参数化模板和轻量级神经网络，能够在多种移动和AR设备上实现高质量、低延迟的渲染效果。TaoAvatar通过创新的教师-学生框架和混合形状补偿技术，有效捕捉高频率的外观细节，同时保持高效的实时性能，支持在苹果Vision Pro等设备上以90FPS的帧率渲染2K分辨率图像。此外，开发团队还贡献了TalkBody4D数据集，为全身动态场景研究提供了丰富的资源。TaoAvatar在虚拟形象生成领域展现了强大的应用潜力，为增强现实和虚拟现实体验带来了新的突破。

TaoAvatar主要功能

实时生成逼真的全身动态3D虚拟形象：
- TaoAvatar能够从多视角视频序列中生成高保真的全身动态虚拟形象，支持面部表情、手势和身体动作的实时驱动。
- 可在多种移动设备和AR设备（如苹果Vision Pro）上运行，提供高质量的实时渲染效果。
支持多种驱动信号：
- 用户可以通过面部表情、手势和身体姿态来驱动虚拟形象，实现自然流畅的动画效果。
- 支持音频驱动的表情参数输入，例如通过语音生成相应的面部表情和口型动作。
跨平台兼容性：
- TaoAvatar优化了渲染效率，能够在不同设备上实现高效运行，包括Android、iOS和MacBook等平台。
- 提供了多种应用接口，方便开发者集成到不同的应用场景中，如电子商务直播、全息通信等。
高质量渲染与低存储需求：
- 通过3D高斯点绘技术，TaoAvatar能够在保持高分辨率渲染的同时，显著降低存储需求。
- 支持2K分辨率的立体渲染，帧率可达90FPS，满足AR设备的高性能要求。

TaoAvatar技术原理

3D高斯点绘（3DGS）技术：
- 使用3D高斯分布来表示场景中的点，每个高斯点包含位置、颜色、透明度等属性。
- 高斯点可以高效地进行实时渲染，同时支持复杂的材质和透明度效果，如头发和半透明物体。
个性化参数化模板（SMPLX++）：
- 基于SMPLX模型扩展，增加了服装、头发等非身体部件的几何表示。
- 通过将高斯点绑定到模板的三角形上，实现纹理化表示，使虚拟形象能够随骨骼动画自然变形。
教师-学生框架：
- 教师网络（基于StyleUnet）用于学习复杂的非刚性形变，捕捉高频率的外观细节。
- 学生网络（基于MLP）通过知识蒸馏技术从教师网络中学习，实现轻量级的实时渲染。
混合形状补偿：
- 提出两种轻量级的混合形状（位置混合形状和颜色混合形状），用于补偿非刚性形变，增强细节表现。
- 通过映射网络将表情参数和姿态参数转换为混合形状的驱动系数，实现精细的控制。
非刚性形变烘焙：
- 将教师网络学习到的高斯点非刚性形变“烘焙”到学生网络的网格非刚性形变场中。
- 通过语义损失和非刚性损失优化学生网络，确保形变的准确性和一致性。
多视图数据集TalkBody4D：
- 提供丰富的全身动态场景数据，包含多种身份、服装和同步音频，支持复杂的面部表情和手势。
- 用于训练和评估TaoAvatar模型，确保其在实际应用中的表现。