FLEX3D：从文本、单张图片或少量视图图片生成高质量的3D内容

0 70

FLEX3D简介

FLEX3D是由Meta的GenAI团队与牛津大学合作开发的一种创新的3D内容生成框架。它通过一个灵活的重建模型和输入视图审查系统，能够从文本、单张图片或少量视图图片生成高质量的3D内容。这项技术突破性地利用任意数量的高质输入视图，通过两个阶段的处理——候选视图生成与筛选，以及灵活重建——显著提升了3D重建和生成任务的性能。FLEX3D在用户研究中的胜率超过92%，展示了其在3D生成领域的领先地位。

FLEX3D主要功能

高质量的3D内容生成： 从文本提示、单张图片或稀疏的多视图图片生成高质量的3D内容。
灵活的重建模型： 能够处理任意数量的输入视图，并能够适应不同的视角。
输入视图审查： 通过一个审查流程，自动选择最佳的视图用于3D重建。
高效的3D表示： 利用3D高斯点云和三平面表示，实现高效且详细的3D生成。
先进的性能： 在重建和生成任务中均达到或超过现有技术水平。

FLEX3D技术原理

候选视图生成：
- 使用微调过的多视图图像扩散模型和视频扩散模型生成一组候选视图。
- 这些模型被设计为尽可能一致地生成视图。
视图选择：
- 通过质量评估和一致性验证，筛选出高质量和可靠的视图用于重建。
- 使用生成质量分类器和特征匹配网络来评估不同视图的一致性。
灵活重建模型（FlexRM）：
- 基于变换器架构，能够处理任意数量的输入视图。
- 直接输出3D高斯点，利用三平面表示进行有效和详细的3D生成。
强化摄像机调节：
- 通过增强的摄像机调节机制，确保网络能够适应不同数量的输入视图和视角。
三平面与3D高斯散射的结合：
- 通过一个多层感知器（MLP）将三平面特征解码成3D高斯点的参数。
- 使用预训练的NeRF MLP初始化部分网络，简化了MLP的学习过程。
模拟不完美输入视图的训练策略：
- 在训练阶段模拟不完美的输入视图，通过向3D高斯点添加噪声，生成新的噪声视图。
- 这种策略使模型学会处理不完美的输入，同时产生干净、无噪声的3D表示。
两阶段训练：
- 预训练阶段使用合成数据，以提供良好的初始化。
- 第二阶段使用高分辨率的真实数据进行训练，以进一步提高模型性能。