FirePlace：将新的3D对象放置到复杂的现有3D场景中

0 60

FirePlace简介

FirePlace是由斯坦福大学和谷歌DeepMind的推出的将新的3D对象放置到复杂的现有3D场景中的创新框架。该框架通过结合多模态大型语言模型（MLLMs）的常识推理能力和低层次几何约束，实现了既满足几何约束又符合常识的对象放置方案。FirePlace的核心在于将抽象的语言指令转化为具体的3D约束，并通过批量视觉选择等技术提高MLLMs在复杂场景中的决策能力。实验结果表明，FirePlace在生成符合物理可行性和常识的放置方案方面优于现有方法，为3D场景生成和对象放置任务提供了新的解决方案。

FirePlace主要功能

3D对象放置：将新的3D对象放置到复杂的现有3D场景中，满足几何约束和常识要求。
语言驱动的放置：根据自然语言指令生成对象放置方案，支持多样化的语言描述。
几何约束生成：将高层次的语言描述转化为具体的低层次几何约束，确保对象放置的物理可行性。
合理性剪枝：利用MLLMs的常识推理能力，从几何上可行的候选方案中筛选出最符合常识的放置方案。
批量视觉选择：通过分批选择的方式，提高MLLMs在复杂视觉任务中的决策能力，减少错误率。

FirePlace技术原理

约束大纲生成：
- 利用MLLMs根据输入的文本提示和场景渲染生成高层次的约束描述（如“书应该放在书架上”）。
- 将这些描述转化为具体的约束函数，例如平行、接触、距离等。
3D几何推理：
- 通过视觉选择算法，从场景中选择与语言描述匹配的锚点对象。
- 提取对象的表面方向，并根据约束描述选择最佳的交互表面。
- 使用几何处理算法提取与约束相关的具体表面，确保约束的精确性。
约束求解：
- 将生成的几何约束输入到约束求解器中，求解出满足所有约束条件的对象放置方案。
- 生成多个候选放置方案，以供后续的合理性评估。
合理性剪枝：
- 利用MLLMs评估生成的候选放置方案，去除那些虽然几何上可行但不符合常识的方案。
- 通过视觉评估和语言描述的匹配度，选择最符合人类常识和审美的放置方案。
批量视觉选择：
- 将复杂的视觉选择任务分解为多个小任务，每次仅展示少量选项给MLLMs。
- 通过递归选择的方式逐步缩小选项范围，最终确定最佳选择。
- 有效提高了MLLMs在复杂视觉任务中的准确性和可靠性。