DreamFusion：使用 2D 扩散将文本转为 3D

抽象的

文本到图像合成的最新突破是由数十亿图像文本对训练的扩散模型推动的。使这种方法适应 3D 合成需要大规模的标记 3D 资产数据集和用于去噪 3D 数据的高效架构，而这两者目前都不存在。在这项工作中，我们通过使用预训练的 2D 文本到图像扩散模型来执行文本到 3D 合成，从而规避了这些限制。我们引入了基于概率密度蒸馏的损失，该损失使得能够使用二维扩散模型作为参数图像生成器优化的先验。在类似 DeepDream 的过程中使用这种损失，我们通过梯度下降优化随机初始化的 3D 模型（神经辐射场，或 NeRF），使其从随机角度进行的 2D 渲染实现低损失。给定文本的最终 3D 模型可以从任何角度查看、通过任意照明重新点亮或合成到任何 3D 环境中。我们的方法不需要 3D 训练数据，也不需要对图像扩散模型进行修改，证明了预训练图像扩散模型作为先验的有效性。