如何把一个正常人变成僵尸风格？用NeRF-Art就可以做到！

【写在前面】

神经辐射场作为一种强大的三维场景表示方法，能够从多个视点图像合成出高质量的新颖视点。然而，样式化NERF仍然具有挑战性，特别是在模拟同时更改外观和几何图形的文本制导样式方面。在本文中，我们提出了Nerf-Art，这是一种文本引导的Nerf风格化方法，它通过一个简单的文本提示来操纵预先训练的Nerf模型的样式。与以往缺乏足够的几何变形和纹理细节或需要网格来指导样式化的方法不同，该方法可以在没有任何网格指导的情况下将3D场景转换为以所需几何和外观变化为特征的目标样式。这是通过引入一种新颖的全局-局部对比学习策略，结合方向约束来同时控制目标风格的轨迹和强度来实现的。此外，我们采用了一种权重正则化方法有效地抑制几何样式化过程中密度场变换时容易产生的云状伪影和几何噪声。通过对不同样式的大量实验，我们证明了我们的方法在单视图样式化质量和交叉视点一致性方面都是有效和健壮的。

1. 论文和代码地址

论文题目：NeRF-Art: Text-Driven Neural Radiance Fields Stylization

论文地址：https://arxiv.org/abs/2212.08070^[1]

代码地址：https://github.com/cassiePython/NeRF-Art^[2]

2. 动机

艺术作品以各种创造性和想象力的风格描绘世界，随着人类的进步而演变。虽然主要由专业人士推动，但由于最近对视觉艺术风格化的研究，艺术内容的生成现在比以往任何时候都更容易为普通用户所接受。在深度学习的时代，技术进步正在逐步重塑人们如何创作、消费和分享艺术，从实时娱乐到概念设计。自神经风格转换显示了通过深度神经网络编码和改变视觉样式的潜力以来，已经投入了大量的努力来有效和高效地迁移任意图像的样式。尽管取得了令人印象深刻的结果，但这些方法仅限于样式化由内容图像捕获的单个视图。

在3D资源创建需求不断增长的推动下，我们的目标是从多个视图输入中样式化3D内容，而不是单一图像样式化。在3D表示领域，以前的方法通常采用显式模型然后是用于多视图风格化的可差分渲染。这些方法实现了对几何体的直观控制，但用于建模和渲染复杂场景的能力有限。最近的神经辐射场的隐式表示显著提高了新视图合成的质量，满足了我们对各种场景和对象的通用表示的需求。然而，在享受NERF优越的场景重建质量的同时，其高度隐含的外观和几何的体积表示的诅咒，被密集的MLP网络参数化和纠缠，使得通过联合变换编码的颜色和形状来样式化NERF更具挑战性。

最近，开创性的NERF风格化作品在3D场景的外观风格转换方面取得了令人振奋的进展。然而，他们的样式指导仅限于图像引用，尽管它被用作指定目标样式的一种常见方法，但并不总是每个场景的完美解决方案-在许多情况下，获得既反映目标样式又匹配源内容的适当样式图像可能并不容易，甚至是可能的。因此，寻找另一种简单、自然和富有表现力的指导形式成为一个有吸引力的想法。多亏了语言视觉模型的平行发展，自然语言的风格化不再是幻想。正如最近的文本引导的风格化作品所表明的那样与图像引导的方法相比，短文本提示提供了1)非常直观和用户友好的方式来指定样式，2)对各种样式的灵活控制，从抽象的样式到非常具体的样式，从某个概念到非常具体的名画或人物，以及3)不受内容对齐的与视图无关的表示，自然地有利于交叉视图的一致性。

然而，使用现有的方法，通过简单的文本提示来样式化NERF的隐式表示仍然是具有挑战性的。学习潜在空间有助于约束几何和纹理调制，但它往往依赖于数据且费力。一些工作直接在Nerf的呈现视图和剪辑中的文本之间强制样式方向嵌入空间。此外，背景增强和网格指导已被提出以改善几何和纹理调制。但是，它们仍然存在几何体变形和纹理细节不足的问题。

在这项工作中，我们提出了一种新的文本驱动的Nerf风格化方法Nerf-Art。在给定预先训练的NERF模型和单个文本提示的情况下，我们的方法能够在外观和几何变换的情况下实现一致的新颖视图合成，并坚持指定的样式。这是通过将最近的大规模语言-视觉模型(即，CLIP)与NERF相结合来实现的，由于存在几个挑战，NERF不是平凡的。通过限制呈现的视图和嵌入空间中的文本之间的相似性，直接将从CLIP到NERF的监督应用不足以确保所需的风格强度。为了解决这个问题，我们设计了一种基于剪辑的对比损失来适当地加强风格化，使结果更接近目标样式，而远离其他预先定义为负样本的样式。为了进一步确保整个场景风格的一致性，我们将对比约束扩展到全局-局部混合框架，以涵盖全局结构和局部细节。此外，为了支持与外观相结合的几何风格化，我们放松了对预先训练的神经网络的密度的约束，并采用了一种权重正则化方法，有效地减少了密度场变化时的云状伪影和几何噪声。在实验中，我们首先评估了文本描述选择的风格化，然后在不同的样式上测试了我们的方法，并展示了文本引导对于NERF风格化的有效性和灵活性。此外，我们进行的用户研究表明，与相关方法相比，我们的方法获得了最好的视觉愉悦效果。我们还从风格化的NERF中提取网格，以展示我们方法的几何调节能力，并结合不同的基线来展示我们的方法对各种类NERF模型的泛化能力。

3. Nerf

如图2所示，我们的方法被简单地分解为重构和风格化阶段。在接下来的内容中，在简要回顾了我们用NERF(§3.1)表示的3D摄影之后，我们将重点介绍我们的文本引导的风格化方法。具体地说，我们首先制定了用于风格化的定向片段损失，这利用了预先训练的语言-视觉模型的力量(§4.1)。然后，我们介绍了我们的全局-局部对比学习框架，以应对定向片段丢失的风格化强度问题(§4.2)。接下来，我们引入了一个权重正则化项来减少风格化过程中产生的云状伪影和几何噪声(§4.3)。最后，我们用整个流水线的总体培训策略(§4.4)来结束这一节。

3.1关于NERF场景表示的初步探讨

我们采用NERF作为三维场景表示，它将连续的体积场定义为隐函数，并使用MLP网络ℱ进行参数化：

为了从一组多视角照片中训练神经网络，采用了一种简单的监督重建损失，在真实像素颜色从训练角度和NERF预测：

4. 文本引导的NERF样式化

具有定向夹具损失的轨迹控制：

基于局部对比学习的力量控制：

基于加权正则化的伪影抑制

最终损失

5.实验

Nerf-Art结果。

文本评估。

与文本引导的图像风格化方法StyleGan-NADA的比较。

与文本引导的NERF样式化方法CLIP-NERF的比较。

6. 总结

在本文中，我们提出了一种基于CLIP的文本引导的NERF风格化方法NERF-Art。与现有的在样式化过程中需要网格指导或在样式化过程中不充分的几何变形和纹理细节方面的陷阱不同，我们的方法同时调整其几何形状和外观以匹配所需的样式，并且仅使用文本指导来显示令人愉快的几何变形和纹理细节的结果。为了实现这一点，我们引入了精心设计的方向约束组合来控制样式轨迹，并引入了新颖的全局-局部对比损失来增强适当的样式强度。此外，我们还提出了一种加权正则化策略，以减轻几何变形中的云状伪影和几何噪声。在真实人脸和一般场景上的大量实验表明，该方法在风格化质量和视图一致性方面都是有效的和健壮的。尽管我们的方法在大多数情况下都取得了成功，但仍有一些局限性。首先，一些文本提示在语言上是模棱两可的，比如“数字绘画”，它描述了各种各样的风格，包括油画、铅笔素描、3D渲染图像、卡通画等。这种模棱两可可能会混淆剪辑，使最终结果出乎意料，如图13所示。语义上没有意义的单词会导致另一种意想不到的结果。举个例子，如果我们把“嘴”和“蝙蝠侠”这两个词组合起来作为提示，结果会意外地在嘴巴上放上一个蝙蝠形状，这可能不是用户想要的。这些都是值得在未来探索的有趣问题。

更多细节请参考原文！

参考资料

[1]

https://arxiv.org/abs/2212.08070: https://arxiv.org/abs/2212.08070

[2]

https://github.com/cassiePython/NeRF-Art: https://github.com/cassiePython/NeRF-Art