NeurIPS2022 Spotlight | TANGO：一种基于光照分解实现逼真稳健的文本驱动3D风格化

1. 论文和代码地址

论文地址：https://arxiv.org/abs/2210.11277^[1]

代码地址：https://cyw-3d.github.io/tango^[2].

2. 动机

通过文本提示、图像或者3D形状等风格化的3D内容生成，在计算机视觉和图形学中有重要的应用。Text2Mesh是第一个在mesh风格化中使用CLIP loss的模型，给定一个输入网格和一个文本提示，它预测每个mesh顶点的风格化颜色和位移，风格化mesh只是这个彩色顶点位移过程的结果。然而，Text2Mesh不支持风格化光线情况、反射率、和局部几何变化，这些是产生一个逼真的3D表面的外观是必要的条件。为了解决这些问题，本文提出了TANGO模型，通过解耦光线来源，分为漫反射、镜面反射、环境光线，并且通过图像增强来更加注重局部几何变化。

3. 方法

3.1模型概述

TANGO的核心是将输入mesh的风格化分解为反射和场景光线，利用CLIP学习给定的文本提示指定的目标style，使用球面高斯可微分渲染器将学习到的参数生成风格化的图像。

给定一个Mesh M和文本提示，首先将mesh放缩到单位球体中，找到一个anchor视角，使用高斯分布随机采样M附近的相机位置记为c，渲染图像中的每个像素点的索引为p，每一个相机位置和像素点p都可以得到一个从 c指向p，穿过像素点p的相机位置的射线，射线穿过mesh的第一个交点（xp）和交面，将交面的法线看作是交点的法线。

Normal为了能在渲染时为mesh提供更多的几何细节，所以对每一个交点xp和法线np估计一个偏移量得到估计的法线

SVBRDT表示反射函数，空间变化的BRDT，将反射函数解耦为漫反射项和镜面反射项，同时加入粗糙度参数。

Lighting表示环境中的光线的球面高斯分布的乘积。

最后将估计的漫反射、粗糙度、镜面反射、法线、光线同时纳入像素颜色计算等式中，计算像素颜色。对每个像素重复操作，汇总后得到渲染图像。

然后进入2D增强阶段，随机剪下一些区域调整为（224，224）得到增强数据。

将原始数据和增强数据都送入CLIP的图像编码器中，与文本编码器中得到的编码计算cosine相似性，得到CLIP 损失，最后通过反向传播调整参数。

3.2模型量化

3.2.1球形高斯函数

本文选择使用球面高斯函数来有效的逼近渲染方程的解析解，n维球面高斯函数方程如下所示：

球面高斯函数有两个非常好的性质，从而保证积分的计算便利性：（1）两个球面高斯函数的乘积是另一个球面高斯函数；（2）球面高斯函数的积分有解析解。

所以本文使用球面高斯函数表示渲染方程中的每一个要素，实现高效计算。

3.2.2环境映射

光线表示为环境中的光线的球面高斯分布的乘积，环境光线的映射函数如下所示，使用球面高斯函数来表达：

但是要对光线的强度进行限制，如果光线太强或太弱的话，渲染图像会变的太亮或太暗，导致了优化性能下降，所以将光线能量总和初始化为6.25。

3.2.3法线映射

通过不同的相机位置可以得到不同的交点，在mesh上交点的位置对应一个法线，表达式如下：

为了保证展现更多的几何细节，本文使用交点和法线估计法线偏移量，得到偏移后的法线，偏移后的法线表达式如下：

偏移量的计算过程如下所示，使用MLP估计偏移量，嵌入位置编码后，与原来的法线汇总，得到估计的法线。

β（l）表示位置编码，使用随机高斯矩阵进行位置编码，从而使得法线偏移量限制在一定区域内。

3.2.4 SVBRDT

反射光使用空间变化的双向反射函数来进行表示，将反射光分解为漫反射和镜面反射，使用MLP来计算空间变化的漫反射，并且进行位置编码，漫反射的表达式如下所示：

镜面反射项，我们使用简化Disney BRDT，如下所示：

其中M表示Fresnel Effect和阴影效果，即用来表示mesh表面粗糙度，D是正太分布，用来表示镜面反射，将镜面反射和粗糙度用球形高斯分布表示，如下所示：

其中h是表示输入和观测方向的半矢量，M由MLP进行预测。综上所述，SVBRDT将漫反射和镜面反射方程加总，如下所示。

3.2.5渲染

最后将估计的漫反射、粗糙度、镜面反射、法线、光线同时纳入像素颜色计算等式中，计算像素颜色。对射入光方向积分，综合所有的因素得到观测方向的颜色每个像素重复操作，汇总后得到渲染图像。像素点颜色计算公式如下所示：

3.3损失函数

得到渲染图像后，进入2D增强阶段，随机剪下一些区域调整为（224，224）得到增强数据，原始数据和增强数据都送入CLIP的图像编码器中，被编码到多维空间，得到隐编码Li，输入文本提示通过CLIP文本编码器被编码到Lt。总体目标函数式是计算文本编码和图像编码的cosine相似性

4.实验

4.1分解组件

由于TANGO分离了几何、材质和光线表示，我们可以轻松地重新点燃风格化mesh，这是基于顶点位移的方法无法完成的。

TANGO分解了集合、材质、光源表示，所以可以轻松的改变光源来源，来风格化mesh，可以轻松改变物理材质。

当我们放大材料的粗糙度值时，金鞋的表面变得更加弥散，而更大的镜面值通常会导致更闪亮的表面，证明了TANGO在材料编辑上的能力。

将模型用于双侧对称性的mesh。展示了不同视图中一致的3D风格化，并展示了纹理的自然变化。

4.2Text2Mesh对比实验

表1中的结果是基于73个用户评估9个source mash和style文本提示组合对于下列三个问题的回答统计的结果。从结果上看，TANGO在所有问题上都具有优势。 Q1：输出结果是否自然 Q2：输出结果与原始内容匹配程度 Q3：输出结果与目标央视匹配程度

TANGO可以产生逼真的细节带有细粒度的图像，并且避免自相交。比如：金鞋：产生真是的金色反射有明暗对比，Text2Mesh看不到；柳条花瓶：TANGO生成了凹凸材料，不包含局部自相交。

在face少、质量低的mesh上，TANGO任然可以保持与原mesh相似的性能，Text2Mesh出现自交叉以及颜色单调化的问题。可能是由于TANGO对法线的预测，局部几何变化弥补了低质量mesh中几何细节缺失的问题。Text2Mesh基于位移的方法依赖移动每个顶点的位置来生成凹凸不平的几何图形，所以顶点数减少，图像生成质量下降。

4.3消融实验

缺少镜面反射和粗糙度：无法生成逼真的视觉高光缺少法线映射：无法生成足够的几何变化，验证了法线在生成几何凹凸的细节方面的有效性缺少位置编码：缺少颜色和形状高频变化法线缺少位置编码：缺少形状高频变化 BRDF缺少位置编码：缺少颜色高频变化缺少局部增强：说明局部增强有助于风格化的表现，让模型专注于表面小区域，避免模糊

5. 总结

TANGO通过简化阴影模型表示间接的照明效果和阴影，阻导致TANGO在大型的场景中表示复杂的光源需要模拟多个光反射。球形高斯表示阴影是为了加速渲染和训练过程，若要扩大到大型场景风格化，可以结合间接照明和加速技术来保证质量和速度。顶点位移框架比法线位移框架的几何容量更大，可以通过引入可学习的SVBRDT和法线来减少渲染能力之间的差距，同时增强鲁棒性提高时间效率。

本文提出了新颖的端到端的TANGO框架，根据文本提示为任意的3D mesh生成逼真的外观样式，通过解耦局部变化、反射光线、环境光线等外观style，基于球面高斯可微渲染器在CLIP损失的监督下联合学习。TANGO可以自动预测反射效果，在低质量的mesh中也可以保证渲染效果。

参考资料

风格化：https://zhuanlan.zhihu.com/p/165407030^[3]
NeRF:https://zhuanlan.zhihu.com/p/512538748^[4]
BRDF:https://zhuanlan.zhihu.com/p/490024846^[5]
球形高斯函数：https://zhuanlan.zhihu.com/p/514017351^[6]
Text2Mesh：https://arxiv.org/pdf/2112.03221v1.pdf^[7]
Fresnel Effect：https://zhuanlan.zhihu.com/p/357190332^[8]
自相交：https://blog.csdn.net/qq\_34719188/article/details/108545342^[9]

参考资料

[1]

https://arxiv.org/abs/2210.11277: https://arxiv.org/abs/2210.11277

[2]

https://cyw-3d.github.io/tango: https://cyw-3d.github.io/tango

[3]

https://zhuanlan.zhihu.com/p/165407030: https://zhuanlan.zhihu.com/p/165407030

[4]

https://zhuanlan.zhihu.com/p/512538748: https://zhuanlan.zhihu.com/p/512538748

[5]

https://zhuanlan.zhihu.com/p/490024846: https://zhuanlan.zhihu.com/p/490024846

[6]

https://zhuanlan.zhihu.com/p/514017351: https://zhuanlan.zhihu.com/p/514017351?utm_campaign=shareopn&utm_medium=social&utm_oi=1324140946342883328&utm_psn=1577037174217957376&utm_source=wechat_session

[7]

https://arxiv.org/pdf/2112.03221v1.pdf: https://arxiv.org/pdf/2112.03221v1.pdf

[8]

https://zhuanlan.zhihu.com/p/357190332: https://zhuanlan.zhihu.com/p/357190332

[9]

https://blog.csdn.net/qq_34719188/article/details/108545342: https://blog.csdn.net/qq_34719188/article/details/108545342