CVPR 2022 | 芝加哥大学Text2Mesh，根据文本对3D模型进行换肤

1. 论文和代码地址

论文地址：https://doi.org/10.48550/arXiv.2112.03221^[1]

代码地址：https://threedle.github.io/text2mesh/^[2].

2. 动机

在保证给定的3D形状的条件下，产生一个给定的风格，编辑可视化数据，在计算机图形学和计算机视觉领域都是一个长期目标。挑战包括正确地表述内容、风格，以及用来表示和修改mesh的形态。Text2Mesh是第一个在mesh风格化中使用CLIP loss的模型，给定一个输入网格和一个文本提示，它预测每个mesh顶点的风格化颜色和位移，风格化mesh只是这个彩色顶点位移过程的结果。

3. 方法

上图是本文的模型框架，Text2Mesh模型主要有神经场、可微分渲染器、2D增强器以及语义损失计算四部分组成。

输入M mesh ，将mesh中的点p映射到颜色和偏移量中，将神经场和源mesh紧密耦合。

神经场首先标准化p的坐标，使得其在单位边界框中，由于神经场的输入是低维坐标，可能存在spectral 偏差，在位置编码的位置使用傅里叶特征映射进行位置编码，从而学习高频函数插入。

然后将每个顶点的位置编码传递给MLPs，然后将Ns分成Nd和Nc，Nc的输出是预测颜色，Nd的输出是预测偏移量——沿着顶点的法线，将其限制到（-0.1，0.1）防止偏移太多。点p被法线预测和偏移量的乘积以及染色取。

在进行渲染之前，首先需要找一个anchor，然后对3D mesh进行统一区间的渲染并且获得CLIP相似度，选择最高的相似度的视角作为anchor。使用锚定视角为中心的高斯分布，从随机抽样的视图中渲染对象的多个视角，然对CLIP嵌入视角平均化，保证视角的一致性。

使用一个基于插值的可微渲染器将顶点颜色在整个mesh表面传播，在训练阶段仅仅只考虑位移的mesh——没有颜色渲染的顶点集合，在推理阶段同时对full mesh和uncolored mesh进行处理。

在2D增强阶段使用随机视角转换，和生成随机视角和占用原始图像10%的随机裁剪进行图像增强。

最后将增强图像和文本信息基于CLIP进行语义损失计算，通过反向传播来调整模型参数。

其中I表示采样的2D图像，ψ表示可微分渲染过程，S表示增强后的图像嵌入到CLIP中的结果。

4.实验

4.1模块比较

由上图可见Text2Mesh生成具有高粒度的细节，同时仍然保持全局语义和保存底层内容。例如，给定一个花瓶网格和目标文本“彩色钩针”，程式化的输出包括不同颜色的针织图案，同时保留了花瓶的结构。此外，神经场网络生成的结构化纹理与尖锐的曲线和特征对齐。

在图3中，展示了对人类的全局语义理解。不同的身体部位，如腿、头部和肌肉，根据它们的语义角色进行适当的程式化，这些风格在表面无缝混合，形成一个粘凝聚力的纹理。

图六展示了本文模型是部分感知的，产生了一致的方式样式化整个mesh，并表现出纹理的自然变化。

在图7展示了三个不同频率值的环形源mesh对目标文本“彩色玻璃甜甜圈”的结果。增加频率值会增加mesh上样式细节的频率，并沿法线方向产生更清晰、更频繁的位移。进一步证明了Text2Mesh成功地合成不同特异性水平的风格的能力。

不同的输入源球随着突出频率的增加。观察生成样式的频率和结构都会变化以与输入表面的已存在结构对齐。这表明Text2Mesh能够在不影响样式化质量的情况下保留输入mesh的内容。

具有相应连通性的网格可以用来在两个曲面之间进行变形，能够在保留输入mesh的同时修改样式来实现变形。为了在mesh之间的变形，Text2Mesh在mesh上每个点的样式值（RGB和位移）之间应用线性插值。

4.2消融实验

去除样式场网络（−net），而直接优化顶点颜色和位移，导致表面上的噪声和任意位移，随机二维增强是生成有意义的剪辑引导绘图的必要条件。即删除二维增强会导致与目标文本提示符完全无关的程式化。如果没有傅里叶特征编码（−FFN），生成的样式将失去所有细粒度的细节。去掉crop增强后，输出同样无法合成定义目标的细粒度样式细节。去除损失函数的几何组件（−disl）会阻碍几何细化，网络通过阴影模拟几何进行补偿，而网络则会通过阴影模拟几何来进行补偿。如果没有几何先验（−3D），就没有源mesh来给定全局结构，因此，在三维空间中的二维平面被视为一个图像画布。

Text2Mesh利用几何形状和颜色之间的相互作用来实现有效的程式化。与同时学习几何形状和颜色相比，学习只预测几何操作会产生较差的几何形状，因为mesh试图通过生成自阴影的位移来模拟阴影。同样地，学习只预测颜色会导致mesh试图通过阴影产生几何细节，导致一个平坦和不现实的纹理。

在图13（a-b）中使用目标mesh进行风格化，而在图13（c-d）中，目标mesh和目标文本合并，后者成功地遵循了目标风格。

5. 总结

提出了一个新的框架根据目标文本来stylization输入mesh，模型使用神经场学习预测颜色和局部几何细节。传统上，3D表面上的纹理模式的方向是根据三维形状分析技术构造的，但在这项工作中，纹理的方向是由2D渲染的图像驱动的，这些图像捕捉到了纹理在现实世界中的形式的语义信息。模型使用CLIP模型对文本和2D增强图像进行对齐并计算语义损失，使用反向传播对神经场的参数进行调整。本文模型实现了使用文本信息对输入3D mesh渲染的目的，并且能够根据文本提示对mesh的几何形状进行部分修改，使得输出结果更加贴近语义信息。但是本文模型依赖CLIP对语义信息的理解，而且渲染的mesh在光学效果的体现上相对乏力。

参考资料

[1]

https://doi.org/10.48550/arXiv.2112.03221: https://doi.org/10.48550/arXiv.2112.03221

[2]

https://threedle.github.io/text2mesh/: https://threedle.github.io/text2mesh/