咚咚
2022/01/21阅读:73主题:默认主题
NÜWA算法,女娲算法,可实现多模态转化,太强了
N ̈UWA: Visual Synthesis Pre-training for Neural visUal World creAtion
论文地址:https://arxiv.org/pdf/2111.12417.pdf
可以实现文本到图像的转化、由草图直接生成图像、缺失图像补全、还能直接在原图像上进行创作

论文提出了一个统一的多模态预训练模型,称为N̈UWA,可以为各种视觉合成任务生成新的或操作现有的视觉数据(即图像和视频)。
为了在不同的场景下同时涵盖语言、图像和视频,设计了一种三维transformer编解码解码器框架,该框架既能将视频处理为三维数据,又能将文本和图像分别处理为一维和二维数据。
此外,还提出了一种**3D nearby attention(3DNA)**机制,以考虑视觉数据的性质,降低计算复杂度。
Method
整体算法逻辑如上图所示
-
首先将不同模态数据统一为3D数据(见下文分析) -
将数据输入到一个编码-解码网络 -
编码和解码过程是迭代多层3DNA模块(见下文分析)而形成的 -
输出指定模态类型的输出数据
3D Data Representation
为所有文字、图片和视频或草图,定义一个统一的3 d 表示 ,h和w分别表示空间中高度和宽度,s表示时间轴上的维度,和d为通道数。
文本可以编码为
图像可以编码为
视频可以编码为 ,s表示视频帧数
3D Nearby Self-Attention
3DNA模块,支持自注意和交叉注意
其中,
如果 ,那么3DNA计算 的自注意力
如果 ,那么3DNA计算 和 的交叉注意力
表示可学习权重
在 上的一点(i, j, k),对应 上的点 ,
上点 的一个特定尺寸 的局部区域
那么3DNA可以表示为
这样 中点 提出queries,并收集 的局部领域信息
创新点是nearby
3D Encoder-Decoder
目标:为了在 的条件下生成目标
-
将 输入到 层3DNA模块(解码器),
-
类似地,解码器也是一个 个3DNA层的堆栈。解码器计算生成结果的自注意力和生成结果与条件之间的交叉注意。第l层表示为:
初始 是一个可训练的token
Training Objective
以文本到图像(T2I)、视频预测(V2V)和文本到视频(T2V)三个任务来训练模型。这三个任务的训练目标是交叉熵
Experiments




作者介绍
咚咚
哈尔滨工业大学-计算机视觉