咚咚

V1

2022/01/21阅读:73主题:默认主题

NÜWA算法,女娲算法,可实现多模态转化,太强了

N ̈UWA: Visual Synthesis Pre-training for Neural visUal World creAtion

论文地址:https://arxiv.org/pdf/2111.12417.pdf


可以实现文本到图像的转化、由草图直接生成图像、缺失图像补全、还能直接在原图像上进行创作

论文提出了一个统一的多模态预训练模型,称为N̈UWA,可以为各种视觉合成任务生成新的或操作现有的视觉数据(即图像和视频)。

为了在不同的场景下同时涵盖语言、图像和视频,设计了一种三维transformer编解码解码器框架,该框架既能将视频处理为三维数据,又能将文本和图像分别处理为一维和二维数据。

此外,还提出了一种**3D nearby attention(3DNA)**机制,以考虑视觉数据的性质,降低计算复杂度。

Method

整体算法逻辑如上图所示

  1. 首先将不同模态数据统一为3D数据(见下文分析)
  2. 将数据输入到一个编码-解码网络
  3. 编码和解码过程是迭代多层3DNA模块(见下文分析)而形成的
  4. 输出指定模态类型的输出数据

3D Data Representation

为所有文字、图片和视频或草图,定义一个统一的3 d 表示 ,h和w分别表示空间中高度和宽度,s表示时间轴上的维度,和d为通道数。

文本可以编码为

图像可以编码为

视频可以编码为 ,s表示视频帧数

3D Nearby Self-Attention

3DNA模块,支持自注意和交叉注意

其中,

如果 ,那么3DNA计算 的自注意力

如果 ,那么3DNA计算 的交叉注意力

表示可学习权重


上的一点(i, j, k),对应 上的点

上点 的一个特定尺寸 的局部区域

那么3DNA可以表示为

这样 中点 提出queries,并收集 的局部领域信息

创新点是nearby

3D Encoder-Decoder

目标:为了在 的条件下生成目标

  1. 输入到 层3DNA模块(解码器),

  2. 类似地,解码器也是一个 个3DNA层的堆栈。解码器计算生成结果的自注意力生成结果与条件之间的交叉注意。第l层表示为:

    初始 是一个可训练的token

Training Objective

以文本到图像(T2I)、视频预测(V2V)和文本到视频(T2V)三个任务来训练模型。这三个任务的训练目标是交叉熵

Experiments

分类:

人工智能

标签:

图像处理

作者介绍

咚咚
V1

哈尔滨工业大学-计算机视觉