顾道长生
2023/03/23阅读:20主题:自定义主题1
显式2D注意力
3. Read and Write Operations
在等式4和8中定义了读和写操作之前,上一节中描述的DRAW网络是不完整的。本节将介绍两种方法,一种是有选择性注意,另一种没有。
3.2. Selective Attention Model
为了赋予网络选择性注意力而不牺牲梯度下降训练的好处,我们从最近用于笔迹合成(Graves, 2013)和神经图灵机(Graves et al, 2014)的可微分注意机制中获得灵感。与上述工作不同,我们考虑了一种明确的二维形式的注意力,其中二维高斯滤波器数组应用于图像,产生一个平滑变化位置和缩放的图像“补丁”。这种配置,我们简单地称为“DRAW”,有点类似于基于计算机图形的自动编码器中使用的仿射转换(Tieleman, 2014)。
如图3所示,通过指定网格中心坐标和相邻滤波器之间的步幅距离,将高斯滤波器的 网格定位在图像上。步长控制切片的“缩放”;即步长越大,注意力切片中原始图像的可见面积越大,但注意切片的有效分辨率越低。网格中心 和步长 (均为实值)决定了滤波器在patch中第i行第j列的平均位置 ,如下所示:

图3。左图:一个叠加在图像上的 滤波器网格。标明步长 和中心位置 。右图:从图像中提取3个 的patch 。左边的绿色矩形表示patch的边界和精度 ,而patch本身则显示在右边。顶部的patch有一个小的 和高的 ,给出了一个放大但模糊的数字中心的视图;中间的patch具有较大的 和较低的 ,有效地降低了整个图像的采样;底部的区域有很高的 和 。
”
为了完全指定注意力模型,还需要另外两个参数:高斯滤波器的各向同性方差 ,以及乘以滤波器响应的标量强度 。给定 输入图像 ,通过解码器输出 的线性变换,在每个时间步动态确定所有五个注意力参数:
其中方差,步幅和强度在对数尺度中释放,以确保正性。选择 和 的缩放,以确保初始patch(具有随机初始化的网络)大致覆盖整个输入图像。
给定解码器发出的注意力参数,定义水平和垂直滤波器组矩阵 和 (分别为 和 ):
其中 是注意力patch中的一个点, 是输入图像中的一个点, 是确保 和 的归一化常数。
3.3. Reading and Writing With Attention
给定 和由 确定的强度 ,以及输入图像 和错误图像 ,读取操作返回图像和错误图像中两个 patch的拼接:
注意,图像和错误图像都使用了相同的滤波器组。对于写操作,从 中提取出一组不同的注意参数 和 ,转置顺序颠倒,强度反转:
其中 为 发射的 写入斑块。对于彩色图像,输入图像和错误图像中的每个点(因此在读取和写入patch中)都是RGB三重。在这种情况下,所有三个通道都使用相同的读写过滤器。
作者介绍