hengyuan
V1
2023/02/24阅读:21主题:嫩青
(MultiModal-CoT)ScienceQA
Github:https://github.com/amazon-science/mm-cot Paper:https://arxiv.org/abs/2302.00923
-
这个是一个 Multi-modal 的 CoT 数据集,每个 sample 是 (image, question, rationale, answer) 这样的一个四元组,该数据集将图像和文本作为上下文的一部分

-
整个 Pipeline 是先让模型去生成 rationale, 然后再将生成的 rationale 拼接到原始的 question 上去生成最后的结果
-
用的是 Encoder-Decoder 架构的 T5 模型
-
-
这里是先把 image feature extractor 提取到的 image feature 映射到和 text embedding 同样维度
-
然后在 image 和 text embedding 之间做 attention,以便视觉和文本特征可以相互交互。为此,作者使用单头注意力层,将 作为查询向量,将 作为键和值向量, 这样来得到一个富含 image information 的 text embedding ( )

-
然后再用一个 gated mechanism 把两个 embedding fuse 起来得到最终的 embedding , 然后用这个去给 T5 Decoder 用 cross-attention 来指导生成 rationale
作者介绍
hengyuan
V1