hengyuan

V1

2023/02/24阅读:21主题:嫩青

(MultiModal-CoT)ScienceQA

Github:https://github.com/amazon-science/mm-cot Paper:https://arxiv.org/abs/2302.00923

参考博客

  • 这个是一个 Multi-modal 的 CoT 数据集,每个 sample 是 (image, question, rationale, answer) 这样的一个四元组,该数据集将图像和文本作为上下文的一部分
  • 整个 Pipeline 是先让模型去生成 rationale, 然后再将生成的 rationale 拼接到原始的 question 上去生成最后的结果

    • 用的是 Encoder-Decoder 架构的 T5 模型
  • 这里是先把 image feature extractor 提取到的 image feature 映射到和 text embedding 同样维度

  • 然后在 image 和 text embedding 之间做 attention,以便视觉和文本特征可以相互交互。为此,作者使用单头注意力层,将 作为查询向量,将 作为键和值向量, 这样来得到一个富含 image information 的 text embedding ( )

  • 然后再用一个 gated mechanism 把两个 embedding fuse 起来得到最终的 embedding , 然后用这个去给 T5 Decoder 用 cross-attention 来指导生成 rationale

分类:

人工智能

标签:

自然语言处理

作者介绍

hengyuan
V1