Github:https://github.com/amazon-science/mm-cot Paper:https://arxiv.org/abs/2302.00923

这个是一个 Multi-modal 的 CoT 数据集，每个 sample 是 (image, question, rationale, answer) 这样的一个四元组，该数据集将图像和文本作为上下文的一部分

整个 Pipeline 是先让模型去生成 rationale, 然后再将生成的 rationale 拼接到原始的 question 上去生成最后的结果
- 用的是 Encoder-Decoder 架构的 T5 模型
这里是先把 image feature extractor 提取到的 image feature 映射到和 text embedding 同样维度
然后在 image 和 text embedding 之间做 attention，以便视觉和文本特征可以相互交互。为此，作者使用单头注意力层，将作为查询向量，将作为键和值向量, 这样来得到一个富含 image information 的 text embedding ( )

然后再用一个 gated mechanism 把两个 embedding fuse 起来得到最终的 embedding , 然后用这个去给 T5 Decoder 用 cross-attention 来指导生成 rationale