isyangkt
2022/10/23阅读:49主题:默认主题
低资源摘要抽取
前言
今天刷到一篇最新的摘要抽取的paper,其立足要解决的问题是:如何在低资源场景下进行摘要抽取。
论文链接:https://aclanthology.org/2022.coling-1.561.pdf
代码链接:https://github.com/OpenSUM/CPSUM
方法
总体框架如下,从中不难发现,作者主要针对性的设计了两个方面,一个是Noise-injected Consistency Training,另外一个是Entropy-constrained Pseudo Labeling,下面我们分别来看看吧~

-
Noise-injected Consistency Training
数据增强加噪的一致性学习。这里一共包含三种数据,一个是有监督学习数据 ,一个是无监督数据 ,最后还有一个就是无监督数据的增强数据 。
这里的loss一共就是两种:有监督loss和无监督loss。
有监督的loss很好理解,就是使用有标签进行监督学习即可:

无监督loss这里就是分别使用 , 作为模型输入,然后使得输出尽可能的相似。

-
Entropy-constrained Pseudo Labeling
我们知道,低资源就是说标签数据少,但是我们手头有大量的无标签数据可以利用。通常的一个利用方式就是伪标签即就是用模型在无标签数据上去预测,然后把高置信度的预测结果作为标注进一步训练模型。
但是怎么量化置信度是个问题,换句话说怎么来判断是否是置信度高呢?一般以往的做法是通过预设的一个门限来卡一下判断,但是这个门限说实话比较难判断,这个边界比较模糊。
基于此,作者通过熵约束来解决这一问题。
总的核心思路就是:有、无监督数据在模型上的预测结果可以分别计算出其对应的一个熵, 如果无监督数据的熵低于有监督数据的熵,那么就认为当前无监督数据的预测结果是置信度高的,是可以作为伪标签的。


需要注意的是,在训练初期,由于模型没有学的很好,所以有监督数据的输出也不可置信,所以以它作为基线也是不可靠的,也就是说一开始有监督数据的输出的熵也比较高,那筛选出来的伪标签数据就比较多,且是不置信的。
作者设置了一个 ,即有 概率被最终归为有监督样本,而有 概率被丟弃掉,这样在一开始的话可以确保更少的伪标签被选出来。当模型训练基本稳定后,即在有监督数据上的预测有一定置信度后,再使用前面说的熵约束。

总结
加噪的一致性学习这里其实感觉还好,不多大新鲜,而后面的熵约束大家可以借鉴的学习一下下
关注
欢迎关注,下期再见啦~
作者介绍