
阿升
2023/01/18阅读:37主题:默认主题
CCKS 2019电子病历命名实体识别
从海量的电子病历文本中识别出与医疗相关的实体名称,并将它们归类到预定义类别,如疾病、治疗、症状、药品等,是电子病历数据挖掘与信息抽取的关键步骤,这一任务通常称之为面向电子病历的命名实体识别。
一.医疗命名实体识别任务定义
1.输入
(1)电子病历的自然语言文本集合:
(2)预定义类别:
2.输出
实体提及和所属类别对的集合:
。其中
是出现在文档
中的医疗实体提及(mention),
和
分别表示
在
中的起止位置,
表示所属的预定义类别。要求实体提及之间不重叠,即
。本任务预定义类别包括:疾病和诊断、检查、检验、手术、药物、解剖部位六大类。
二.数据集及评估方法
1.数据集描述
数据集均由医渡云(北京)技术有限公司提供,并组织专业的医学团队进行人工标注,仅限CCKS竞赛评测用。
2.评估方法
采用传统的精确率(Precision)、召回率(Recall)以及F1-Measure作为评测指标。参赛系统的输出结果集合记为
,人工标注的结果(Gold Standard)集合记为
。集合元素为一个实体提及,表示为四元组
,
表示文档,
和
分别对应实体提及在文档
中的起止下标,
表示实体提及所属预定义类别。
(1)严格指标
定义
与
严格等价,当且仅当:
基于以上等价关系,定义集合 和 的严格交集为 。由此得到严格评测指标:
(2)松弛指标
定义
与
松弛等价,当且仅当:
基于以上等价关系,定义集合 和 的松弛交集为 。由此得到松弛评测指标:
三.典型方法和模型
1.序列标注模型
对预定义类别(属性)的实体进行识别和归类,因此,所有参赛队都将任务视为序列标注问题,采用的主体模型都是CRF、BiLSTM等传统的序列标注模型。
2.混合模型
融合方法是主流,大部分参赛队以多种方式融合了多个模型,如CRF,BiLSTM+CRF,以及BiLSTM+CNN+CRF等,相比于单一模型获得了很大的性能提升。
3.预训练语言模型
基于Bert、ELMo等语言模型在自然语言处理任务中的卓越表现,大多数参赛队在文本预训练中引入Bert等语言模型,评测结果证明这些语言模型的引入能够有效提升医疗命名实体识别的性能。
4.特征工程及规则定义
尽管表示学习方法在通用领域中取得了很大的成功,但是针对临床医疗领域的具体任务,特征工程依然不可或缺,所有的参赛队都进行了大量的特征定义,包括词性标注、拼音特性、词根、偏旁部首以及词典特征等,并搭配使用人工定义规则进行预处理及后处理来提升性能,间接反映出单纯采用嵌入表示、无特征工程的方法在实际的临床医疗文本中并不适用,一个重要的原因在于无法获得高质量大规模的公开电子病历语料进行表示学习训练。
参考文献:
[1]CCKS 2019知识图谱评测技术报告:实体、关系、事件及问答.pdf: https://url39.ctfile.com/f/2501739-763779502-620aeb?p=2096 (访问密码: 2096)
作者介绍

阿升
吾爱DotNet(公众号)