加入收藏 | 设为首页 |

黄天崎-ACL 2019 开源论文 | 运用跨范畴言语建模的跨范畴命名实体辨认

海外新闻 时间: 浏览:182 次

作者丨刘朋伯

校园丨哈尔滨工业大学硕士生

研讨方向丨自然言语处理

本文是西湖大学张岳教师组宣布在 ACL 2019 的一篇文章,提出了一种跨范畴的 NER 办法。代码已开源:

https://github.com/jiachenwestlake/Cross-Domain_NER

研讨布景

命名实体辨认(NER)是 NLP 的基本使命。因为标示资源的约束,跨范畴的命名实体辨认一直是一项具有挑战性的使命。曾黄天崎-ACL 2019 开源论文 | 运用跨范畴言语建模的跨范畴命名实体辨认经的大多数作业都会集在监督场景上,运用源域和方针域的符号数据。这种办法的缺陷是没有充分运用无监督信息,并且许多情况下,方针范畴的监督数据是很少的。

为了处理这一问题,文章运用跨范畴的言语模型(cross-domain LM)作为跨域 NER 的桥连,并规划了一种新颖的参数生成网络。成果标明,文章的办法经过跨域言语模型有用地提取了不同范畴之间的差异。该办法能够无监督地进行范畴自习惯,在无标示数据的方针域做 NER 使命。值得一提的是,在有监督的 NER 范畴自习惯使命上,该办法获得了现在最优的成果。

作者在文中说到了两个“first”:初次运用跨范畴言语模型做跨范畴 NER 使命;初次在实体类型彻底不同的范畴做命名实体辨认的搬迁学习。

相关作业

NER:现在首要运用丁一些深度学习的办法,如 LSTM、CNN-CRF、LSTM-CRF,本文挑选了 Bi-LSTM;

Cross-domain NER:大部分已有的作业都会集有监督学习中,也便是源域和方针域都有标示数据。比方把不同范畴 的实体标签做映射、label embedding 替代实体标签、Bi-LSTM 学习标签标明。最近也有一些根据参数搬迁的跨范畴 NER 办法,便是在源范畴学习到一个模型然后在方针域上 fine-tune。以上大部分办法都只用了跨范畴的 NER 数据,相比之下,本文的办法运用了 NER 语料和生语料,能够完结 NER 使命上的零样本(zero-shot)范畴搬迁。

Learning task embedding vectors:在多使命学习中,已经有一些关于使命向量标明(task vector representations)的相关作业。如在多言语 parsing 使命中学习言语向量(language embeddings),这类办法运用使命向量扩大词向量输入,这样就能够把使命特征融合到词向量中。也有经过学习范畴向量完结多范畴的情感分类使命。可是本文运用范畴向量和使命向量并不是为了作为输入,而是为了得到相应的参数。

模型

全体的模型架构如下图:

输入一个语句,经过同享的嵌入层会得到一个单词级的标明。然后经过参数出产网络核算一系列使命和范畴专属的参数。最终不同的使命与范畴运用不同的输出层。

详细的结构如下:

输入层

输入的数据共有四种:源范畴数据、方针范畴数据、用于言语模型的源范畴和方针范畴的未标示数据。得到数据标明的办法是相同的:词向量与字符向量的 CNN 输出拼接在一起。

参数生成网络

其实文章中的首要模型仍然是 Bi-LSTM+CRF。所以参数生成网络,也便是要动态地生成 Bi-LSTM 的参数,以到达跨范畴跨使命地搬运常识的意图。

W 是维度为 P(LSTM) V U的三维张量,是范畴向量,是使命向量。三者经过张量的 contraction 操作得到最终的参数(contraction 在 TensorFlow 和 PyTorch 上均有完结)。

现在有了输入层的 v 和参数生成网络生成的参数

,咱们能够得到 LSTM 的隐状况输出:

输出层

NER:仍是那个经典的结构:得到了 Bi-LSTM 的输出后,运用 CRF 做输出层。需求留意的是论文中针对源域和方针域别离运用了两个 CRF。

言语模型:言语模型采用了比较传统的 Bi-LSTM 结构,调配负采样,练习前后向的言语模型(估量下一步能够试试换掉言语模型改用 BERT)。

练习方针

整个练习方针由两部分组成,NER 的丢失和言语模型的丢失,全体的丢失函数如下:

范畴的 NER 丢失和言语模型丢失加起来是范畴丢失,范畴丢失乘对应的权重相加,再加最终一项(正则项),便是整个丢失函数。

多使命学习算法

上图是整个多使命学习算法的进程。第 4-5 行、第 7-8 行、第 11-12 行、第 15-16 行别离代表之前说到的四种使命,每种使命都是相同的过程:首要生成参数网络生成对应的 LSTM 网络参数,继而核算梯度并得到 CRF 的输出和 softmax 分 布,最终更新参数。需求留意的是,如果是无监督学习,第 11-12 行能够主动疏忽了。

试验

数据

源范畴的 NER 数据来自 CoNLL-2003,源范畴的言语模型运用来自路透社的 377592 条语句练习。

方针范畴的数据来自三部分:生物医药范畴的 BioNLP13PC (13PC) 和 BioNLP13CG (13CG) 还有一份自己搜集标示的科技范畴的数据集。数据集的计算信息如下表所示:

CoNLL-2003 包含了四种实体类型:PER、LOC、ORG、MISC。BioNLP13PC 包含了五种实体类型:CHEM、CC、 G/p、SPE、CELL,BioNLP13CG 包含三种试实体类型黄天崎-ACL 2019 开源论文 | 运用跨范畴言语建模的跨范畴命名实体辨认:CHEM, CC 和 G/P,方针范畴的言语模型直接运用这些数据集的文本练习。

作者团队自己标示的数据集来自 CBS (https://www.cbsnews.com/)。标示规矩恪守 CoNLL-2013 标示,也是四种实体,和 CoNLL-2013 不同的是,数据会集科技类型的实体居多,比方“Space X”,“bitcoin“和”IP”。相应的,言语模型运用 398990 条为标示语句练习。

超参数

本文的试验是在 NCRF++(记住也是张岳教师团队出品)基础上进行的,有些参数有改动:batch size 变为 30;单使命运用学习率为 0.001 的 RMSprop 优化器,多使命模型运用学习率为 0.015 的 SGD 优化器。为了能在显黄天崎-ACL 2019 开源论文 | 运用跨范畴言语建模的跨范畴命名实体辨认存 8GB 的单 GPU 上运转,范畴向量和使命向量维度均为 8。词向量运用预练习的 100 维 GloVe 向量,字符向量随机初始化。

试验成果

本文对试验成果的剖析仍是很缜密且翔实的。作者在多使命视点、数据视点都有剖析,主张感兴趣的读者看一下原文,更能领会作者的用心。

如上图,STM(单使命模型)与文章模型的比较,能够看出,文章模型一直是优于 STM 的,尤其是方针范畴数据极少时(也能够看做无监督),仍然能坚持 60% 左右的 F1-score。

在有监督的范畴搬迁 NER 上,作者把模型与 STM、多使命(彻底同享参数)、fine-tune 办法进行比照,发现一些类型的实体辨认直接运用多使命办法作用是十分差的,而本文的办法一直是最优的。可见,相同是多使命学习,参数生成网络带来的提高是巨大的。

总结和考虑

文章经过未标示文本抽取范畴常识来完结 NER 范畴自习惯使命。经过参数生成网络跨范畴言语建模,别离得到使命向量和范畴向量。试验标明,有监督时,这种范畴习惯办法十分有用,在无监督时,也能获得必定作用。 本文运用的言语模型便是常见的 BiLSTM,可能是论文写作的时刻原因,不知道作者有没有测验根据 BERT 的办法,感觉十分值得一试。

#

• 稿件确系个人原创著作,来稿需注明作者个人信息(名字+校园/作业单位+学历/职位+研讨方向)

• PaperWeekly 默许每篇文章都是首发,均会增加“原创”标志