本文共 4385 字,大约阅读时间需要 14 分钟。
作者:任重灿
单位:燕山大学论文来源:ACL2019
在该论文中,研究了仅使用无标记的数据和命名实体字典,来进行命名实体识别(NER)的方法。为此,该文将任务定义为一个正无标记(positive-unlabeled, PU)学习问题,并据此提出了一种新的PU学习算法,可以无偏且一致地估计任务损失,效果如同有全标记数据。 该方法的创新点在于使用半监督的方式进行NER,它不要求词典标注句子中的每个实体,甚至不要求词典标注构成一个实体的所有单词。这大大降低了对词典质量的要求,使其能够很好地适用于非常简单的词典。监督方法在NER上取得了巨大的成功。然而,监督方法通常需要大规模的细粒度注释,使得难以应用于标记较少的领域,如生物/医学领域。该论文探索了仅使用无标记数据和命名实体字典进行NER的方法。
NER很自然的方法,即使用字典扫描文本,并匹配其中的实体。然而,这种方法需要非常高质量的命名实体字典。如下图所示,若字典质量较低,则该方法效果很差 为了解决这个问题,一个直观的方法是使用字典标记的数据进一步进行监督或半监督学习。但是,由于它不能保证词典涵盖了一个句子内的所有实体词(实体的词),所以不能简单地将未被词典标记的单词视为非实体词。这时,传统的监督或半监督学习算法并不适用,因为它们通常需要所有类的标注数据。为此,该文提出将任务定义为正无标记(PU)学习问题,并引入一种新的PU学习算法来进行该任务:有标记的实体词形成正§数据,其余的形成无标记(U)数据,用于PU学习。该算法可以无偏且一致地估计任务损失,前提是标记的P数据可以揭示P类的数据分布。
由于字典只覆盖了部分实体,它不能完全揭示实体词的数据分布。为了解决这个问题,又基于AdaSampling提出了一种自适应方法来扩充字典。
这里用条件概率,证明了只需要用无标签的正例就能无偏地预测 R l R_l Rl。 无偏性即,样本统计量的数学期望等于被估计的总体参数的值。
无偏 正-无标签学习(uPU)旨在在只有一组正例和一组无标记例时估计 R l R_l Rl。 R l R_l Rl也可以表示为
其中, π p = P ( Y = 1 ) , π n = P ( Y = 0 ) π_p= P(Y =1), π_n= P(Y = 0) πp=P(Y=1),πn=P(Y=0)。 E X , Y = 1 l ( f ( x ) , 1 ) E_{X,Y=1}l(f(x),1) EX,Y=1l(f(x),1)可以由正样本高效计算。因此,PU学习的主要问题是如何在不使用负标记数据的情况下估计 E X , Y = 0 l ( f ( x ) , 0 ) E_{X,Y=0}l(f(x),0) EX,Y=0l(f(x),0)。于是 由 P ( Y = 0 ) P ( X ∣ Y = 0 ) = P ( X ) − P ( Y = 1 ) P ( X ∣ Y = 1 ) P(Y = 0)P(X|Y = 0) = P(X) − P(Y = 1)P(X|Y = 1) P(Y=0)P(X∣Y=0)=P(X)−P(Y=1)P(X∣Y=1),可知上式成立。总体上, R l R_l Rl可以由下式进行无偏的估计:
式中, x i u x_i^u xiu和 x i p x_i^p xip分别表示一个无标签例和正例, n u n_u nu和 n p n_p np分别表示无标记例和正例的个数。证明一致性。 一致性即,随着样本容量的增大,估计量的值越来越接近被估计的总体参数。
该节内容较难懂,暂且跳过。W W W:单词级输入随机变量
S S S:句子级输入随机变量 D e D_e De:给定实体类型的实体字典 D D D:未标记的数据集 D + D^+ D+:由 D e D_e De标记的实体词集合 D u D^u Du:剩余的无标记词集合在这项工作中,将正负标签分配机制应用于NER任务,而不是流行的BIO或BIOES机制。实体词被映射到正类,非实体词被映射到负类。这是因为,正如之前所讨论的,词典不能保证涵盖一个句子中的所有实体词。它只能标记实体中开头(B)、内部(I)或最后(E)的单词,因此无法区分标注的实体词属于哪一种类型。
使用最大匹配算法以获得 D + D^+ D+,这是一种贪心算法,遍历一个句子,从句子中给定的点开始,找到与字典中的一个条目匹配的最长字符串。算法的一般过程如下。
使用一个基于神经网络的体系结构来实现分类器f,这个体系结构被不同的实体类型共享。
上下文无关的词表示由三部分组成:
三种词向量拼接
输入到BiLSTM 通过sigmoid分类其中
PU分类器被训练后,可用它来执行标签预测。由于为每个实体类型构建了不同的分类器,因此一个实体可能被不同的分类器预测为不同的类型。选择具有最高预测概率的类型。解决类型冲突后,将同类型分类器预测为正类的连续词作为一个实体处理,得到最终的实体单词标签预测。
在PU学习中,使用标记正数据的经验风险,来估计正数据的期望风险,这要求正数据 x i p x_i^p xip与分布 P ( X ∣ Y = 1 ) P(X|Y=1) P(X∣Y=1)相独立。若使用一个简单的字典来进行数据标记,这种要求很难满足。于是该文提出了一种基于AdaSampling算法的自适应方法。
该方法的核心思想是自适应地扩充命名实体字典。具体来说,首先训练一个PU学习分类器 f f f,并使用它来标记未标记的数据集。基于预测的标签,提取所有预测的实体。对于一个被预测的实体,如果它出现超过k次,并且它在未标记数据集中的所有出现都被预测为实体,则将在下一次迭代中将其添加到实体字典中。重复该过程至字典不再改变。实证研究以下内容:
该文提出的自适应PU学习(Adapted PU learning, AdaPU)算法,与5个基线进行比较。
此外,与几个具有代表性的监督方法进行比较。
CoNLL(en)
CoNLL(sp) MUC TwitterTable 1列出了使用Algorithm 1对这些字典进行数据标注结果的一些统计信息。
从表中可以看出,数据标注的精度是可以接受的,但召回率很低。这是预料之内的,也是只使用字典进行NER的典型问题。
整体性能
Table 3显示了按实体类型划分的模型性能和四个测试数据集上的整体性能,可以观察到:未标记数据的影响
分别使用CoNLL (en)训练数据集的20%、40%、60%、80%、100%和300%(使用额外的未标记数据)对AdaPU进行训练。Figure 2描述了对PER、LOC和ORG的研究结果。可以看出,增加训练数据的大小一般会提高AdaPU的性能,但这种提高是递减的。 字典的影响 使用DBpedia扩展了字典,Table 4列出了生成字典的统计信息,Table 5列出了使用该字典的模型性能。对结果的一个值得注意的观察是,在LOC上,当使用扩展字典时,性能下降很多。这意味着在使用扩展字典时,它在PU学习中引入了更多的假阳性例子。 π p π_p πp的影响。 Table 6列出了AdaPU在使用Table 2中 π p π_p πp的真值或估计值时的性能。从表中可以看出,使用π估计的模型仅略低于使用 π p π_p πp的真值的模型。说明了该模型对 π p π_p πp的小变化具有鲁棒性,并验证了π估计方法的有效性。对该论文中的工作总结如下:
该论文较为难懂,以翻译为主,阅读得比较粗糙,日后如有需要再做补充。
转载地址:http://khmgi.baihongyu.com/