论文笔记 - Prototypical Representation Learning for Relation Extraction
问题 针对有监督数据集,大部分模型都能够处理的很好,但是数据量小,人工标注成本高。所以使用远程监督(启发式规则)的方法自动构造数据,不可避免会带有大量噪音标签 但是遇到远程监督数据集效果一般不好 远程监督数据集含有大量的标签噪音 语言的表达多种多样 解决办法 预训练-微调范式 先在大规模远程监督数据集上预训练,然后针对不同的任务在目标数据集上微调 FuzzyRED dataset 验证本文方法是否能捕捉到句子潜在的语义信息 学习句子statement的representation 指示函数包含相同关系返回1,否则0 相似度计算,对长度归一化 为什么不用点乘,作者回复说是选择这个loss是为了模型在几何上的可解释性 而点积会导致公式计算时出现问题 这里是沿用了[[Baldini SoaresL(2019)_Matching the Blanks]]中的loss 但是并没有做消融实验验证这个相似度计算方法是否比点乘优秀 存在一个问题,当$s_i$和$s_j$距离近时,这个相似度应该是高的,但是这个式子得出的值实际上会很小,所表达的应该是不相似度,这个问题在rebuttal的时候也被提出来了 分子让具有相同关系的statement距离更近,分子让其他不同关系分离开 1Vn,negative pairs具有更大的权重 statements和proto 第一个式子表示,对于一个关系的 proto 来说,同类的 instance 要近,不同类的要远;第二个式子表示,对于一个 instance 来说,要跟自己的 proto 近,跟别的 proto 远 关系r的prototype和包含r的statements距离要比其他关系的statements要小 包含r的statements和关系r的prototype距离要比其他关系的prototype要小 交叉熵proto是直接求质心,本文是计算与各个样本、其它 proto 相互位置关系,这样抗噪性能显著增强,分类边界受噪声样本的干扰明显变小 实验 实验设置 数据 aligning relation tuples from the Wikidata database to Wikipedia articles more than 0....