Summary

  • 来源: https://www.aclweb.org/anthology/D19-1021, EMNLP | IJCNLP
  • 机构: 清华大学
  • 描述论文作者旨在实现或已经实现的研究目标
    • 学习带标签数据中的关系相似度度量方式,应用于无标注数据,利用关系知识转移实现开放式关系抽取
  • 如果论文中提出了新的方法/技术,那么新方法的关键要素是什么
    • 关系孪生网络
    • 从带标签的数据中学习到关系知识
    • 关系知识转移的方法
    • [[Metric Learning]]
      • 网络提取的embedding
      • 距离函数
  • 这篇论文中哪些内容对你来说是有用的
    • 不同的损失函数
    • 度量学习应用于开放式关系抽取
    • 不同的聚类方法
  • 你还想要继续阅读哪些参考内容
    • [[Metric Learning]]
    • 更适合开放式关系抽取的聚类方法,例如本文使用的Louvain
    • 损失函数设计

摘要

  • 问题:大部分开放式关系抽取使用无监督范式,没有利用知识库和标注数据中的关系事实
  • 提出:利用关系孪生网络学习有监督数据中的关系相似性度量方式,从而迁移关系知识,识别无监督数据中的新关系
  • 实验:significant improvements as compared with other state-of-the-art methods

intro

  • 关系抽取
    • 有监督学习效率高,但是数据构建消耗时间和精力
    • 半监督方法:bootstrapping,主动学习,label propagation
    • 远程监督方法:假设性强,知识库约束
    • 很难覆盖开放文本中的相当多样化的新关系
  • 开放式关系抽取
    • 目的:从开放域文本中抽取出未预先定义过的关系事实
    • Banko 2018年直接从句子中抽取短语作为新的关系类型,但是一般不能精确表达关系,包含相同关系的关系短语很难对齐
    • Yao 2011年使用聚类做开放式关系抽取,但是大部分都是无监督,不能有效选择有意义的关系类型
    • 本文方法:
      • 利用高质量的关系抽取的有监督数据,学习关系相似性度量方式,
      • RSN与有监督、半监督、远程监督方法相结合
      • 数据集:FewRel、FewRel-distant,分割成seen和unseen两部分
      • “RSN是第一次在聚类开放式关系抽取任务中提出知识迁移的概念”–“To the best of our knowledge, RSN is the first model to consider knowledge transfer in clustering-based OpenRE task.”
  • 传统关系抽取其实是分类任务,讲句子中的关系事实分类到预先定义好的关系类型
    • Zeng 2014利用CNN编码器,位置嵌入,句子表示
    • Lin 2016利用instance-level attention提高了远程监督数据上的性能
    • 无法解决一直涌现的开放关系->开放式关系抽取
  • 开放式关系抽取
    • tagging-based
      • 序列标注问题
      • 从句子中抽取关系短语->关系短语太具体,下游任务不易于使用
      • 无监督(banko)和有监督(jia 2018,cui 2018,stanovsky 2018)
    • clustering-based
      • 利用外部nlp工具抽取句子特征,然后进行聚类(lin 2001,yao,2011,2012)
      • Marcheggiani (2016),无监督数据,离散变分自动编码器
  • few-shot learning
    • 只有很少的标记样本,关系分类
    • (Koch et al., 2015)使用卷积孪生神经网络做图片度量学习,从这里获得启发
  • 半监督聚类
    • 给目标类别的实例种子,Bair, 2013;Hongtao Lin, 2019
    • 该方法中的半监督RSN不适用种子,只使用有监督数据

方法

  • 关系相似度计算
    • 学习预测两个句子是否包含相同的关系
    • CNN利用word和pos embedding输出关系向量v
    • 计算绝对距离并映射到[0,1]
    • 交叉熵损失,RSN输出值p作为两个句子包含相同关系的概率值
    • 半监督RSN
      • 模型看到更多种类的数据对于性能是有益处的,所以半监督和远程监督是有必要的
      • 聚类假设,远离高密度区域(Chapelle and Zien, 2005)
      • 损失函数
        • 条件熵损失,远离决策边界,也就是相似概率等于0.5
        • 虚拟对抗损失,搜索数据域,惩罚距离预测变化最大的
    • 远程监督RSN
      • 去除了VAL,因为会放大远程监督中的错误标签
      • 不使用其他降噪方法
        • 噪音对于反例来说影响很小
        • 在关系密度高的区域进行聚类
  • 关系聚类
    • HAC(hierarchical agglomerative clustering)
      • 需要精确的聚类数目->需要实验
    • Louvain
      • 基于图的聚类算法
      • 不需要预先知道聚类数目
      • 二分近似,通过优化社区模块性来寻找合适的聚类数目

实验

  • 数据集
    • FewRel (Han et al., 2018)
      • 每个句子都包含一个独有的实体对,防止记忆实体和关系
      • 64+16关系,1600测试集
    • FewRel-distant
      • 323549+60581自动标注和无标注数据
    • NYT-FB (Marcheggiani and Titov, 2016)
      • 缺点:远程监督,实体对出现多次
  • 实验结果分析
    • RW-HAC,SN-HAC,孪生网络更能捕捉句子关系信息,分布式特征表示,优化信息聚合
    • Louvain性能优于HAC,没有使用额外的约束,关系聚类可能有奇怪的形状,违背了HAC的假设
    • VAT可能放大了噪音数据