Introduction

  • These methods mainly focus on training models with large amounts of human annotations to classify two given entities within one sentence into pre-defined relations.
  • 现实情况下会更加复杂:
    • 高质量人工标注数据代价高
    • 关系抽取数据存在长尾现象
    • 大部分的事实数据是出现在更大的上下文中,多个句子中
    • 预先定义好的关系集合无法覆盖所有实际存在的关系
  • 概括出四个可行的方向
    • 利用更多的数据
      • [[Distant Supervision|远程监督]]
      • 但是,DS带来标签错误问题,单个句子包含实体对
      • 如何利用远程监督或者其他方法来获取高质量、大规模的数据去训练?
    • 更有效率的学习
    • 更加复杂的上下文
      • 现在的大部分模型都是抽取单句内的关系,两句或更大的上下文还无法很好的利用
    • 开放域
    • 关键挑战
      • [[Peng et al_2020_Learning from Context or Names|learning from text or names]]
      • datasets towards special interests

Background and ExistingWork

  • 一个完整的关系抽取系统
    • 命名实体识别
    • 实体链接到知识图谱(如果使用KGs的话)
    • 关系分类器

Pattern Extraction Models

  • 自动构建模式规则
  • 更大的数据集
  • 更多模式格式
  • 这部分工作大部分都需要人类专家的检验,也是主要的限制

Statistical Relation Extraction Models

  • 覆盖更多的内容,基本不需要人类干预
  • feature-based methods
    • 设计词汇的、句法、语义的特征
  • kernel-based methods
    • 比较关系的表示和句子之间的相似度
  • Graphical methods
    • 利用无环图来抽象实体、句子、关系之间的依赖,从而判断关系类型
  • embedding models
    • 把文本编码成低维度的向量表示
  • challenges
    • 需要人工设计特征和核函数
    • 模型容量

Neural Relation Extraction Models

  • recursive neural networks,CNN,RNN,GNNs,attention-based
  • [[Word Embedding|词嵌入]]
    • 输入文本的语义表示
  • [[Positional Embeddings|位置嵌入]]
    • 词语和实体之间的相对距离
  • 预训练模型等

“More” Directions for RE

Utilizing More Data

  • 缺少高质量,大规模数据
  • 远程监督和启发式方法可以产生大规模的数据
  • 但是,不可避免带来噪音标签
  • 所以降噪:
    • 从multi-instance中选择最具有信息的
    • 利用额外的上下文信息:KGs,多语言语料
    • 利用复杂的机制和训练策略
      • 强化学习重新打标签[[Chen et al_2020_Relabel the Noise]]
  • 还存在问题:
    • 目前的远程监督方法比较古老2009年,更好的远程监督机制
    • 无监督或者半监督方法
  • Wiki-Distant

Performing More Efficient Learning

  • 长尾现象,数据分布不均
  • [[Han et al_2018_FewRel]]FewRel数据集
    • N way k shot
    • 去学习例子更好的表示
  • 元学习
    • 学习如何去学
    • 参数初始化和优化
  • Few-shot领域迁移
  • Few-shot NOTA
  • 评价标准,目前的Fewshot更偏向于拟合句子表示,而不是真正的学习语义

Handling More Complicated Context

  • 需要阅读、记忆、推理
  • 更多形式的上下文信息:对话、文档等等
  • 利用搜索引擎获取外部知识

Orienting More Open Domains

  • 开放信息抽取
    • 从句子中抽取实体和关系
  • 关系发现
    • 从无监督数据中发现
    • 聚类
    • 生成
  • 问题:
    • 关系规范化
    • N/A类型,并不是每个实体对都存在关系

Other Challenges

Learning from Text or Names

  • 实体和上下文都提供了重要的信息

RE Datasets towards Special Interests

  • 针对具体问题的数据集基本没有,例如跨句子的关系抽取数据集
  • 构建结构清晰,设计优秀的细粒度特定问题的数据集是相当有必要的