Survey

大致框架基于四个不同的方向给PTM分类如何将PTM的知识应用到下游任务中去未来的研究中PTM潜在的几个方向本文旨在帮助研究者理解、使用和发展各种NLP任务下的PTM 介绍现在NLP任务主要是应用神经网络模型，一个优势是避免了[[Feature engineering|特征工程]]问题。而非神经网络一般相当依赖离散的手动构建的特征。现如今神经网络都是使用低维度、密集的向量（[[Distributed Representation]]）来隐含地表示表示语言的句法或语法特征。相比[Computer Vision]，NLP领域的进展就比较小了，主要是因为大多数监督NLP任务的数据集太小（机器翻译除外）,大数量的模型参数在小数据上训练经常产生过拟合的现象，所以早期的NLP模型大多是窄模型，且只有1-3层。预训练模型在大语料库上可以学习到通用的语言表示，而且不用从头开始训练一个新模型。第一代预训练模型主要目的是为了更好地学习词嵌入表示。计算效率上有些低，不考虑上下文信息，所以也就不能捕获更深层的特征信息，存在一些问题：polysemous disambiguation, syntactic tructures, semantic roles, anaphora。主要代表：Skip-Gram [Distributed representations of words and phrases and their compositionality] and GloVe [GloVe: Global vectors for word representation]. 第二代PTMs主要重点在于学习上下文词嵌入例如：CoVe [Learned in translation: Contextualized word vectors], ELMo [Deep contextualized word representations], [[Radford et al_Improving Language Understanding by Generative Pre-Training|OpenAI GPT]] and [[Devlin et al_2019_BERT|BERT]]。下游NLP任务还是需要这些训练过的编码器来表示上下文的词。详细框架 PTMs中的背景知识、常用的符号 PTMs一个简短的总结以及分类 PTMs的扩展如何应用到下游任务 PTMs的相关资源 NLP任务的集合现在的挑战以及未来的方向背景知识语言表示学习 a good representation should express general-purpose priors that are not task-specific but would be likely to be useful for a learning machine to solve AI-tasks....

Introduction These methods mainly focus on training models with large amounts of human annotations to classify two given entities within one sentence into pre-defined relations. 现实情况下会更加复杂：高质量人工标注数据代价高关系抽取数据存在长尾现象大部分的事实数据是出现在更大的上下文中，多个句子中预先定义好的关系集合无法覆盖所有实际存在的关系概括出四个可行的方向利用更多的数据 [[Distant Supervision|远程监督]] 但是，DS带来标签错误问题，单个句子包含实体对如何利用远程监督或者其他方法来获取高质量、大规模的数据去训练？更有效率的学习更加复杂的上下文现在的大部分模型都是抽取单句内的关系，两句或更大的上下文还无法很好的利用开放域关键挑战 [[Peng et al_2020_Learning from Context or Names|learning from text or names]] datasets towards special interests Background and ExistingWork 一个完整的关系抽取系统命名实体识别实体链接到知识图谱（如果使用KGs的话）关系分类器 Pattern Extraction Models 自动构建模式规则更大的数据集更多模式格式这部分工作大部分都需要人类专家的检验，也是主要的限制 Statistical Relation Extraction Models 覆盖更多的内容，基本不需要人类干预 feature-based methods 设计词汇的、句法、语义的特征 kernel-based methods 比较关系的表示和句子之间的相似度 Graphical methods 利用无环图来抽象实体、句子、关系之间的依赖，从而判断关系类型 embedding models 把文本编码成低维度的向量表示 challenges 需要人工设计特征和核函数模型容量 Neural Relation Extraction Models recursive neural networks，CNN，RNN，GNNs，attention-based [[Word Embedding|词嵌入]] 输入文本的语义表示 [[Positional Embeddings|位置嵌入]] 词语和实体之间的相对距离预训练模型等 “More” Directions for RE Utilizing More Data 缺少高质量，大规模数据远程监督和启发式方法可以产生大规模的数据但是，不可避免带来噪音标签所以降噪：从multi-instance中选择最具有信息的利用额外的上下文信息：KGs，多语言语料利用复杂的机制和训练策略强化学习重新打标签[[Chen et al_2020_Relabel the Noise]] 还存在问题：目前的远程监督方法比较古老2009年，更好的远程监督机制无监督或者半监督方法 Wiki-Distant Performing More Efficient Learning 长尾现象，数据分布不均 [[Han et al_2018_FewRel]]FewRel数据集 N way k shot 去学习例子更好的表示元学习学习如何去学参数初始化和优化 Few-shot领域迁移 Few-shot NOTA 评价标准，目前的Fewshot更偏向于拟合句子表示，而不是真正的学习语义 Handling More Complicated Context 需要阅读、记忆、推理更多形式的上下文信息：对话、文档等等利用搜索引擎获取外部知识 Orienting More Open Domains 开放信息抽取从句子中抽取实体和关系关系发现从无监督数据中发现聚类生成问题：关系规范化 N/A类型，并不是每个实体对都存在关系 Other Challenges Learning from Text or Names 实体和上下文都提供了重要的信息 RE Datasets towards Special Interests 针对具体问题的数据集基本没有，例如跨句子的关系抽取数据集构建结构清晰，设计优秀的细粒度特定问题的数据集是相当有必要的

Survey

论文笔记 - Pre Trained Models for Natural Language Processing

论文笔记 - More Data, More Relations, More Context and More Openness: A Review and Outlook for Relation Extraction