营养早餐食谱(带给全家一天好心情，学做10种简单易学又美味营养的早餐)

易学 • 2023年2月11日下午12:46 • 探秘

来源头条作者:AI机器学习与知识图谱

1、Entity Linking定义

实体链接是将文本中提到的实体与其知识库中相应的实体链接起来的任务，是解决实体间存在的歧义性问题。详细来说，给定一个富含一系列实体的知识库与已经标注好mention的语料，实体链接任务的目标是将每一个mention匹配到知识库中它所对应的实体上面，如果知识库中没有mention对应的实体，则认为该mention不可链接到当前知识库，标记为NIL。

2、Entity Linking挑战

(1) 实体链接属于相对下游的任务，其性能受限于中文分词和实体识别的准确性；

(2) 英文有TAC-KBP等公开数据集，标注完整且较为准确，中文相关领域缺乏权威数据集；

(3) 相较于Wikipedia、YAGO、Freebase等知识库，中文百科知识库起步较晚且不成熟；

(4) 实体间会存在高度的歧义性，具体表现为多词同义和一词多义这两个方面，多词同义是指一个实体可以用多个实体指称来表示，比如孙中山，又叫孙文，字载之，都是指孙中山这个人物，而一词多义是指一个实体指称可以表示多个实体，比如阿里巴巴这个指称是一个公司的名，同样也可以指《一千零一夜》中的一个故事人物。

▌

Entity Linking任务应用

1、Question Answering：实体链接是KBQA的刚需，linking到实体之后才能查询图数据库。

2、Content analysis：舆情分析、内容推荐、阅读增强。

3、Information retrieval：基于语义实体的搜索推荐。

4、Knowledge basepopulation：扩充知识库，更新实体和关系。

▌

Entity Linking关键技术

1、指称识别（NER）

1.1 简述

实体链接的第一步得先识别出文本中的实体,被称为NER。命名实体识别(NamedEntity Recognition)是识别出文本中的人名、地名等专有名称和有意义的时间、日期等相关实体并加以归类。而且NER的准确度将直接影响到下有任务实体连接的效果，因此至关重要。

1.2 方案

下面给出一份自2016年以来出众NER模型的相关统计比对信息，供参考(下图感谢周同学的调研工作)，关于NER详细调研内容关注公众号加微信获取。

2、候选实体生成

2.1 简述

候选实体集的生成是根据文本中已有的指称项，去知识库中召回与之相关尽可能多的实体，该过程要求较高的召回率。

2.2 方案

1、构建同义词表

同义词表指的是，名字大致相同的情况。注意与别名词表的区分。可以根据百科中（Wiki百科）的重定向页面，抽取同义词，或者从Wiki百科中首段加粗内容抽取同义词。

2、构建缩写全称映射表

(1) 对于人名，名字扩展成为全称。如Brown扩展成John Brown。(2) 对于大写缩写，可根据库中实体核对首字母。如：IBM扩展成International Brotherhood of Magicians。(3) 对于地名，可根据地名表扩展。如：US扩展为United States。

3、构建别名词表

别名词表，内容大致为名称不太相同，但是意义一致的内容。如：鲁迅与周树人。可根据wiki中的锚文本信息中抽取别名。

4、基于编辑距离召回实体

给定指称项，根据实体计算知识库中候选实体与实体的编辑距离，小于阈值则可以召回。编辑距离：是指两字字符串A、B的字面相似度。是指字符串A到字符串B（增加一个字符，删除一个字符、替换一个字符），所需的最少编辑操作次数。

5、基于词向量相似性召回实体

根据文本训练词向量，将实体的词向量与文本中的词向量计算词向量之间的相似度，例如余弦相似度等。

▌

Entity Linking

前沿文献近20篇

1、Local Neural Attention

论文名称：Deep Joint Entity Disambiguation with Local Neural Attention (EMNLP 2017)

核心思想：本文核心的创新点是提出了一种局部Entity Disambiguation注意力机制，主要思想是只有少数上下文词汇能够提供信息来解释实体模棱两可的含义，大部分的词是无用的，因此将注意力集中在选择消歧决策提供信息的词语，这样模型只关注少量重要的词汇，减少了不必要的噪音词汇。