知识图谱补全

2024-05-18 22:57

1. 知识图谱补全

 前言及背景：在构建知识图谱的过程中，大量知识信息来源于文档和网页信息，在从文档提取知识的过程中往往会有偏差，这些偏差来自于看两方面：（1）文档中会有很多噪声信息，即无用信息，它的产生可能来自于知识抽取算法本身，也可能和语言文字本身的有效性有关；（2）文档信息量有限，不会把所有知识都涵盖进去，尤其是很多常识性知识。   以上都会导致知识图谱是不完整的，所以 知识图谱补全 在构建知识图谱中日益重要。
   往往提到知识图谱构建过程中只是提及了实体和关系的抽取，然后就可以生成实体和关系组成的RDF了。   但是，仅仅获取三元组是不够的，还要考虑这些  ，因为三元组中的实体除了具有属性和关系之外，还可以 映射关联到知识概念层次的类型（type），而且一个实体的类型可以有很多 。    例如：实体奥巴马的类型在不同关系中是有变化的。   在出生信息描述中，类型为人；在创作回忆录的描述中其类型还可以是作家；在任职描述中还可以是政治家。    
                                           
   在这里：人、作家、政治家这些概念之间是有层次的，也就是所说的概念的层次模型。     
   正如前面的例子所描述，一旦一个实体被判别为人这个类型，那么在以构建好的知识模式中，该实体除了人的类型外仍需要向下层概念搜索，以发现更多的类别描述信息。
    本体论和模式 ：实体都可以归结为一种本体，而这种本体会具有一组模式来保证其独特性，这组模式可以用规则来描述，因此，对于本体而言，其可以由这组规则来描述。    例如，奥巴马是个实体，他的本体可以归为人，而人的模式就是可以使用语言和工具、可以改造其他事务等等，这些模式可以通过规则来描述，于是基于描述逻辑的规则推理方法就出现了。 
    描述逻辑 是一种常见的知识表示方式，它建立在概念和关系之上。    比如，可以将关于人的实体实例（可以是文本）收集起来，从中提取出其中模式并以规则的形式记录下来，这样一来，只要遇到一个新的实体实例 ，只需将其代入到之前记录下的规则中进行比较即可做出判断，如果符合规则，就说明该实例可以归类为人的概念类型，否则就判定为非此概念类型。 
   经过基于描述逻辑的规则推理的发展阶段后，机器学习相关研究开始占据主流，此时 不是单纯地利用实例产生的规则等内部线索来进行判断，同时也要利用外部的特征和线索来学习类型的预测 。    对一个未知类型实体e1而言，如果能找到一个与其类似的且已知类型的实体e2的话，那么就可以据此推知实体e1的类型应该与e2的类型一致或至少相似。 
   此类方法主要可以分为：基于内容的类型推理、基于链接的类型推理和基于统计关系学习的类型推理（如，Markov逻辑网）几个方向。
   将嵌入式学习和深度学习引入到类型推理，基于机器学习的类型推理方法大多假设数据中没有噪声，且其特征仍然需要认为选择和设计，引入深度学习可以避免特征工程。而类型推理要依据文本内容，也需要链接结构等其他特征的支持，此时嵌入式方法可以发挥其自身优势。
   可以理解为：对于一个实例三元组（SPO，主谓宾），其中可能缺失情况为（？，P，O），（S，？，O）或者（S，P，？），这就如同知识库中不存在这个三元组，此时需要预测缺失的实体或者关系是什么。
    注意 ：有时知识不是缺失的，而是 新出现 的，即出现了新的三元组，且这个三元组不是原知识库所已知的知识，此时需要将其作为新知识补充道知识库中，但此种情形 不是传统意义的补全 。
                                           ①结构嵌入表示法   ②张量神经网络法   ③矩阵分解法   ④翻译法
   跨知识库补全方法、基于信息检索技术的知识库补全方法、知识库中的常识知识补全
    （1）解决长尾实体及关系的稀疏性。    知名的明星的关系实例会很多，而对于普通民众的实例就很少，但是他们数量却众多，导致其相关的关系实例也是十分稀疏，而且在数量不断增加的情况下，这种情况会更加明显。    （2）实体的一对多、多对一和多对多问题。    对于大规模数据，不是一对十几或者几十数量级那么简单，而是成百上千的数量级，传统的解决方案无法有效深圳根本无法解决此种数量级别的关系学习问题。    （3）三元组的动态增加和变化导致KG的动态变化加剧。    新知识源源不断的产生，而之前的知识可能被后面证明是错误的，或者需要修正的。这些都会使得知识补全的过程也需修正改变，如何使得知识图谱补全技术适应KG的动态变化变得越来越重要，而这方面的技术还未引起足够的重视。    （4）KG中关系预测路径长度会不断增长。    关系预测能推理的长度是有限的，但在大规模知识图谱闪光，实体间的关系路径序列会变得越来越长，这就需要更高效的模型来描述更复杂的关系预测模型。
   参考文献：   [1]王硕,杜志娟,孟小峰.大规模知识图谱补全技术的研究进展[J].中国科学:信息科学,2020,50(04):551-575.

知识图谱补全

2. 知识图谱技术不适合应用在

知识图谱技术不适合应用在（）
A.专家系统、B.故障排查、C.交通管理、D.根因分析
答案：C

3. 知识图谱：方法、实践与应用笔记-第5章知识图谱融合

知识图谱包含描述抽象知识的本体层和描述具体事实的实例层。本体层用于描述特定领域中的抽象概念、属性、公理；实例层用于描述具体实体对象、实体间关系，包含大量的事实和数据。
  
 知识融合是解决知识图谱异构问题的有效途径。知识融合建立异构本体或异构实例之间的联系，从而使异构的知识图谱能相互沟通，实现它们之间的互操作。
  
 
  
  
 
  
  
 
  
  
  （1）语法不匹配 
  
 方法：尽量将不同的语言转化为同样的语法格式
  
  （2）逻辑表示不匹配 
  
 方法：例如，通过定义从语言L1逻辑表示到语言L2的逻辑表示的转换规则
  
  （3）原语的语义不匹配 
  
 注意：采用不同语言的本体交互时，需要注意它们的原语表达意义的差异
  
  （4）语言表达能力不匹配 
  
 方法：需要将表达能力弱的语言向表达能力强的语言转换；但是如果表达能力强的语言并不完全兼容表达能力弱的语言，这样的转换可能会造成信息的损失。
  
 
  
  
  （1）概念化不匹配 
  
  由于对同样的建模领域进行抽象的方式不同造成的。每个人对schema的理解不同，抽象出来的Schema不同。 
  
 a. 概念范围的不匹配
  
 概念差异以及人的主观差异。
  
 b. 模型覆盖的不匹配
  
  模型的广度（领域范围）、模型的粒度（详细程度）、本体建模的观点（从什么角度来描述领域内的知识） 
  
  （2）解释不匹配 
  
  对概念化说明方式不同造成的。 
  
 a. 模型风格的不匹配
  
 i. 范例不匹配。相同的概念会有不同的表示；使用不同的上层本体
  
 ii. 概念描述不匹配。？？本体的构建不同
  
 b. 建模术语上的不匹配
  
 i. 同义术语（自然语言）。car&automobile
  
 ii. 同形异义术语。conductor(指挥家；半导体)
  
 iii. 编码格式。eg:日期(dd/mm/yyyy;mm-dd-yy)
  
 
  
  
   语言层的不匹配可以进行语言之间的转换；模型层的不匹配，可以根据匹配类型的不同选择正确的算法。  
  
 
  
                                          
 
  
  
  （1）基于单本体的集成 
  
 不同本体集成一个大本体，但是这种方法对于其中的每个本体来说时过于庞大的，且推理和查询的时候效率低。
  
  （2）基于全局本体-局部本体的集成 
  
 抽取共同知识构建全局本体，同时各个系统可以拥有自己的本体，称为局部本体（是剔除了共有知识吗？？不是）。需要建立局部本体和全局本体之间的映射。局部本体侧重于特定的知识，全局本体保证不同系统间异构的部分能进行交互。
  
  （1）映射的对象角度 
  
 明确映射应该建立在异构本体的哪些成分之间。
  
 从映射对象来看，可将本体映射分为概念之间的映射和关系之间的映射，其中概念之间的映射是最基本的映射。
  
  （2）映射的功能角度 
  
 明确建立具有何种功能的本体映射。11种
  
  （3）映射的复杂角度 
  
 明确什么形式的映射是简单的，什么是复杂的。
  
   如何发现异构本体间的映射？  
  
 本体映射过程：
  
 （1）导入待映射的本体
  
 （2）发现映射。
  
 （3）表示映射。
  
 发现映射方法：
  
 (1)  基于术语和结构的本体映射
  
 (2) 基于实例的本体映射
  
 (3) 综合方法

知识图谱：方法、实践与应用笔记-第5章知识图谱融合

4. 知识图谱的重要特点。

5. 知识图谱的重要特点。

知识图谱的重要特点。

6. 知识图谱的简介

知识图谱(Mapping Knowledge Domain）也被称为科学知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。具体来说，知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考。迄今为止，其实际应用在发达国家已经逐步拓展并取得了较好的效果，但它在我国仍属研究的起步阶段。

7. 知识图谱基础（一）-什么是知识图谱

笔者是一只已经离职的AI产品经理，主要擅长的方向是知识图谱与自然语言处理，写这些文章是为了总结归纳目前已经搭建的知识体系，也在于科普。如有不对，请指正。
  
 知识图谱在国内属于一个比较新兴的概念，国内目前paper都比较少，应用方主要集中在BAT这类手握海量数据的企业，这个概念是google在2012年提出的，当时主要是为了将传统的keyword-base搜索模型向基于语义的搜索升级。知识图谱可以用来更好的查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。
  
 个人认为，知识图谱最大的优势是在于对数据的描述能力非常强大，各种机器学习算法虽然在预测能力上很不错，但是在描述能力上非常弱，知识图谱刚好填补了这部分空缺。
  
 知识图谱的定义非常多，我这里提供一部分我自己的理解：
  
 1.知识图谱主要目标是用来描述真实世界中存在的各种实体和概念，以及他们之间的强关系，我们用关系去描述两个实体之间的关联，例如姚明和火箭队之间的关系，他们的属性，我们就用“属性--值对“来刻画它的内在特性，比如说我们的人物，他有年龄、身高、体重属性。
  
 2.知识图谱可以通过人为构建与定义，去描述各种概念之间的弱关系，例如：“忘了订单号”和“找回订单号”之间的关系
  
 知识库目前可以分为两种类型：Curated KBs 和 Extracted KBs
  
   Curated KBs  ：以yago2和freebase为代表，他们从维基百科和WordNet等知识库抽取了大量的实体及实体关系，可以把它理解城一种结构化的维基百科。
  
  
   Extracted KBs  ：主要是以Open Information Extraction (Open IE),  Never-Ending Language Learning (NELL)为代表，他们直接从上亿个网页中抽取实体关系三元组。与freebase相比，这样得到的实体知识更具有多样性，而它们的实体关系和实体更多的则是自然语言的形式，如“姚明出生于上海。” 可以被表示为(“Yao Ming”, “was also born in”, “Shanghai”)。直接从网页中抽取出来的知识，也会存在一定的噪声，其精确度低于Curated KBs。
  
  
 a)“姚明出生于上海”
  
  
 b)“姚明是篮球运动员”
  
 c)“姚明是现任中国篮协主席”
  
 以上就是一条条知识，把大量的知识汇聚起来就成为了知识库（Knowledge Base）。我们可以从wikipedia，百度百科等百科全书获取到大量的知识。但是，这些百科全书的知识是由非结构化的自然语言组建而成的，这样的组织方式很适合人们阅读但并不适合计算机处理。
  
 
  
                                          
 
  
  
 为了方便计算机的处理和理解，我们需要更加形式化、简洁化的方式去表示知识，那就是三元组（triple）。
  
  
 “姚明出生于中国上海” 可以用三元组表示为(Yao Ming, PlaceOfBirth, Shanghai)[1]。这里我们可以简单的把三元组理解为(实体entity,实体关系relation,实体entity)。如果我们把实体看作是结点，把实体关系（包括属性，类别等等）看作是一条边，那么包含了大量三元组的知识库就成为了一个庞大的知识图。
  
 有些时候会将实体称为topic，如Justin Bieber。实体关系也可分为两种，一种是属性property，一种是关系relation。如下图所示，属性和关系的最大区别在于，属性所在的三元组对应的两个实体，常常是一个topic和一个字符串，如属性Type/Gender，对应的三元组（Justin Bieber, Type, Person），而关系所在的三元组所对应的两个实体，常常是两个topic。如关系PlaceOfBrith，对应的三元组（Justin Bieber, PlaceOfBrith, London）。
  
 
  
                                          
 （图中蓝色方块表示topic，橙色椭圆包括属性值，它们都属于知识库的实体；蓝色直线表示关系，橙色直线表示属性，它们都统称为知识库的实体关系，都可以用三元组刻画实体和实体关系）
  
  
 这里只是简单介绍一下数据结构，知识表达这一块会在《知识图谱基础（二）-知识图谱的知识表达系统》中详细讲解。
  
 读者只要记住，freebase的基础知识表达形式：(实体)-[关系]-(实体)，(实体)-[关系]-(值)即可，参考图3，姚明和叶莉的关系。
  
 
  
                                          
 通过知识图谱，不仅可以将互联网的信息表达成更接近人类认知世界的形式，而且提供了一种更好的组织、管理和利用海量信息的方式。下图是笔者整理的知识图谱有关的应用，接下来的一些文章笔者会对下面的应用进行剖析。
  
  
 
  
                                          
 
  
  
 从图4上看，知识图谱的应用主要集中在搜索与推荐领域，robot（客服机器人，私人助理）是问答系统，本质上也是搜索与推荐的延伸。可能是因为知识图谱这项技术（特指freebase）诞生之初就是为了解决搜索问题的。知识存储这一块可能是企查查和启信宝这些企业发现使用图结构的数据比较好清洗加工。
  
 在语义搜索这一块，知识图谱的搜索不同于常规的搜索，常规的搜索是根据keyword找到对应的网页集合，然后通过page rank等算法去给网页集合内的网页进行排名，然后展示给用户；基于知识图谱的搜索是在已有的图谱知识库中遍历知识，然后将查询到的知识返回给用户，通常如果路径正确，查询出来的知识只有1个或几个，相当精准。
  
 问答系统这一块，系统同样会首先在知识图谱的帮助下对用户使用自然语言提出的问题进行语义分析和语法分析，进而将其转化成结构化形式的查询语句，然后在知识图谱中查询答案。

知识图谱基础（一）-什么是知识图谱

8. 知识图谱在知识工程中，处于什么样的地位或起什么样的作用

知识图谱工程，是计算机科学、信息科学、情报学当中的一个新兴领域，旨在研究用于构建知识图谱的方法和方法学。知识图谱工程乃是一个新兴的研究和应用领域，关注的是知识图谱开发过程、知识图谱生命周期、用于构建知识图谱的方法和方法学以及那些用于支持这些方面的工具套装和语言
在过去的四年时间里，人们对于各种知识图谱的关注日益增强。如今，知识图谱已广泛应用于知识工程、人工智能以及计算机科学领域；同时，知识图谱还广泛应用于知识管理、自然语言处理、电子商务、智能信息集成、生物信息学和教育等方面以及语义网之类的新兴领域。知识图谱旨在明确特定领域的那些隐含在软件应用程序以及企业机构和业务过程当中的知识可视化。知识图谱工程为解决各种语义障碍所造成的互操作性问题提供了一个前进的方向。其中，语义障碍指的也就是那些与业务术语和软件类的定义相关的障碍和问题。知识图谱工程是一套与特定领域之本体开发工作相关的任务。

知识图谱补全

1. 知识图谱补全

2. 知识图谱技术不适合应用在

3. 知识图谱：方法、实践与应用笔记-第5章 知识图谱融合

4. 知识图谱的重要特点。

5. 知识图谱的重要特点。

6. 知识图谱的简介

7. 知识图谱基础（一）-什么是知识图谱

8. 知识图谱在知识工程中，处于什么样的地位或起什么样的作用

3. 知识图谱：方法、实践与应用笔记-第5章知识图谱融合