知识图谱研讨实录08丨肖仰华教授带你读懂知识图谱的质量控制

以下文章来源于知识工场，作者知识工场

知识图谱是一种大规模语义网络，已经成为大数据时代知识工程的代表性进展。

知识图谱技术是实现机器认知智能和推动各行业智能化发展的关键基础技术。由复旦大学肖仰华教授策划的《知识图谱：概念与技术》课程体系，已在国内进行了多次巡回演讲，受到参会人员一致好评。

课程主要目的和宗旨是系统讲述知识图谱相关知识，让同学们对知识图谱的理论和技术有一个系统的认知。本实录来自该课程老师和同学的研讨。

下面让我们通过第八章课程《知识图谱的质量控制》的15条精华研讨，来进一步学习了解知识图谱技术内幕。文末可查看更多章节精华回顾。

本课程配套教材《知识图谱：概念与技术》。

/ 以下为课程第8章《知识图谱的质量控制》的研讨实录 /

1丨质量评估有哪些维度？分别考察知识图谱的什么特性？

同学代表性回答：

准确性：考察知识图谱中各类知识的准确程度；

致性：考察知识图谱中的知识表达是否一致；

完整性：考察知识图谱对某领域知识的覆盖程度；

时效性：考察知识图谱中的知识是否为最新知识。

2丨常见的质量评估方法有哪些？分别如何评估？

同学代表性回答：

回答1 ：

准确性：考察知识图谱中各类知识的准确程度；

一致性：知识图谱中的知识表达是否一致；

完整性：知识图谱对某领域知识的覆盖程度；

时效性：知识图谱中的知识是否为最新知识。

回答2 ：

人工抽样检测法：由领域专家进行抽样质量检测与评估；

一致性检测法：通过专家预先制定的一致性检测规则检测知识图谱中的知识冲突；

基于外部知识的对比评估法：使用与目标知识图谱有较高重合度的高质量外部知识源作为基准数据，对目标知识图谱进行质量检测。

3丨质量控制可以发生在知识图谱全周期的哪些环节？

同学代表性回答：

回答1：贯穿于知识图谱构建的全周期：前中后。

回答2：数据来源、知识获取、知识融合、质量维护。

回答3：构建前：数据来源；构建中：知识获取，知识融合；构建后：质量维护。

回答4：

质量控制贯穿于知识图谱构建的全周期，涉及知识图谱构建前、中、后三个阶段的质量控制。

构建前：主要在于对数据源的质量控制，即对于获取知识的数据源头做质量评估与控制。

构建中：主要是知识获取手段和知识融合阶段的质量控制。

构建后：知识图谱在完成初步构建后，需要对其质量进行进一步的完善与常规维护，例如补全缺失的知识，矫正错误的知识等。

4丨什么是语义漂移？举例说明语义漂移是如何产生的。

同学代表性回答：

回答1：

语义漂移即在基于模式的迭代式抽取过程中，由于上一轮发生抽取错误而引入其他语义类中的实体或跨语义类的多义实例，导致后续轮次所抽取实例的语义类与目标语义类相距甚远。比如“chicken”既可以指“鸡”，又可以指“鸡肉”，可能会引入beff等错误。以发现和抽取 animal 主义类下的实体为例，给定种子集合 {dog, cat, horse}，在发现更多实例时可能会抽取到 computer 这样的错误结果，从而越错越离谱。

回答2：

自增迭代式的抽取最终都会倾向于抽取到一些含义模糊的实例与目标语义类相关性较弱的上下文模式，导致开放式自动信息抽取系统的抽取质量的降低。例如“北京”是中国的“capital city”, “华盛顿”是美国的“capital city” ，抽取到“广州”是广东的“capital city”。

回答3：

在基于模式的迭代式抽取过程中产生一些与种子不相关的实例，然后这些不相关实例再次进入迭代，在后续轮次中频繁产生其他不相关实例。举个例子，种子：“陈奕迅唱了红玫瑰”，“”绅士的歌手是薛之谦“。模式：”XXX的歌手是XXX“，”XXX唱了XXX“这些模式，但学到的新关系实例中就会存在“刘瑞琦唱了《稻香》”，显然，刘瑞琦只是翻唱，并不是这首歌的原唱。

5丨构建前的质量控制有哪些核心问题？如何解决？

同学代表性回答：

回答1：

评估知识来源的质量。针对互联网数据源的质量控制主要采用利用信息权威性作为指标，利用 PageRank 等算法针对网页（粒度更细）进行评估。众包质量控制的粗粒度的方法是评估众包工人的可信度，然后将众包工人的可信度赋予其所提供的知识可信度；更细粒度的方法是通过让多个众包工人完成同一个知识任务，然后对比结果从而判定知识的可信度。

回答2：

核心问题是衡量信息源，对数据来源进行可信性评估；对于浅网数据，可以通过网站网址的后缀评估网站可信度，以网页为基本单元；深网数据可以通过数据记录之间的匹配与关联形成网络，然后用PageRank等算法来评估各条数据记录的可信度；众包数据可以使用黄金标准数据评估，利用冗余信息标志正确答案的方法。

6丨构建后的知识图谱质量控制有哪些具体任务？

同学代表性回答：

缺失知识的发现与补全：初步构建完的知识图谱往往会因为所采用的的知识源对知识的覆盖不全而缺失大量相关知识，因此需要补全。

错误知识的发现与纠正：不论在知识图谱构建过程中质量控制如何严格，总会引入一些错误知识，为避免错误知识的副作用，需要纠正。

过期知识的更新：知识图谱中的知识存在时效性，根据时效性的要求更新知识。

7丨SDType算法的核心思想是什么？

同学代表性回答：

回答1：

知识补全（实体类型补全、实体关系补全、属性值补全），知识纠错与知识更新（错误实体类型检测、错误实体关系检测、错误属性值检测、过期知识检测与更新）

回答2：

SDType算法统计实体的可能谓词作为中间变量，推断一个实体具有某个类型的可能性。计算各个关系对应的头实体和尾实体的概念类型的先验概率分布对于给定实体，考察所在三元组的关系，根据关系对应的头尾实体概念分布，算出该实体可能的概念的概率得分。

回答3：

该方法通过考察知识图谱中与实体相关的信息来构建一些启发式规则或概率模型，它通过统计实体的可能谓词作为中间变量，推断一个实体具有某个类型的可能性。

8丨缺失知识的补全方法有哪些？

同学代表性回答：

回答1：

1) 类型补全：基于已有词典、基于在线百科、启发式概率模型、基于协同过滤思想、基于特征工程的深度模型、基于知识表示学习的思想；

2) 实体关系补全：基于信息抽取技术的方法，基于传统知识学习的方法、基于表示学习的方法；

3) 实体属性和属性值的补全：缺失属性问题转化为概念必有属性的发现问题。缺失属性值的补全方法大致分为：基于众包的补全法、基于搜索引擎的补全法和基于文本的补全法。

回答2：

基于内部知识的关系补全

概率图模型：马尔可夫洛基王及其衍生方法、路径排序算法、基于表示学习的模型。

基于外部数据的关系补全

直接方法是利用外部丰富的文本增强实体的表示以提高推断缺失关系的准确率、ConMask模型。

9丨基于内部知识的关系补全和基于外部知识的关系补全的基本思想分别是什么？各有哪些经典的方法？

同学代表性回答：

基于内部知识的关系补全：

1. 概率图模型：为知识图谱上的每一条候选知识附上一定的概率，用于衡量该候选知识的合理性，通过概率推理发现缺失关系。

2. 路径排序算法：用连接两个实体的路径作为特征，来预测两个实体间的关系。

3. 基于表示学习的模型：首先在低维向量空间中对知识图谱中的实体和关系进行表示，然后在每个知识条目上定义一个基于三元组的打分函数，用之前给定的知识表示形式作为参数，判断三元组或者事实成立的可能性。

基于外部数据的关系补全：

1. 将外部信息投影到隐式的向量空间：利用外部丰富的文本增强实体的表示以提高推断缺失关系的准确率。

2. 显式利用外部信息。

10丨知识图谱的属性值补全与关系数据库属性值补全有何差别显式众包的任务方式有哪些设计原则？

同学代表性回答：

回答1：

关系型数据库是用来存放关系型结构化数据的，关系型数据库要求数据库的模式设计统一、严谨，但是数据库中数据本身的正确性对于数据库并不重要。知识图谱存放的是人类公认的知识，对于模式是否统一、严谨要求并不严格，但对知识本身的质量却要求极高。

回答2：

补全对象不同：

知识图谱的属性值补全可以看作是很多小关系表的缺失属性值补全；关系数据库属性值补全一般为单一关系表内的缺失属性值，结构较为统一简单；

缺失是否显性：

知识图谱的属性值缺失是隐式的，关系数据库属性值缺失是显式；

补全要求不同：

知识图谱对模式是否统一、严谨往往要求并不严格，但对知识本身的质量却要求很高；关系数据库要求数据库的模式设计统一、严谨，但是数据库中数据本身的正确性对于数据库而言并不重要。

11丨枚举典型性的判断属性是否缺失的规则？

同学代表性回答：

属性的重要程度，参考同一概念下的其他实体，参考相似实体，模式匹配，属性值的部分完整性。

12丨错误实体类型检测有哪几个典型方法？

同学代表性回答：

回答1：概念互斥关系，根据知识图谱中的知识来推断可能出错的实体类型。

回答2：通过关联规则挖掘，发现实体的互斥概念对来判断。

13丨知识图谱更新有哪几类方法？

同学代表性回答：

基于更新频率预测的更新机制、基于时间标签的更新机制、基于热点事件发现的更新机制。

14丨基于热点事件发现的更新机制基本思想是什么？具体如何实现？

同学代表性回答：

回答1：

知识图谱中经常更新的知识往往源自少数热门实体，且热门实体的信息更新往往在热点事件或热词的出现。该机制对互联网上的热词进行实时监控，识别出热门实体并将其百科页面信息同步到知识库中。四个步骤：种子实体发现、种子实体更新、实体扩展、扩展实体更新。

回答2：

通过互联网发现一些热词，可能来源于热点新闻的实体，被当作种子实体，同步到知识库中，通过百度百科页面找到与其相关的实体，然后评测相关实体有哪些是需要更新的，然后用预测器对拓展实体进行排序，对这个列表上的实体每天做一定数量的更新。

15丨基于时间标签的更新机制有哪些常见约束？

同学代表性回答：

时间分离约束、时间顺序约束、时间跨度约束。

肖仰华老师：

大家回答得都不错，有很多细节，希望大家也深入学习，这一讲与上一讲的很多内容都是当前的研究热点，建议大家认真研读，我问问大家，是否有同学从这两讲找到一些值得研究的问题，或者值得你作为硕士博士毕业论文研究的问题。再问大家一个问题，构建后的关系补全与构建阶段的关系获取两个任务有何不同？

有同学回答：有没有一种方式是自动发现知识图谱缺少或者错误的知识，然后自动重新抽取补充的，包括反过来优化抽取，让抽取不会犯类似的错误。

肖老师评论：你说的是缺失的识别问题，或者错误的识别。错误的识别在书中有讲，比如用搜索引擎去检验每个事实。但是缺失的识别，似乎没讲，大家有什么办法么？

有同学回答：比较同类别实体，如果其他实体都有的属性这个实体没有的话，可能就是存在缺失？

肖老师评论：对的，最简单的方法是用schema，也就是实体类别模板，模板中有属性列表，但是即便如此，schema也可能不完整，这是一方面，另一方面有些属性是合理的，但是却不必要。比如爱因斯坦一定有星座，但是我估计所有知识库都没有这个信息，因为正常人关心爱因斯坦估计是不会是因为他的星座，爱因斯坦也一定有父母，但是除非其父母很有名，你也不会关心这个信息。所以这个缺失识别不是个简单的事情，一种办法是：构造爱因斯坦星座之类的搜索，看看搜索引擎是否有搜索记录以及相应网页，如果没有或很少，这个属性很可能就是不必要关注的。这个问题还有很多机会，大家可以深入想想。

（完）