知识图谱是一种大规模语义网络,已经成为大数据时代知识工程的代表性进展。知识图谱技术是实现机器认知智能和推动各行业智能化发展的关键基础技术。知识图谱也成为大规模知识工程的代表性实践,其学科日益完善。
本书是一本系统介绍知识图谱概念、技术与实践的书籍。全书共五篇,由16章构成,力求涵盖知识图谱相关的基本概念与关键技术。“基础篇”介绍知识图谱的基本概念、内涵与外延、历史沿革、应用价值,以及相关的基础知识。“构建篇”重点介绍大规模高质量知识图谱的自动化构建技术,涵盖词汇挖掘、实体识别、关系抽取及概念图谱构建、百科图谱构建、众包构建与质量控制等专题。“管理篇”系统地阐述了知识图谱建模与存储、查询与检索,以及图数据管理系统。“应用篇”对于基于知识图谱的关键应用技术展开介绍,包括搜索与推荐、自然语言问答,以及基于知识图谱的自然语言理解。“实践篇”介绍知识图谱实践中的基本原则和有用实践,初步讨论了知识图谱实践中的开放性问题。
· 有深度也有广度,力求涵盖知识图谱相关的基本概念与关键技术。
· 梳理前沿成果,总结了十多个知识图谱工程项目的落地经验。
· 写作团队成员均为国内知名高校和研究所AI相关专业教师和研究员。
· 内容历经一年打磨,并曾在多所高校试讲,根据听众反馈迭代改进。
序
自2012年Google发布知识图谱以来,知识图谱技术飞速发展,其理论体系日趋完善,应用效果日益明显。在知识图谱技术的引领下,知识工程新的历史篇章——大数据知识工程已初具轮廓;在知识图谱技术的推动下,各行各业的智能化升级与转型的宏伟画卷正逐步展开。回溯半个多世纪,以物理符号系统为代表的人工智能符号主义理论思潮与以专家系统建设为核心的知识工程实践相得益彰、大放异彩。再回溯到2000多年前,追根溯源,古希腊哲学三贤开创了伟大的逻辑思维时代,其思想直接或间接地影响了从符号主义到知识工程再到知识图谱的历史延承与发展。
发生在当下的以大数据、人工智能为代表的一系列技术革命很可能是人类诞生以来最为宏大也是影响最为深远的技术革命。站在当下这一重要时间节点,回望过去,展望未来,每个亲历者都不免心潮澎湃,感慨时代变迁之伟大,个人沉浮之渺小。然而,伟大的时代往往是由星星点点的思想与细小而坚实的实践铸就而成的。本书就是这样一支涓涓细流,愿其最终汇入时代的大江大河。
从鸦片战争时国门被迫打开,到五四运动时民众自发觉醒,再到新中国成立后西方优质思想被积极引进,西学东渐的进程绵延不绝、持续至今。直到今天,我们对于整个西方思想的吸收与消化仍在进行。在某种程度上,知识图谱技术及其背后的思想也源自西方人工智能思想。在当下中国的知识图谱技术实践过程中,简单地消化与吸收西方人工智能思想已经难以满足国家与社会的发展需求。在越来越多的应用领域和核心技术方面,我们需要来自中国的创新,需要形成中国自身的话语权与主导权。我国各行业的智能化发展对于原创性理论与技术提出了迫切需求,我国的研发不仅需要面向实际问题,更需要足够前沿,才有可能支撑行业的智能化发展。我们必须从西方思想的传声筒转变成自己思想体系的架构者与践行者,言必称西方应该成为过去时。研究环境的这一变化对于本书的编写提出了全新的要求。本书希望在梳理西方思想体系与应用实践的基础之上,对发生在当下中国的一些前沿实践、关键技术、实用方法,以及这些实践背后的思想体系,进行全面的总结,为一线的从业人员、教学人员提供必要的理论与技术论支撑。
可以言说的即是可以思考的,可以思考的问题终究是简单的问题。随着人工智能的发展,越来越多难以言说的“难题”逐渐浮出水面,比如意识难题。突破思维的边界对于解决人工智能难题而言显得日益重要。纵观历史,任何一家之言终究会湮没在历史洪流之中。在此成书之际,笔者提醒读者不要将自己的思维囿于任何一隅,即便某个思潮、某种技术、某个方法在当下如火如荼。如果将人工智能的实现视作一场旷日持久的战争,我们可能还要发起很多次冲锋才能取得这场战争的决定性胜利。而每一次冲锋都将是某一种思想、某一类技术在人工智能发展史中的一次华丽亮相。
肖仰华
2019年11月于复旦大学
前言
近年来,随着知识图谱技术研究与应用的深化,知识图谱技术吸引了来自工业界与学术界的广泛关注。知识图谱领域涌现出大量的理论与技术研究成果,以及一批优秀的工程实践案例。一方面,对于这些理论工作与工程实践,需要进行系统性的梳理;另一方面,随着研究与应用的深入,业界也迫切需要一本系统性的知识图谱教材。鉴于此,本书编写团队投入巨大的资源与精力完成了本书。
本书的内容体系基本成型于2018年8月,从2017年到2019年,其先后两次在复旦大学相关课程中进行讲授,2018年8月和12月其分别在上海财经大学和北京理工大学面向全国公开讲授,累计近千人次完成了课程的学习。从2018年年底至今,本书编写组完成了书稿,并经多轮修改,最终形成大家手中的这个版本。
下面将对本书的编写动机、行文思路、内容架构、内容选择与使用方式等做简要的介绍,以方便读者了解本书的成书背景和使用方式。
编写动机
大量的应用实践需要有专业的图书作为参考和指导,大量的学术成果需要有图书进行系统的梳理,这些是作者团队编写本书的直接原因。除此之外,还有以下几点原因需要说明。首先,知识图谱已经成为一门独立学科,设置在我国新增的人工智能学学科目录下。建设一门新兴学科,首先需要厘清这门学科的知识体系。而完成这一任务的第一步即是编写一本系统性的知识图谱教材。其次,知识图谱作为一门工程学科,其具体方法大都来自计算机或人工智能的其他领域,比如自然语言处理、机器学习、数据库,那么还有什么知识是这些传统技术领域没有涵盖的呢?如果不澄清这一问题,知识图谱图书的编写便是无源之水,我们只需要学习各个分支领域的知识即可;如果不澄清这一问题,知识图谱图书的编写很容易变成言知识图谱之名,行其他技术之实。下面对这一问题进行简要回答。
知识图谱作为一个大规模知识工程,是面向应用落地的,也是系统工程。这两点决定了知识图谱是典型的应用学科。一门面向应用的学科旨在解决现实世界的复杂问题。工程落地中最重要的问题在于选择,在于策略。这就好比厨师做菜,食材原料多种多样,至于每种食材是如何培育出来的,不是厨师主要关心的问题。厨师关心的是如何选择好的食材,如何利用这些好的食材做出可口的菜肴。对于同样的问题,不同的学科有着不同的解法。在当前的技术条件下,哪一个方法能更经济、务实地解决问题,就是我们选择“食材”的最高标准。有了食材之后,如何做成一道美味佳肴,则是摆在厨师面前的第二个问题。此时,策略、过程,也就是菜肴制作的工艺过程,则是决定最终成品质量的关键。因此,我们需要一本系统性的知识图谱图书,讲授技术选型、策略选择、过程优化、系统架构等内容。
也正因此,本书作者在构思以及行文写作时,时刻提醒自己紧密围绕知识图谱开展知识体系的梳理,尽量突出知识图谱与相关学科(特别是自然语言处理、语义网与数据库等学科)的差别。如果不能清晰地界定知识图谱与各分支学科的根本不同,毋宁少一本浪费读者时间与金钱的读物。
行文思路
本书的编写力求体现以下基本原则。
重视对过程的阐述。
教学的过程不但需要陈述,更需要解释。有些书强调对结果或者结论的传授,侧重于对知识体系的清晰梳理与知识的高效灌输,但很少顾及学生的学习方式,忽略了对过程的阐述。因此,作者试图在勾勒出知识图谱学科知识体系的同时,尽可能地呈现出相关概念与技术发展的脉络。
重视对架构的叙述。
从人才培养的角度而言,知识图谱的落地不仅需要解决具体问题的工程师,更需要能做出合理抉择与规划的管理性人才,需要熟知人工智能领域各分支技术并能熟练掌握和利用这些技术的综合性人才。知识图谱的知识体系不仅包含模型与算法,更涉及思想与方法、策略与过程。技术细节固然重要,但是对于知识图谱学科而言,对宏观架构的把握更是不可或缺。为此,本书单列出第15章介绍具体技术之外的流程、策略与过程。每章的“概述”部分大多是对于该章内容宏观基本面的介绍,阅读这部分内容能对知识图谱的全貌有基本的把握。
循序渐进、逐步深入。
本书在编写时采取了逐层递进的思路。比如在词汇挖掘、实体识别、关系抽取等很多模块中,都会涉及类似的模型与思路(诸如基于模式的抽取、基于学习模型的抽取等),那么先出现的章节往往侧重于阐述这些问题的基本模型,而当后面的章节再次提及相关模型时,则会进一步深入介绍一些技术细节与数学细节。
问题驱动、应用引领。
全书坚持问题驱动的写作思路,侧重对于问题本身的分析与阐述。从问题出发阐释所需的技术,便于读者明确每个模型、技术、方案所能解决的问题范畴。每章开始的“内容提示”部分会告诉读者,这一章将回答什么问题,其中的概念与技术能够解决怎样的实际问题。
内容架构
全书共五篇,由16章构成,其架构如图1所示,力求涵盖知识图谱相关的基本概念与关键技术。
图1 本书的架构
第1篇 基础篇
包含前两章。第1章介绍知识图谱的基本概念、历史沿革、研究意义、应用价值等。第2章介绍知识图谱所必需的基础知识,主要介绍与知识图谱密切相关的知识表示、机器学习、自然语言处理的基本概念。
第2篇 构建篇
介绍知识图谱的构建。大规模高质量知识图谱的构建是整个知识图谱技术落地的核心,因此也是整本书的重点。本篇的核心是第3章与第4章。在这两章中,我们介绍了知识图谱中知识获取的两个核心问题。其中一个是点的识别与建立,知识图谱中的点可以是词汇与实体,因此第3章重点介绍了词汇挖掘与实体识别。有了知识图谱中的点之后,建立点之间的关系是知识图谱构建的核心问题。为此,第4章主要介绍了关系抽取(从文本中获取关系实例)。
在此基础上,第2篇进一步对两类重要的知识图谱,即概念图谱(第5章)与百科图谱(第6章)的构建展开了具体介绍。这两类知识图谱在知识图谱技术发展历程中有着突出地位,有很多实际应用。最后,第2篇再对其中的两个专题:众包构建(第7章)与质量控制(第8章)展开介绍。当前的知识图谱构建还离不开人,如何把人力用好是第7章的主题。质量控制是知识图谱构建的核心,第8章从质量视角再次盘点整个知识图谱构建的全流程。
可以看出,我们在构建部分浓墨重彩,从构建的关键环节(词汇挖掘、实体识别、关系抽取)、两类重要知识图谱的构建,以及构建的两个专题等三个切面对知识图谱构建进行了全方位的论述。其目的在于向读者立体式地呈现知识图谱构建的完整体系。这也从一个侧面说明了知识图谱知识体系的庞杂。
第3篇 管理篇
介绍知识图谱的建模与存储(第9章)、查询与检索(第10章)以及图数据管理系统(第11章)。这一篇旨在从数据管理的角度系统阐述知识图谱如何建模、如何存储、如何查询、如何检索,以及如何实现系统性的高效管理。
第4篇 应用篇
把知识图谱构建好、管理好的目的还是为了应用好。第4篇对于基于知识图谱的应用技术展开介绍,包括搜索与推荐(第13章)、自然语言问答(第14章)。这些应用本质上都依赖基于知识图谱的自然语言理解,因此这一专题也单独成章(第12章)。
第5篇 实践篇
知识图谱实践有哪些基本原则和最佳实践(第15章),以及在知识图谱应用过程中还存在哪些挑战(第16章),都会在这一篇中回答。
内容选择
本书力求全面介绍知识图谱相关的重要概念与关键技术。选材的第一个考虑因素是内容与知识图谱是否密切相关。本书将知识图谱视作一类大数据驱动的、以自动化知识获取为根本特点的新型知识工程。因此,尽量回避了属于传统知识工程范畴或者其他领域的内容,读者可以参考其他相关图书来学习它们。选材的第二个考虑因素是相关技术能否落地,或者具有落地的可能性。但凡前景不明、尚无明确落地可能性的技术,本书都选择了刻意回避,以免误导读者。本书有两项内容未涵盖,特此说明如下。
第一,知识图谱上的推理尚未单独成章。符号知识的一个重要优点在于可以实现符号化推理,但是知识图谱上的推理在本书中并未以单独一章的篇幅加以介绍,这样的处理出于以下几点考虑。首先,本书对知识图谱上的推理并非完全没有讨论,在书中的知识图谱向量化表示以及知识图谱上的查询语言部分略有涉及。但是基于向量化表示的推理只是一种弱语义的推理,只能用作相关关系推理,无法胜任复杂语义推理任务。也正因此,大部分基于知识图谱表示学习的推理只能用于是否存在关联关系的预测(也就是链接预测)。其次,有些专家曾建议对于传统符号推理展开介绍以弥补这一不足,然而知识图谱作为大数据知识工程的代表有其应有之义,知识图谱不应该盗用基于传统符号的推理。因此,总体上作者倾向于认为知识图谱上的推理还是一个有待深入研究的问题,其在实际应用落地中并未超出传统知识工程的推理范畴,读者可以参考传统符号推理的相关图书。
第二,知识图谱上的结构挖掘尚未单独成章。在很多领域,特别是金融、安全等相关领域,会建立实体之间的关联网络,并通过图结构分析、识别风险因素。一些学者或者从业人员将其归为知识图谱的一种应用。事实上,这一思路是图数据分析、复杂网络分析领域的经典研究问题,早在“知识图谱”一词出现之前其就已经得到广泛研究。只不过因为最近几年各行业大数据准备工作完成,平台基本成型,使得大规模图分析成为可能。因此,本书并未涵盖这一内容。读者若对其感兴趣,可以参考图分析、复杂网络分析相关的专业图书。
使用方式
本书在内容编排上,力求每章均具备独立性,同时各章之间又能组成有机整体。这一编排方式旨在让每章能够独立地解决一类问题,而全书内容又不失系统性与完整性。除了第1章是基础,其他任何一章,读者都可以根据自身情况进行选择性阅读。比如,对于第2章,有相关基础的读者就可以直接跳过。“构建篇”的第3章和第4章是核心,而对于第5章和第6章,读者则可以根据需要进行选择性学习。书中的第7章、第8章、第12章、第16章是相对较新的专题,适合研究生、博士生层次的研讨性教学。这几章的内容很多都还只是一家之言,有着巨大的研究空间。
对于不同的读者群体,本书可以有不同的阅读方式。对于学生群体,高年级本科生可以选择第1~4章、第9章、第10章、第13章、第14章进行学习。对于硕士生或者博士生,则可以进一步阅读第5~8章、第12章、第16章。对于工业界从业人员,完全可以根据自己的业务需要选择感兴趣的内容阅读,比如可以跳过第9章、第10章的技术介绍,直接了解图数据管理系统的使用方法,也就是第11章的内容。知识图谱涉及企业与行业的智能化转型,这将是企业战略决策的重要内容。对于很多从事此类工作的人员而言,急需在尽可能短的时间内对知识图谱的全貌以及知识图谱能解决什么问题有所了解。此类人员可以选择第1章、第3~14章的概述,以及第15章、第16章进行学习。
最后需要说明的是,知识图谱是一门综合性强、涉及多学科的新型交叉学科。不同学科背景的学者看待知识图谱有着不同的视角,很容易得出不同的观点与结论。我们对待知识图谱这样的新兴学科应该秉持开放包容、兼收并蓄的心态,静待时间来检验真理。