《数据血缘:理论与业务实践》共分为四篇。前三篇分别对应数据血缘的理论、实现和应用:第一篇阐明数据血缘的概念,主要介绍有关数据血缘概念的综合知识;第二篇介绍如何实现数据血缘,包括一些关于实现数据血缘的可行性见解和建议;第三篇介绍如何使用数据血缘,利用数据血缘结果实现不同的业务目的。第四篇是关于“构建数据血缘业务案例”的研究,介绍如何将数据血缘落地到业务案例中。
《数据血缘:理论与业务实践》主要面向数据开发人员和数据管理人员,用于针对数据血缘及其应用领域拓宽思路。本书也适合具有技术背景的数据业务人员参考阅读,便于更好地理解业务需求和数据血缘需求。
数据管理知识体系的重要一环,涵盖数据血缘的定义和模型、主要应用领域及最佳实践案例,填补数据血缘领域空白,全彩印刷
译者简介
王琤,Datablau(北京数语科技有限公司)创始人兼CEO,信通院数据资产专家委员会成员,数据资产管理实践白皮书主要撰写人之一,国资委数据要素专家组成员,复旦大学、北京航空航天大学客座讲师,曾任CA ERwin全球研发负责人。
车春雷,高级工程师、信息系统分析师,在科技和数据领域有30余年工作经历,先后从事企业自动化、软件研发、网络设计、商业智能与企业级数据仓库、数据标准、数据质量、数据建模等工作,积累了丰富的数据管理经验。
多年前,作者(我)第一次听到“数据血缘”这个词,当时团队正在实施一个数据仓库解决方案。一位顾问建议使用Excel表格记录数据血缘,IT团队的反应既简单又直接:“不可能。”他们认为没有必要记录这些信息,即使在最坏的情况下,他们也可以通过检查软件代码对数据进行追踪。后来,在另一个与监管合规相关的项目中,有人再次提起了数据血缘的话题。我的一位同事曾试图收集数据血缘的需求,但是没有成功。在某个时刻,他绝望地说:“每个人都需要数据血缘,但是没有人能解释什么是数据血缘。”随后,我接手了他的任务。从此,数据血缘就成了我的专业领域和业余爱好。这些年来,我见证了数据血缘的重大变化,并观察到了一些新的趋势。
数据血缘的趋势
多年来,根据我的观察及验证,关于数据血缘有以下三个最重要的发展趋势。
1. 日益增加的监管和业务需求压力需要对数据血缘进行记录。
几年前,对数据血缘的需求还如“奢侈品”一般不够广泛。如今,它已经成为数据管理中的一种常规需求。最近,不同的监管机构发布了许多法规文件,其中都对数据管理提出了特殊需求。要满足这些需求,不同行业的企业必须实施数据血缘管理。经济环境快速和不可预测的变化要求业务环境随之变化和发展。任何业务环境的变化都涉及数据,例如数据集成、数字化转型、大数据、高级数据分析和云平台等。要成功开展这些工作,需要了解数据存储的位置和数据在数据链上进行的传递等信息。数据血缘就是这类信息的来源。
2. 专业的技术和业务人员都表现出对数据血缘的需要和兴趣。
不久前,还只有一些技术人员知道数据血缘,而且有相关使用经验的人才很少。如今,数据血缘已成为业务人员经常使用的术语。但是对他们中的大多数人来说,这个概念仍然是抽象的,他们仍未认识到“数据血缘已成为最急迫的业务需求之一”这一事实。
3. 市场上已出现了许多不同的数据血缘软件解决方案。
此前,数据血缘文档还普遍是微软的Excel和Word文件。近期,市场上已经有一些先进的数据血缘解决方案。不同规模、不同行业的企业都可以找到满足自身需求且适配自身资源的解决方案。根据这些趋势,我认识到了实现数据血缘面临的一些挑战。
实现数据血缘面临的挑战
数据血缘的实现经历了许多挑战,下面列举三个主要的挑战。
1. 对大多数用户来说,数据血缘的概念仍然很抽象。
数据血缘是一个复杂的概念,数据管理社区对它还没有一致的定义,因此每家企业都要通过开发数据血缘的元模型来启动数据血缘的相关工作。
2. 实现数据血缘是复杂的,并且会消耗大量的时间和资源。
无论如何,实现数据血缘都需要付出大量的努力,并消耗许多资源。正确识别需求和实施范围是成功的关键因素之一。
3. 即使实现了数据血缘,数据管理和业务专业人员也不会完全按照预期使用。
在工作的起始阶段,许多利益相关者并不熟悉数据血缘的概念。得到的实际结果往往不符合他们最初的期望。此外,使用数据血缘还需要一些技术技能和知识。所有这些因素都可能导致数据血缘的实现结果无人认可的情况。
在克服上述挑战的过程中,我对数据血缘的发展趋势有所了解并积累了经验,这赋予了我写作本书的灵感。
主要目标和目标受众
本书面向数据管理和业务专业人员,从不同的角度介绍数据血缘。
本书的目标如下。
(1)提出数据血缘的定义和模型。
数据血缘是一个复杂的概念,每家企业都可能以不同的方式定义数据血缘的重要组件,从而在最大程度上满足企业的需要。
(2)展示数据血缘的最佳实践。
实现数据血缘既耗时又耗资源。为了成功实现数据血缘,每家企业都应该定义合适的范围、方法和解决方案。
(3)讨论应用数据血缘的主要业务领域。
在数据血缘工作上的投资应通过正确使用数据血缘而获得回报。不同的业务职能都可能受益于数据血缘的结果。
不同领域的专业人员可以通过不同的方式来使用本书。
(1)数据管理和业务专业人员,可以针对数据血缘及其应用领域拓宽思路。
与数据血缘概念有关的资源很少,互联网上的文章和数据血缘解决方案供应商网站是主要的信息来源。目前,数据血缘还缺乏统一的定义。这些都给初学者带来了挑战。本书深入分析了数据血缘,并提出了数据血缘元模型和相应的术语。这有助于不同的利益相关者针对数据血缘进行交流。
(2)具有技术背景的专业人员,可以更好地理解业务需要和数据血缘需求。
不同的利益相关者对数据血缘的理解、要求和需求明显不同。技术专业人员主要关注实现物理层面上的元数据血缘,但这个术语对业务专业人员来说毫无意义。本书未涵盖不同数据血缘解决方案的技术细节,而是帮助技术专业人员和业务人员在针对数据血缘的不同观点之间搭建一座桥梁。
(3)项目管理专业人员,可以熟悉数据血缘实现的最佳实践。
合适的实施范围和适当的实施方法是所有项目成功的关键因素。许多因素会影响项目范围、方法和方案的选择。项目管理专业人员可以从本书中获得实用的建议,并熟悉开发数据血缘业务案例的技术。本书还简单介绍了一些数据血缘解决方案。
补充说明
原书中包含大量参考文献及资料,本书均已电子资源形式提供,下载方式见封底处“读者服务”。