Informatica PowerCenter权威指南
  • 推荐0
  • 收藏2
  • 浏览1.3K

Informatica PowerCenter权威指南

杜绍森 (作者) 

  • 书  号:978-7-121-27045-1
  • 出版日期:2015-09-14
  • 页  数:364
  • 开  本:16(185*235)
  • 出版状态:上市销售
  • 维护人:张国霞
大数据时代,掌控数据首先需要掌握数据的处理能力。俗话说,“工欲善其事,必先利其器”。Informatica PowerCenter作为业界广泛使用的数据处理工具之一,被全球多数大型机构、组织认可并采用。本书全面地介绍了Informatica PowerCenter的主要功能及高级特性。
本书分为3个部分:第一部分——基础篇,包括第1~4章系统介绍了PowerCenter的基础组件和常用功能,并在其中穿插了大量实践案例;第二部分——高级篇,包括第5~8章,系统介绍了PowerCenter并行、集群、性能调优和字符集管理等高级内容;第三部分——扩展篇,包括第9章,简要介绍了CDC,与Hadoop、MPP集成,以及非结构化和半结构化数据处理能力。
本书适合PowerCenter的入门者及有一定PowerCenter使用经验的用户参考,也可作为各数据仓库、大数据专业培训机构的培训教材。
Informatica PowerCenter 原理 案例分析 PowerCenter CDC Hadoop MPP
推 荐 序

犹豫了很久,以我现今的职位给作者写序,是否有些自吹自擂?但读完书稿,我决定了:一本好书,介绍一个好产品,既然与我受用,何不推荐给更多的人呢?
“IT”是信息(Information)和技术(Technology)的缩写,它的发展不过三十多年的时间。在IT发展前期的大部分时间里,其所有进步大部分体现在“T”上,例如计算性能、存储容量、网络拓展及打印效果等。直到近些年“大数据时代”的出现,人们才开始了对于信息数据,也就是“I”的关注。我相信,这个变化是IT发展的必然,是一个破茧成蝶的过程,并且这个关注也一定会延续很多年。
同样,正是因为“大数据”日益深入人心,企业的IT 规划和发展越来越与“大数据”相关联,PowerCenter才得以从一个IT人员得心应手的工具,蜕变为大数据应用的一个重要环节。记得在2014年国务院工业和信息化部颁布的大数据白皮书中,就明确地将“数据准备”定义为大数据发展的第一个环节。由此,作为在数据集成领域里历年排名第一的PowerCenter,也就承担起了“帮助企业实现大数据应用的第一步”的重要使命。
本书前6章中规中矩,如同一本深入浅出的教科书,将具备一些基本IT知识的人士引进数据迁移的奇妙世界,加上作者风趣的调侃,学来丝毫不觉得枯燥单调。第7章开始是实战描述,实际上是一系列的应用经验分享,这些宝贵的经验之谈,可以让初学者在未来的实践中少走弯路,还可以将本书作为可以随时受教的参考书。更值得一提的是,不同于普通的产品手册,本书作者以其十几年的理论研究和教育培训,以及主导或参与诸多中外企业“数据集成项目”实施的经验,将PowerCenter的很多功能细节描述得淋漓尽致。本书对于有意进行ETL教学的教育培训机构,不失为一本经典的教材;而对于有意培养自己成为ETL应用高手的IT人士,则是一本有益而又有趣的读物。
曾经有不少朋友问我:当成了ETL的行家里手以后,下一个职业目标会有哪些发展方向?所以,我想借此序的一角,分享一些我的认知,供大家参考。
第一,云数据集成和管理。根据IDC的预测,2017年全球SaaS和云软件模式将占软件开支的1/6。越来越多的云应用系统承诺并交付更简单、更快捷和更智能的业务营运方法,所以,掌握云数据集成,会让你在不可阻挡的云服务趋势下游刃有余。
第二,下一代数据洞察。不同于第一代商业智能(BI)对展示形态和分析过去的重视,大数据时代的数据洞察,更加关注数据的质量而不是数据的展现形式,更重视预测未来的行为模式而非过去的行为分析。所以,要想成为大数据分析专家,你必须懂得数据质量管理和前瞻性的分析。当然,保障分析结果正确的前提是确保数据的统一性、完整性,并找到数据的关联性。
第三,数据治理。大数据时代,越来越多的企业将数据纳入其固定资产;在金融和医疗行业,数据相关的合规性成为政府监管的重要指标;为了应对客户需求和市场业务模式的变化,许多企业开始考虑应用整合和迁移……这些巨大的变化,不断催生出数据治理的高手,他们必须在行业规范、企业应用系统、数据的关联性和安全性方面具备独特的技能。因此,了解行业特性、行业应用,使之与数据集成相结合,便成为你进行数据治理的更高境界。
近年来,关于大数据的定义一直在调整,而大数据应用的目标却始终没变,那就是:发现数据价值,帮助企业降低成本并实现业务创新。在过去短短的两三年里,中国作为自然的大数据国家,已经在大数据的理论研究和实际应用方面取得了巨大的进展。大数据的应用会推动各行各业诞生越来越多的数据科学家,那是行业知识和数据治理兼备的卓越人才。IT的发展已经实现了由“计算机科学”向“数据科学”的转换,近年来,“数据科学”又开始向行业应用进行大规模迁移。所以,数据科学家既是数据价值的挖掘者,更是行业产品和流程的创新者,他们的价值不是向企业的高管提供分析报表,他们本身就是企业的高管,他们在用数据作为依据,实现企业面向客户、市场、产品和流程方面的创新。
千里之行,始于足下。与各位读者共勉。

Informatica大中国区总经理 王晨杰


自 序

初识Informatica,大概是在十四五年前的一个偶然的机会,公司接到一个叫作决策支持系统(DSS)的项目。尽管当时作为工程师和客户一起整理了项目的需求,完成了需求的确认和签字,但我现在几乎无法记起任何关于需求的内容,对项目实施过程的某些环节却仍然记忆犹新。项目开始时,公司安排了两位工程师参与ETL(Extract Transformation Load),一位是我,另一位与我现在仍是同事,我们当时使用了一个叫作PowerMart的工具,版本是5.1。这就是我和Informatica的第一次亲密接触。当时Informatica的总代理也是曾经大名鼎鼎的Sybase,据说我们的这个项目是Informatica进入中国后的第二个项目。
从此,我开始了自己漫长的Informatica之路。当时我所就职的公司敏锐地察觉到数据仓库/商业智能是未来的趋势之一,开始着手准备发展数据仓库方面的业务。当年有个著名的第三方调研机构,叫IDC。我所就职的公司通过查阅IDC报告,发现Informatica是当时ETL市场份额最高的公司,于是果断决定采用这个工具作为自己的数据仓库的开发平台。当年公司的果断、决心,让我至今想起,仍非常钦佩。在IT人才严重短缺的年代,虽然年纪很轻、经验不足,但我还是作为经营分析项目的项目经理、技术经理等开始了自己的数据管理生涯。
此后一段时间,我在不经意间进入悲催的计费岁月,加班、加班、通宵、通宵……每个项目都以几年来计算,历经两个完整的移动计费项目,在此期间认识了很多好朋友和师长。这是我与Informatica断绝联系的几年,也是在技术方面拓展能力的几年。
我与Informatica的缘分并没有结束。有一天,原来的同事告诉我Informatica在招售前工程师,我就毅然决定去应聘,满足自己转向咨询领域的一点梦想,后来发现售前和咨询还是有所区别的,这是后话。因此,8年前我加入了Informatica中国,开始成为一名专职的售前工程师。当年的Informatica只有这一个产品,人不是很多。我仍清晰地记着当时的版本为PowerCenter 8.1.1。现在的Informatica已经与早期差别非常大了,但是很多人还是习惯把Informatica的数据集成产品PowerCenter叫作Informatica。
为什么要写一本关于PowerCenter的书呢?其实我内心里一直有这样的冲动。PowerCenter是一个非常好的产品,在国内也有近千家用户,有大量的开发者和管理者,随着大数据的推广,还有大量的后继者会陆续开始PowerCenter之旅。一本中文材料会帮助所有的用户更加快速、更加全面地了解PowerCenter,充分利用自己在PowerCenter方面的投资。这个冲动持续了很久,包括期间陆续说服数位同事参与,但是大家都有繁忙的本职工作,一次一次被耽搁。直到2015年春节前,内心的冲动促使我开始动笔了。前两天坐在我对面的北区销售总监说,我写这本书像写回忆录,想想确实有道理,我的自序也是回忆录的样子,希望大家能够谅解。
如何写好这本书?这也是我非常纠结的一个问题。什么样的深度?适合什么样的人群?是否有读者愿意来读?如何帮助读者了解PowerCenter?和同事们讨论过很多次,似乎还是没有下定决心。当我下笔的时候,尤其是写到50多页的时候,我觉得我已经坚定了这本书的方向:不求全面,但求让读者快速地掌握PowerCenter;不求精深,但求将最常用的功能展现给读者;不求华丽的词藻,但求读者能读懂。
PowerCenter是什么?它是ETL工具。什么是ETL?大数据及数据仓库70%左右的工作都在做ETL,在Gartner报告中它被划为Data Integration产品。Informatica也曾定义自己是一家Data Integration公司。我是这样解释ETL工具的:它是Data Integration产品在数据仓库、大数据项目中的一个应用场景,它同时还有其他的应用场景,比如数据交换、数据安全,这些也是PowerCenter在后期的扩展。
希望本书能够成为分享我这些年掌握的PowerCenter相关知识的一个载体,成为初学者的入门教材,成为有经验者的开发人员的一本参考书。

杜绍森
2015年8月

目录

目 录

第1章 PowerCenter Hello World世界 1
1.1 Informatica Hello World 1
1.2 PowerCenter架构和客户端简介 3
1.2.1 PowerCenter架构 3
1.2.2 PowerCenter客户端 5
1.3 PowerCenter Hello World 7
第2章 PowerCenter基础组件 27
2.1 Source 27
2.1.1 数据库源 28
2.1.2 文本文件源 30
2.2 Target 33
2.2.1 数据库目标 33
2.2.2 文本文件目标 34
2.3 Expression表达式 35
Expression中的变量端口(Variable Port) 40
2.4 Filter 41
2.5 Source Qualifier 43
2.5.1 Source Qualifier的作用 43
2.5.2 数据库数据源的Source Qualifier 44
2.5.3 Source Qualifier自定义SQL 47
2.5.4 Source Qualifier复杂关联 48
2.6 Sorter 49
2.7 Joiner 51
2.7.1 关联类型 52
2.7.2 Sorted Joiner 54
2.7.3 Joiner的独特作用 55
2.7.4 自关联(Self-Join) 56
2.8 Lookup 57
2.8.1 Lookup Caching enabled 59
2.8.2 非连接的Lookup 61
2.8.3 Lookup SQL Override 63
2.8.4 共享Lookup Cache 65
2.8.5 Dynamic Lookup 65
2.8.6 Lookup、Source Qualifier和Joiner的对比 69
2.9 Stored Procedure 70
2.9.1 Connected Stored Procedure 70
2.9.2 Unconnected Stored Procedure 72
2.9.3 Pre- or Post-Session Stored Procedure 74
2.10 Union 76
2.11 Transaction Control 78
2.11.1 Transaction Control有效性问题 79
2.11.2 Transaction Control组件 80

2.12 Sequence 80
2.12.1 Sequence的常规用法 80
2.12.2 共享Sequence 82
2.12.3 可重用的Sequence 83
2.13 Aggregator 84
2.13.1 条件聚合 85
2.13.2 使用Aggregator进行行列转换 86
2.14 Rank 88
2.15 Update strategy 90
2.15.1 Treat source rows as属性的使用 91
2.15.2 Update strategy使用 93
2.15.3 如何实现Update else Insert 94
2.15.4 Update Stagety案例:缓慢变化维 98
2.16 SQL Transformation 104
2.16.1 Script Mode 104
2.16.2 Static Query Mode 106
2.16.3 Dynamic Query Mode 108
2.17 Java Transformation 109
2.17.1 Java Transformation简介 109
2.17.2 Passive Java Transformation 114
2.17.3 Active Java Transformation 121
2.17.4 常见错误说明 123
2.18 Normalizer 124
2.19 Router 126
2.20 Custom Transformation 128
2.21 HTTP Transformation 129
2.22 XML组件组 132
2.23 Transformation中的一些概念 135
2.23.1 Connect与Unconnect 135
2.23.2 Active与Passive 136
第3章 Workflow执行、监控 138
3.1 Session 139
3.1.1 Reusable Session 139
3.1.2 非Reusable Session 141
3.2 最简单、最常用的Workflow 143
3.2.1 并行执行 143
3.2.2 串行执行 144
3.2.3 调度 146
3.3 Worklet 147
3.4 Command 148
3.5 Control 150
3.6 发送E-mail 151
3.6.1 配置发送E-mail 151
3.6.2 在Workflow中使用E-mail 151
3.7 Event Tasks 155
3.7.1 用户自定义事件使用 156
3.7.2 预定义事件使用 158
3.8 Timer 159
3.9 Decision 159
3.10 Assignment 160
第4章 常用功能汇集 163
4.1 Debugger 163
4.2 Mapplet/Reusable Transformation 165
4.2.1 Reusable Transformation 165
4.2.2 Mapplet 167
4.3 使用Shortcut 169
4.3.1 Local Shortcut 170
4.3.2 Global Shortcut 171
4.4 Session相关属性 173
4.4.1 Properties Tab相关属性 173
4.4.2 Config Object Tab相关属性 174
4.5 参数和变量 176
4.5.1 Mapping参数 176
4.5.2 Mapping变量 180
4.5.3 系统/Session参数与变量 184
4.5.4 Workflow/Worklet变量 189
4.5.5 Local变量(Local Variables) 191
第5章 PowerCenter高级应用 193
5.1 任务分区(Partition) 193
5.1.1 Database Partitioning 196
5.1.2 Hash Partitioning 201
5.1.3 Key Range Partitioning 204
5.1.4 Pass Through Partitioning 205
5.1.5 Round-Robin Partitioning 211
5.2 内存管理 214
5.2.1 DTM内存 215
5.2.2 Transformation Cache 216
5.3 网格计算 219
5.3.1 Grid架构 219
5.3.2 Grid负载均衡 221
5.3.3 Grid与任务分区(Partition) 224
5.4 高可用性(HA) 227
5.4.1 PowerCenter自带的HA方案 228
5.4.2 依托第三方厂商的HA方案 229
5.4.3 两种HA方案对比 230
5.5 Web Service应用 230
5.5.1 Web Service Hub 231
5.5.2 Web Service调度/监控接口 232
5.5.3 Web Service Provider 234
5.5.4 Web Service Consumer 246
5.6 Pushdown Optimization 251
5.6.1 Pushdown优化是什么 252
5.6.2 Pushdown优化类型 252
5.7 版本控制及部署 256
5.7.1 Check In/Check Out 256
5.7.2 Team-Based开发的一些有用功能 258
5.7.3 Label与Deployment Group 260
5.7.4 复制对象从开发Repository到生产Repository 264
第6章 PowerCenter实战汇总 266
6.1 PowerCenter字符集 266
6.1.1 Oracle数据库 267
6.1.2 DB2字符集 268
6.1.3 AS/400字符集 268
6.1.4 ODBC字符集 269
6.1.5 文本文件字符集 270
6.1.6 Repository Service字符集 271
6.1.7 Integration Service字符集 272
6.1.8 Data Movement Mode 273
6.2 UNIX ODBC配置 274
6.2.1 ODBC常规配置 274
6.2.2 MySQL社区版ODBC配置 276
6.3 使用Mapping动态分发文件 277
6.4 超越EDW,商品自动价格跟踪 279
6.5 pmcmd命令 283
6.6 pmrep命令 284
6.7 infasetup命令 284
6.8 Mapping Architect for Visio 286
6.9 MX View语句 293
6.10 PowerCenter与其他工具集成 294
第7章 性能调优 297
7.1 性能调优过程 298
7.2 发现瓶颈 299
7.2.1 定位目标写瓶颈及调优 301
7.2.2 定位源读瓶颈及调优 302
7.2.3 定位Mapping/Session瓶颈 303
7.2.4 定位系统瓶颈 305
7.3 Mapping调优 305
7.3.1 Transformation优化 305
7.3.2 列级别的优化 310
7.3.3 其他方面的优化 312
7.4 Session调优 313
7.4.1 内存调优 313
7.4.2 PowerCenter高级特性支持高性能 313
7.4.3 其他手段 314
7.5 SQL Override调优 316
第8章 PowerCenter Troubleshooting 317
8.1 安装、启动过程的错误 317
8.2 开发过程的错误 319
8.3 Session运行错误 320
8.4 源读或者目标写的错误 321
第9章 PowerCenter扩展能力 322
9.1 PowerExchange CDC(变化数据捕捉) 322
9.1.1 PowerExchange CDC的3种模式 323
9.1.2 开放数据库CDC基本原理 325
9.1.3 CDC常见的一些讨论 326
9.1.4 CDC Real-Time for Oracle安装配置(实例) 327
9.1.5 CDC定义注册组和添加捕获注册(实例续) 331
9.1.6 CDC Mapping开发及运行(实例) 334

9.2 PowerCenter与SAP 336
9.2.1 R/3、mySAP、ECC 337
9.2.2 PowerCenter与BW 338
9.3 PowerCenter与MPP数据库 339
9.4 PowerCenter与Hadoop 340
9.4.1 接口能力 341
9.4.2 PowerCenter on Hadoop 344
9.5 元数据管理与业务术语管理 345
9.5.1 元数据的血缘分析 346
9.5.2 元数据影响分析 346
9.5.3 业务数据管理 347
9.6 B2B Data Transformation 347

读者评论

电子书版本

  • Epub

相关图书

Python统计可视化之Altair探索分析实践指南

刘大成 (作者)

本书以Altair为核心工具,通过认识数据、理解数据和探索数据全方位地探索分析数据集的统计可视化形式,以应用数据和案例研究为实践场景,使用Altair数据加工箱...

 

实用推荐系统

Kim Falk (作者) 李源 朱罡罡 温睿 (译者)

要构建一个实用的“智能”推荐系统,不仅需要有好的算法,还需要了解接收推荐的用户。本书分为两部分,第一部分侧重于基础架构,主要介绍推荐系统的工作原理,展示如何创建...

¥119.00

Kubernetes权威指南:从Docker到Kubernetes实践全接触(第5版)

龚正 吴治辉 闫健勇 (作者)

Kubernetes是由谷歌开源的容器集群管理系统,为容器化应用提供了资源调度、部署运行、服务发现、扩缩容等一整套功能。Kubernetes也是将“一切以服务(...

 

Harbor权威指南

张海宁 邹佳 王岩 尹文开 任茂盛 等 (作者)

在云原生生态中,容器镜像和其他云原生制品的管理与分发是至关重要的一环。本书对开源云原生制品仓库Harbor展开全面讲解,由Harbor开源项目维护者和贡献者倾力...

 

集成学习:基础与算法

Zhi-Hua Zhou (作者) 李楠 (译者)

集成学习方法是一类先进的机器学习方法,这类方法训练多个学习器并将它们结合起来解决一个问题,在实践中获得了巨大成功。<br>全书分为三部分。第一部分主要介绍集成学...

¥89.00

Kubernetes源码剖析

郑东旭 (作者)

本书主要分析了Kubernetes核心功能的实现原理,是一本帮助读者了解Kubernetes架构设计及内部原理实现的书。由于Kubernetes代码量较大,源码...