阿里免费开放一切AI算力的背后是什么?

陈晓猛

2020-02-10

为加速新冠疫苗研发,日前阿里云已免费开放其一切AI算力。同时,阿里云将与合作机构向全球科学共同体免费开放相关药物研发资源,共同加速针对新型冠状病毒的药物研发。这若干项举措背后的助力,源自于阿里巴巴强大的云计算基础设施。

本文节选自《企业数字化基石:阿里巴巴云计算基础设施实践》一书,将为大家带来云计算基础设施的技术价值。


▊ 基础设施的技术价值

基础设施的技术价值层次如下图所示。

基础设施的技术价值层次

  • 基本价值:实现专业技术的基本价值,例如,网络对于业务的基本价值是网络传输数据的价值,体现在连通性、可靠性、带宽等方面。

  • 架构价值:当某项技术成为决定技术变化的核心的时候,我们就认为其不仅发挥基本价值,还发挥了架构价值,例如,Flash 存储技术的成熟,让阿里巴巴能够以分布式技术替代原先需要高端存储和计算才能完成的海量数据库业务支持,从而成就了去 IOE 的成功。

  • 业务价值:当一项技术变得人人都可以随时使用的时候,这项技术必然产生业务价值,例如,计算和虚拟化技术的发展,让租用计算能力成为云计算的核心模式和竞争力。

  • 成本价值:当一项技术趋于完全成熟时,成本就成为考量这一技术竞争力的最后一个指标,甚至有些时候,成本会成为一项业务的核心竞争力,例如,常见的互联网业务在业务发展前期都会以低价、亏本、免费的方式吸引客户,这时候,成本是否足够低,就成为业务能否生存、吸引客户的关键因素。

回顾最近互联网相关技术的发展,云计算、大数据、AI 等无疑一方面是技术创新最活跃的领域,另一方面也都成为新的业务方向。基础设施技术的持续创新,为它们提供了更多机遇。

基础技术研发要充分考虑技术的这四个价值层次。本书将围绕基础设施技术及其技术价值体现做细节探讨。

1. 技术安全

当基础设施技术成为核心竞争力和发动机的时候,技术安全成为一个必须要面对的课题。基础设施技术安全考虑以下几个方面。

  • 关键技术 / 资源,不受单一供应商绑定,不被竞争对手领先。

  • 符合行业 / 国家 / 地区规定和国家技术安全。

  • 技术不足严重影响公司业务发展,如果阿里巴巴在过去没有做去IOE(IBM, Oracle,EMC),就不可能有电商、金融甚至云计算业务的成功。

  • 技术不足导致竞争劣势,成本差距无法承受(比如成本差距 >10%)。

  • 技术发展导致业务被颠覆。

  • 核心技术泄露导致丧失竞争优势。

  • 唯一、稀缺资源的获取,产生更多的业务想象力,同时形成竞争优势。

如何应对技术安全问题,是基础设施技术发展过程中需要始终重点考虑。

2.稳定性

基础设施作为支持和运行业务的重要生产资料之一,其稳定性也极大地影响着业务的稳定性。

基础设施特别是硬件类设备一定会存在故障,云计算将基础设施的不稳定作为基本假设来设计系统——这一点也成为云计算区别于传统设备供应商的核心竞争力之一——因此会在业务层设计容灾措施,例如阿里巴巴电商类业务的同城双活、异地多活架构就降低了对基础设施的依赖。但是并非所有业务都拥有完善的架构来应对基础设施故障,因此基础设施的稳定性SLA(Service Level Agreement )/ OLA( Operational Level Agreement )仍然是一个长期的挑战。

同时,稳定性的SLA/OLA 并非越高越好,针对某些特定业务,我们适当降低 SLA/OLA 的要求可以有效提高成本优势和效率,在《企业数字化基石:阿里巴巴云计算基础设施实践》一书中将会详细展开。

  • IDC

Uptime Institute 和 TIA 都将数据中心分为四个等级,即Tier I ~ Tier IV,直观来 说,等级越高的数据中心稳定性越好。

中国质量认证中心(CQC)的标准GB50174-2008 将数据中心分为A、B、C 三个等级,其中 A 级为最高。

IDC作为底层的基础设施,出问题之后影响面也往往最大,同时稳定性的挑战也最大。一般来说,IDC触发的故障都是非常严重的故障,例如,2015 年 6 月 21 日阿里云中国香港机房故障导致的业务中断超过 12 小时的严重事件:

“6月21日上午9点37分,阿里监控系统发现阿里云中国香港IDC 运营商名气通机房出现访问异常,名气通机房反馈的原因为供电系统故障导致数据中心大楼整体断电,并触发消防报警。根据当地的消防规定,必须彻底排查隐患并完全消除后,才能获准进场做电力抢修。21点22分,机房正式恢复稳定供电,阿里立即执行既定预案逐项恢复服务,21点 32分,安全防护服务恢复正常,各项服务陆续恢复,截至 23点39分全部服务恢复。”

因此,IDC 作为底层的基础设施,稳定性是重中之重。

  • 网络

作为连通所有服务器、所有服务与用户的管道,网络稳定与否将第一时间影响业务及用户,因此也被提出非常高的稳定性要求,特别是要杜绝大规模故障。

网络稳定性的典型表征是故障多、影响大、排查难、恢复慢。在影响业务的严重故障中,网络的原因也经常有,2015 年 5 月 27日支付宝故障就是非常典型的例子:

“杭州市萧山区某地光纤被挖断,造成目前少部分用户无法使用支付宝,运营商正在抢修,支付宝工程师正在紧急将用户请求切换至其他机房,受影响的用户正在逐步恢复。用户的资金安全并不会因此受到任何影响。如果出现交易信息不同步的情况,在修复后会恢复同步。”

传统网络作为一套封闭系统,涉及复杂的软硬件及多厂商设备、协议等兼容性问题,非常容易触发稳定性问题。小到一台接入交换机(ToR Switch/ASW),大到核心交换机、路由器及运营商网络和光纤,都可能出现轻微或非常严重的问题。

对于网络稳定性,如何做到架构上冗余、出问题快速发现乃至自动恢复是未来网络的重点课题,这部分,我们将在第5章及第10章重点探讨。

  • 服务器

成熟的互联网应用是基于硬件的不可靠性这一基本假设来设计的,对单一服务器的稳定性要求不高。但是对服务器稳定性的挑战有以下两个方面:

  • 批次性问题:损失超出了业务设计的容忍范围或者多余的人力投入。

  • 资源售卖型云计算服务对单机的可靠性依赖。

如何从服务器的设计、研发、生产、交付、运营各个环节系统化地避免服务器的批次性问题,是服务器研发的重要挑战,我们将在第 6 章做相关探讨。

3.TCO

任何有竞争力的产品对用户来说都应该是TCO(Total Cost of Ownership)最优的。在基础设施领域,TCO 也是稳定性之外最重要的衡量指标,或者极端地说,任何不能降低 TCO 的创新都是假创新。

TCO 的核算是一个非常复杂和困难的课题,比如阿里巴巴之前以单笔交易(或支付)成本作为衡量指标来评估基础设施水平。但是由于业务的不断发展、业务类型不断丰富、用户体验提升、安全对抗加剧、市场容量饱和等因素,需要全局的成本建模,这会在本书第 2 章详细阐述。

4.稳定性、性能、成本的平衡

任何事情都有两面性,就像RFC1925 的 12 条中的第7 条说的一样,基础设施的 特性决定了基础设施研发和创新的困难:

  • 稳定性、性能、成本平衡困难(如下图所示)。

  • 复杂的系统工程,领域众多、依赖度高、牵一发而动全身。

  • 硬件研发和迭代周期长,投入资源量巨大。

image

稳定性、性能、成本

要应对这些困难和挑战,做到基础设施的宏观架构与微观架构统一,需要科学的方法论和实践,更需要AI 等技术的加持,才能求得基础设施的最优解,详见书中第9 章 和第 10 章的相关内容。

5.追求效率、标准化、规范化

因为大规模系统在建设、采购、交付和运营各个环节都要保证效率最大化,所以对规范、标准方面的要求就成为提升效率的最有效抓手,且规范和标准也是提升稳定性的有效手段之一。

例如如何做到大规模情况下服务器交付效率的提升,已经成为当前阶段的重要课题。互联网行业的最佳实践是采用整机柜交付模式,这一交付模式本身就要求机架层面的规范化和标准化,以实现以机柜为单位的可复制,来提升交付效率。

僵化的规范与标准可能会成为阻碍创新的绊脚石,我们要能够根据技术发展、业务变化快速地更新优化规范与标准。

▊ 《企业数字化基石:阿里巴巴云计算基础设施实践》

高山渊 蔡德忠 赵晓雪 刘礼寅 刘水旺 陈义全 徐波 编著

这是一本对阿里巴巴云计算基础设施技术实践的全面总结,并被赞誉对当前国内外云计算基础设施技术发展具有里程碑式的指导意义!它就是由阿里巴巴官方团队编著、承载着云计算技术风云变幻的著作 ——

image

本书将详细地阐述阿里巴巴在基础设施上的实践细节及先进技术,包括数据中心、网络、服务器、计算硬件、存储硬件,以及智能化运营与自动化运维等内容。

本书得到了阿里巴巴集团CTO兼阿里云智能事业群总裁张建锋(行癫)阿里巴巴集团副总裁基础设施事业部负责人周明中国信息通信研究院云计算与大数据研究所所长、开放数据中心委员会名誉主席何宝宏三位的亲笔作序推荐。

※ 强大的作者团队

本书由AIS (Alibaba Infrastructure Service )组织编写,主要作者为高山渊,蔡德忠,赵晓雪,刘礼寅,刘水旺,陈义全,徐波。历时三年,前后百余位技术专家参与写作。( AIS是负责阿里巴巴集团所有基础设施的研发、运营、维护等工作的部门)

※ 全面扎实的内容

本书不仅阐述数据中心、网络、服务器、计算硬件、存储硬件、智能化运营与自动化运维,而且梳理了基础设施演进过程中的思路、得失、最佳实践、未来路径规划。

※ 全彩印刷

阅读体验友好,图表均经过精心配色设计和描绘。每一处知识点的写作都经过了阿里巴巴云计算基础设施技术专家们的推敲与斟酌。

image

※ 核心内容

  • TCO分析和建模
  • 数据中心能效
  • 数据中心的核心技术,包括供电、制冷等
  • 数据中心网络架构和关键技术
  • 服务器技术:服务器的硬件组成、演进、挑战等。
  • 计算硬件技术:通用计算、异构计算、总线互联等。
  • 存储硬件技术:内存、HDD、SSD
  • 及阿里巴巴自研存储产品AliFlash等。
  • 基础设施智能化运营与自动化运维
  • IDC、网络、服务器的一体化

读者评论

无意中朋友圈看到何万青博士推荐《企业数字化基石:阿里巴巴云计算基础设施实践》这本书,随手天猫下单,没过2天就到货了,但是因项目上事情多,一直没有时间看。最近正好年末得空阅读,给我的震撼非常打大,本人从事系统集成10来年,陆陆续续也读很多关于基础设施相关的书籍,可惜的是大多市面上的书籍技术深度和广度都不够。但是这本书涉及领域多,专业度强,从多个维度阐述如何构建高效、清洁、可靠、安全的企业数字化基石,对我来说是不可多得的好书。

—— 来自首批读者留言

▲ 扫码获取本书详情 ▲

读者评论

相关专题

相关博文

  • 聊聊高并发之隔离术

    聊聊高并发之隔离术

    张开涛 2017-04-21

    隔离是指将系统或资源分割开,系统隔离是为了在系统发生故障时能限定传播范围和影响范围,即发生故障后不会出现滚雪球效应,从而保证只有出问题的服务不可用,其他服务还是可用的;而资源隔离有脏数据隔离、通过隔离后减少资源竞争提升性能等。我遇到的比...

    张开涛 2017-04-21
    1377 0 0 0
  • 了解智能一体化

    了解智能一体化

    陈绍英 2017-04-21

    了解智能一体化测试平台 智能一体化测试平台是为支持智能一体化测试理论而开发的平台,这个平台主要面向后台系统的服务/接口测试。借助这个平台,开发测试人员进行服务/接口测试时可以将工作重心集中在测试案例设计与管理上,测试执行与分析主要交...

    陈绍英 2017-04-21
    354 0 0 0
  • 书单丨人工智能——未来科技之巅

    书单丨人工智能——未来科技之巅

    管理员账号 2017-03-23

    从AlphaGo肆虐围棋界,到人工智能创业大军的崛起,都预示着我们即将步入“AI”的时代。谷歌(Google)、脸书(Facebook)、百度、阿里巴巴等一系列国内外大公司纷纷对外公开宣布了人工智能将作为他们下一个战略重心。 人工...

    管理员账号 2017-03-23
    598 0 0 0