1. 首页
  2. 互联网

蚂蚁集团何征宇:双十一背后的技术减碳,有一招”绿色计算”的杀手锏

和大部分互联网科技公司类似,当“双碳”大潮来临的时候,蚂蚁集团面临着这样一个考题:自己的业务有没有高碳排放。如果它想减碳,从哪里减?怎么减?

蚂蚁集团何征宇:双十一背后的技术减碳,有一招“绿色计算”的杀手锏 | 谈碳

他于正收到了这个提议。

何有着标准学霸模板的履历:15岁考入北京理工大学,毕业于佐治亚理工学院,获博士学位,后就职于Google Kernel Group,创办并领导开源项目gVisor,成为基础技术领域的新星。

2018年,何回国加入蚂蚁集团。他的第一份工作是蚂蚁集团的技术结构升级项目。他牵头成立了“可信原生技术部”,专门研究基础设施技术。第一个目标是通过升级技术架构,更合理地分配计算资源,提高蚂蚁基础设施的整体运行效率。

到了2020年,国家公布了“二氧化碳排放峰值,碳中和”的目标,蚂蚁集团“绿色计算”的相关团队,包括何的团队,更完整地梳理了2019年到现在的工作,从而确定了碳中和的行动路线。如今,何是蚂蚁集团可信原生事业部总裁,蚂蚁集团基础设施委员会主席。

节能减碳在行业内是有先例的。“绿色计算”是业界基于这一问题提出的新概念。虽然没有明确的定义,但业界普遍认为绿色计算的核心是提高资源利用效率。

在实践中,绿色计算主要分为两个方面:在物理层面,降低数据中心的PUE(核心能耗指标,即数据中心总能耗/IT设备能耗);在计算能力层面,合理分配计算资源。

何可信原生技术部自主研发的多项技术,与数据库和技术风险部的研究成果一起汇集到“绿色计算”系统中。2021年双十一期间,“绿色计算技术体系”首次大规模应用于阿里巴巴电商业务——蚂蚁的计算资源将成为“潮汐车道”,计算资源将按照时间段分配给不同的任务。比如,午餐免费时,可以将计算资源分配给对实时性要求不高的操作;但是到了晚上零点,计算资源完全可以支撑支付订单的高峰期,资源移动的时间可以从原来的几个小时减少到一分钟左右。

在不同的时间段为不同的操作任务提供一种计算资源,大大提高了计算资源的利用效率。去年双十一,绿色计算为蚂蚁节省了64万度电,相当于820人一年的用电量;减少二氧化碳排放394吨,相当于3万辆燃油车停一天。

2021蚂蚁集团双11减排报告

相比三年前,蚂蚁集团的服务器利用率提高了两倍多,相当于在同等规模业务下,每个算力的功耗降低了一半。

要在短时间内达到这样的减排效果,蚂蚁2019年架构升级的每一步都不可或缺。

“过去三年,蚂蚁的技术架构升级主要做了两件事。第一种是将其业务迁移到云原生架构;二是建立统一的调度中心,调度所有计算资源。”他回忆起于正的36个碳。

此前,蚂蚁已经在云上完成了业务,它的第一个满足就是把业务软件搬到云上,让它在云上“可用”。当业务进入高速发展阶段,内部计算资源分散在不同的地方。比如业务、AI等高算力部门都有自己的技术栈,重复造轮子的问题日益明显。

因此,选择升级到云原生架构,相当于彻底改造底层运行环境,基于云重构系统,以保证安全性和可信性。开发者不用像以前一样把软件部署到云上,而是从研发开始就直接在云上协作。

在此基础上,可信原生技术部开发的核心技术显著提高了计算效率。蚂蚁自研的安全容器技术,类似于让来自Android和IOS终端的计算任务同时存在于同一个环境中,让两个任务独立运行。即使CPU负载超过95%,计算效率也很少受到影响。

技术还原的背后,蚂蚁集团的组织机制和调整也提供了保障。

从组织机制上来说,每年蚂蚁集团首先受财务原则控制,每年根据上一年的资源实际使用情况制定当年的预算。之后,业务和技术将根据需求确定今年的技术投资和减排目标。

通过升级云原生架构,蚂蚁还将计算能力的分配统一到CTO线下,成立了类似可信原生技术部的部门,对相关的基础设施技术进行攻关。

“以前一些对计算能力要求高的部门会有自己的技术栈和服务器,肯定容易出现资源闲置。经过云的原生化,蚂蚁把计算能力统一到CTO线上进行部署,在技术上减少了很多损失,才有可能实现绿色计算。”他于正告诉36碳。

纵观碳中和的过程,距离国家宣布“双碳”目标刚刚一年多,科技巨头的“减碳之路”才刚刚开始。

“双碳”目标提出后,腾讯于今年2月发布了碳中和目标及行动路线,明确了第一阶段的任务:在节约能源的同时,加大绿色电力的应用,通过自研和投资探索新的技术路线和商业模式。基于原有的ICT业务,华为在去年6月成立了“华为数字能源”,目前已经输出了自己的绿色数据中心、基站等解决方案。

2021年3月,蚂蚁宣布了碳中和的目标,承诺到2030年实现净零排放(范围1、2、3),并于4月宣布了自己的碳中和路线。

从路径上看,除了降低数据中心PUE的主流手段,购买绿色电力、投资绿色技术、碳汇抵消等。,蚂蚁的碳中和排放路径更注重技术减排带来的收益——蚂蚁在今年的碳中和报告中特别提到,2021年绿色计算为蚂蚁减少了近3万吨碳。

目前,蚂蚁的绿色计算技术也正在通过开源、免费专利、论文共享等方式进行共享。其中,具有弹性和可扩展性的分布式数据库已经先行一步走向商业化阶段——ocean base数据库已经开始商业化,帮助有相应需求的客户达到增效省电的效果。现在,OceanBase已经服务了400多个客户。

还有很多事情可以做。何表示,蚂蚁的目标是在3-5年内赶上世界一流的减排实践。

国外科技巨头做碳中和比较早。早在2007年,谷歌就宣布实现碳中和。此后又陆续推出包括自研数据中心、Nest恒温节能电源等产品。在技术架构上,谷歌形成了从存储到计算的一体化基地,也大大降低了能耗。

到2021年,谷歌甚至在净零排放目标的基础上做出了更进一步的承诺:到2030年,数据中心将“一直使用无碳能源运营”,这意味着运营的整个生命周期都需要采用绿色能源。

对于3-5年的目标,何于正表示,蚂蚁主要押注于基础软件技术的突破。他认为,绿色计算的技术潜力还远未被充分挖掘。

一个证明就是,当前数据中心的PUE已经达到极限,减排的空间已经不大。但通过计算资源的合理调度,蚂蚁的资源利用率比三年前翻了一倍多,今年的预期涨幅也很可观。何认为,技术减排还有很多红利,基础技术R&D一般有后发优势,然后团队解决问题会越来越快。

接下来,可信原生技术部的触角也在不断向新的领域拓展——今年,何的团队将重点攻克存储资源池化的难题。“现在我们调度的是上层计算能力,但存储更低,更难迁移。一旦计算和存储连接起来,业务运营效率将得到质的提升,从而进一步降低能耗。我们今年的目标是资源利用率提高15%左右。”他对36碳说。

何于正

以下为36碳与蚂蚁集团可信原生事业部总裁、蚂蚁集团基础设施委员会主席何的对话,已编辑发布:

3碳:2020年9月中国提出“双碳”目标,半年后蚂蚁集团宣布了自己的碳中和目标:承诺到2030年实现净零排放。这个目标背后的背景是什么?

何:宣布碳中和的背景是响应国家“3060”碳中和目标。从表面上看,我们在2021年3月宣布了碳中和的目标,并且行动迅速。其实蚂蚁在这个方向上的探索和实践甚至更早。比如在技术减排层面,我们在这个方向的探索要追溯到2019年。

2019年,我们当时已经服务了上亿用户。当体量达到一定规模时,企业追求高质量发展将是必然的,这在我们的预测中。所以我们开始升级技术架构,把原来的云全面改造成生化,这是我们后期做“技术减排”的重要契机。当时我们就明确了,最重要的方向是提高资源利用率,更高效地消耗能源。

3 carbon:2019年蚂蚁的能量消耗是多少?

何:从减少碳排放的角度来看,我们的业务是建立在金融科技的基础上的。当初我们的能耗水平和金融行业差不多——金融服务对连续性和可用性的要求更高,很多时候是以增加能耗来换取可用性。

所以我们当时定的目标是对标国外最先进的科技公司的减排做法。比如谷歌从2009年就开始做减排。从开始减排到现在,每个业务的能效都是行业水平的两倍左右。未来,我们也希望在3-5年内赶上世界最先进的减排实践。

3Carbon:“双碳”目标出来后,蚂蚁仅仅过了半年就宣布了目标,速度非常快。蚂蚁内部对减排目标做了哪些调整?

何:2020年国家提出双碳目标后,我们的架构升级其实也在与之接轨,积累了一定的先发优势。“双碳”目标出来后,我们更完整地梳理了自己正在做的事情,比如计算效率提高后能节约多少能源,确定了碳中和的行动路线。其实从2019年开始,我们每年都会回顾这一年技术对能效的提升,这是一个长期的过程。

3Carbon:如果目标细化,蚂蚁如何拆解减排任务?

何:根据温室气体核算体系,蚂蚁集团碳中和分为范围1:化石燃料燃烧产生的直接排放和无组织排放;二是电力、热力等外包能源造成的间接排放范围;第三是供应链中相关的间接排放。我们的目标是从2021年开始实现范围1和范围2的运营排放碳中和,2030年实现范围1、范围2和范围3的零净排放。

对于科技公司来说,最大的能耗来自于数据中心、电力、制冷等等。计算是其中一个方面,可信原生技术部正在探索的是通过技术实现range 3减排的希望。

3Carbon:升级集团的技术架构是“绿色计算”技术体系的重要前提。蚂蚁集团当时是做什么的?

何:在云源生化之前,蚂蚁的技术架构和现在很多科技公司差不多。比如某个部门的计算需求比较大,那么他们可能持有自己的一些计算资源,比如存储、数据库等,独立开发。然而,在非高峰时段,许多资源是闲置的。

所以2019年,蚂蚁成立了类似可信原生技术部的中台部门,做基础技术研发。总结一下,在技术减排方面,我们做了两件事。首先是将所有业务迁移到云原生架构;二是建立统一的调度中心,调度所有计算资源。

3Carbon:蚂蚁集团用什么指标来衡量减排?相对于行业惯例,蚂蚁会重点关注什么?

何:指标是多维的。我们追求的不仅仅是简单的降低PUE等核心能耗指标,而是整体的资源利用率、R&D效率、稳定性、安全性等等。

比如我们买了一个节能的LED灯,比普通白炽灯贵一点,但是如果你买了之后一直不关,那就是浪费能源。我们追求的是动态调整灯的开关,在不牺牲业务连续性的前提下,尽可能的节能。

3碳:节约能源,同时确保业务连续性。能否分享一个具体的商业场景?应用了哪些关键技术?

何:国内很多科技公司都是运营驱动的,也就是说对计算资源的需求肯定是有峰值的。比如双11的计算资源投入可能是平时的100倍,这是目前国内科技行业最突出的问题。

以蚂蚁本身为例。我们的任务大概有一半是线上的,另一半大部分是线下的。我们应用多种绿色技术进行动态调整,比如离线混合部署技术、云原生调度、AI弹性容量等等。

比如说我们的潮汐混合技术,比如说计算资源就跟潮汐车道一样。中午大家吃饭的时候,没有太多的业务需求,我们就放弃车道,换成其他不需要太多延迟的任务。我们还会分析内部的业务数据,预测未来的计算资源峰值,不断优化算法。

3Carbon:如何提高计算资源的利用效率?难点在哪里?

何:关键的技术难点在于,当高峰到来时,计算资源是否真的能搬出来。在这方面,之前,蚂蚁的整体架构——云源生化打下了很好的基础,让计算资源可以统一调度。

云的核心组件,如容器,蚂蚁一直坚持自主研发技术,这凸显了在绿色计算体系中的重要性。比如这就相当于开发了一个新的操作系统,可以同时运行Android,IOS等等。所有计算任务运行在同一台机器上,即使整体CPU利用率达到80%或90%,也可以互不影响,大大提高了运行效率。

要实现这个前提,我们就有可能调度计算资源,让离线任务挨着在线任务运行,在线任务挨着数据库运行。通过实时动态配置,我们可以根据服务需求做到这一点。

3Carbon:业界的绿色计算一般从两方面入手,一是降低数据中心的PUE,二是合理分配计算资源。蚂蚁如何看待不同方向的减排效率?

何:PUE是计算以外的能源消耗,比如数据中心的照明和冷却等。现在业内先进的PUE水平在1.1左右,提高到1.0几乎是极限了,奖金10%左右。但是计算效率还有很大的提升空间。在过去三年中,我们的整体资源利用率提高了一倍多。

所以,对于碳治理,首先要调整能源结构。科技公司的能源消耗多为电力,我们会通过购买绿色电力来改善。然后是提高计算效率,优化资源利用。

3碳:基于云的生物化学始于2019年。这背后蚂蚁有没有组织上的调整?对计算资源的整合有什么影响?

何:有调整。蚂蚁的组织特点主要是大中小前台的形式。在技术结构升级和技术减排方面,我们首先设定了基础设施技术委员会、财务和安全团队等目标。在保证业务稳定的前提下,我们每年设定能耗改善的目标,然后我们设定技术投入和采购量。

具体实施时,以CTO条线为主导,将各业务单元的计算资源归于CTO条线,进行统一规划、采购和配置。我们有很强的节约资源的动力,组织内部有市场化的结算手段。

3Carbon:蚂蚁如何在降低排放成本和确保业务连续性之间取得平衡?

何:在减排方面,蚂蚁有一个比较强的结构控制过程。首先是财务控制。如果没有达到机器消耗或利用率,可能就不会有一些新的审批,这是从机制上保证的。

然后到我们的技术端,我们会预估全年业务发展需要多少资源,做不同的安排和分配,然后确定投入哪部分技术。

在业务端,我们一定会优先考虑资源保障,让业务的计算资源先得到满足。在避免业务中断的情况下,我们在底层部署潮汐混合等技术,帮助他们提高效率。这也是像可信原生技术部一样设立中台部的原因。

3Carbon:蚂蚁过去三年有哪些值得分享的经历?

何:我觉得首先是要有一个足够强大的基础技术团队。当我们深入到操作系统层面,无论是中间件、操作系统甚至是数据库,我们都有相应的团队为提高效率、减少排放做研发。如果你手里的东西都是黑匣子,都是从外面购买的,那你基本上什么都做不了。我们在自主研发技术上的投资在这一刻得到了回报。

其次,从技术角度来看,明确目标很重要。比如国家层面的双碳目标,对企业来说是非常积极的。对于很多技术生来说,他们担心的不是技术难或者需要时间,而是没有明确的目标或者问题。把问题定义清楚很重要。

3Carbon:刚刚提到3-5年实现世界级减排实践的目标。你觉得激进吗?

何:当然,时间很紧。我们肯定有技术优势,也面临挑战。

技术上,我们相信总会有后发优势。特别是在计算机基础设施开发领域,有两个概念:绿色领域和棕色领域。(绿野,指在全新的环境下开发系统,没有遗留代码等问题;棕色领域是指在先前系统的基础上发展或改进)

蚂蚁在这个问题上有很好的治理传统。每三年他们都会进行一次大的技术架构升级,可以更好的处理技术历史遗留的问题,解决问题的速度也会变得更快。因此,我们对实现这一目标很有信心。

3Carbon:在去年的基础上,蚂蚁集团今年的减排目标是什么?你将关注哪些关键技术?

何:通过可信的本土技术,我们去年实际上实现了27,000吨二氧化碳的减碳。今年,我们希望将资源利用率提高15%左右。

在技术方向上,今年将重点解决存储系统等问题,使存储和计算系统进一步连接,显著提高动态调度的效率。

另外,我们也非常支持和热爱开源。现在,大型开源项目Kata Containers是容器隔离的核心技术。比如未来一些涉及操作系统和云原有底层组件的技术,将会开源,通过学术论文和算法共享。

3Carbon:蚂蚁科技减排的这些做法目前有没有输出和商业化?

何:我们当然希望技术能让整个行业受益。目前“绿色计算”系统包括两大技术类别,一是云原生,二是原生分布式数据库。目前我们的云原生技术通过开源、免费专利、论文共享等方式对外开放。

至于原生分布式数据库,我们通过产品化的方式对外提供服务。我们的分布式数据库OceanBase支持绿色计算技术,目前为400多家客户提供服务。OceanBase基于离线混合部署的能力、极致无损的灵活性和智能分时调度,实现计算、存储和网络的资源高效利用。

3Carbon:从全球范围来看,有哪些好的科技减排实践可以分享?

何:在我看来,科技公司分为两种路线。一类是乙方的公司,比如云计算厂商、硬件厂商等主要提供计算能力的公司,还有咨询公司。还有甲方的公司,计算能力消耗很大。

乙方希望帮助客户实现碳中和。从硬件到软件,它有一套完整的技术栈。他们自己的技术栈利用率可以达到很高的水平。比如IBM的软硬件结合,可以让技术栈的利用率达到99%,很神奇。这是因为他们要帮助客户解决问题,他们有很好的利用AI和数据预测计算能力需求的能力。

甲方最好的公司是谷歌。谷歌最大的优势是很多系统都是自建的,而不是购买的,这使他们能够清楚地看到所有业务部门在做什么。他们的技术栈相当于把所有的服务器当成一台电脑,尽一切努力提高这台电脑的利用率。哪怕提高百分之几,在庞大的服务器体量下,效率提升也是惊人的。

所以伟大的公司会出现在这两个方向,一个是帮助客户,一个是帮助我们自己。这些都是我们应该追求的目标,蚂蚁也会去探索。

3Carbon:对于科技行业,在你看来,目前最大的减排挑战会在哪里?

何:前几天看了一个数据中心的报告,确实能反映出一些问题。目前从市场出货量增长来看,数据中心并没有放缓,每年还在提升。但是单个服务器或者CPU消耗来看,功率并没有下降。

关于减排的挑战,我觉得真的是技术上的突破。如果在加工、储存、传输过程中避免不必要的消耗,科技产业的整体能耗可以翻倍。

这意味着技术公司需要以负责任的态度看待这个问题。在5G、元宇宙等未来新的技术趋势中,我们将产生巨大的计算能力。如果科技行业无所作为,能源危机是可以预见的。

本文来自投稿,不代表梦无畏立场,如若转载,请注明出处:https://www.jiaidc.com/53184.html

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

111-111-111

在线咨询:

邮件:info@111.com

工作时间:周一至周五,9:00-18:30,节假日休息