刚刚,阿里云亮出杀手锏CIPU,云操作系统的最强搭档
2022-06-13 13:31 文章来自:智东西 收藏(0) 阅读(4240) 评论(0)

作者 心缘

编辑 漠影

智东西6月13日报道,在今日上午举行的2022阿里云峰会上,阿里云正式推出其自主研发的云基础设施处理器(CIPU)

▲CIPU架构示意图

这是一款为阿里云飞天操作系统设计的专用处理器。作为云数据中心专用处理器,它将取代CPU成为新一代云计算体系架构的核心。

CIPU向下云化管理数据中心硬件,加速计算、存储和网络资源;向上接入飞天云操作系统,将全球上百万台服务器变成一台“超级计算机”。目前,CIPU已经在阿里云内部有较大规模的应用,为双11、阿里集团业务等内部客户和最新实例提供支撑。

对客户来说,CIPU带来的变化立竿见影:云服务的性能更高、更稳定可靠,整体性价比大幅提升。

▲CIPU的主要功能

这一新型处理器,与近两年愈发火热的英特尔IPU(基础设施处理器)、英伟达DPU(数据处理器)概念,看似有些共通之处。英伟达更是将DPU与CPU、GPU并称为“未来计算三大支柱”。

但相比这些芯片公司,既拥有自研软硬件底蕴、又深刻理解客户需求的阿里云,在实现CIPU与云操作系统的深度融合上,具备天然而难以复制的优势。

智东西与阿里云智能神龙计算平台研究员蒋林泉、阿里云智能云架构总监黄瑞瑞进行深入交流,了解阿里云围绕CIPU的远虑深谋。可以看到,这样的排兵布阵,承载了阿里云持续探路云计算无人区的技术创新与业务经验沉淀,更寄寓着它执掌云计算下一阶段定义权的雄心。

一、CIPU:云计算技术的第三阶段

阿里云刚刚喜提又一个“里程碑”。

今年5月26日,阿里发布最新财报,2022财年阿里云营收首次突破千亿大关,并实现创立13年来的首次年度盈利,经营利润达11.46亿元。

这个曾在启航时期饱受质疑、无人喝彩的业务,总算守得云开见月明,以更加出挑的成熟模式和业绩表现,验证了阿里当初的战略远见。

从2009年揭开中国云计算序章,到2013年率先攻克5000台单一集群能力,再到2017年跻身全球前三朵云,阿里云一路摸着石头过河,逐渐攻克芯片、服务器、操作系统、数据库到AI平台等核心基础软硬件技术难题,成长为中国云计算领域毫无争议的头号角色。

13年前种下的种子,逐渐枝繁叶茂,落地生花。

在阿里云峰会上,阿里云智能总裁张建锋谈道,阿里云今年最重要策略是“B2B”,即“Back to Basic”,回到云计算的本质,坚持在技术的长征路上不断取得新突破。他认为,云计算进入了一个关键的突破期,“如果我们定义好下一代的云,中国云计算就有超车机会。”

▲阿里云已服务超过400万个全球客户

如今,阿里云服务的客户数量已超过400万,客户在云上的应用负载逐渐从“以处理业务流程为中心”转变为“以数据处理为中心”,指数级增长的云上数据处理需求,向阿里云提出新的挑战——打造一个能用硬件加速计算/存储/网络的全新计算体系架构

黄瑞瑞告诉我们,过去十余年,云计算技术已历经“分布式技术”、“资源池化技术”两个阶段,其计算体系架构都是用以CPU为中心的软件实现整体调度,用CPU管理和加速计算、网络、存储等基础设施。

其中,第一阶段分布式技术解决了供应链弹性、整体可扩展性和部分资源利用率问题,推动互联网企业从大机向分布式系统整个迁移。

▲分布式架构示意图

第二阶段资源池化技术通过计算、存储分离的架构,对基础算力资源统一调度编排,提高云计算的可靠性和可用性。

▲资源池化架构示意图

然而,当云计算规模达到庞大的量级后,纯软件定义的云在实现整体管理调度方面会出现基础设施管理效率、安全风险等难题。

同时,在AI、大数据等新兴应用的发展驱动下,数据密集型计算越来越多,东西向网络流量日益增大,传统以CPU为中心的计算体系架构日渐面临计算与网络传输时延的高要求与整体I/O性能虚拟化损耗的挑战。

这驱使阿里云率先迈向云计算技术的第三阶段——自研云基础设施处理器(CIPU)

二、性能超国际先进水平,更高稳定性和性价比

何为CIPU?

它是国内唯一自研云计算操作系统飞天的最强硬件搭档,是连接服务器内硬件与云上抽象虚拟化资源的数据中心“第三颗主力芯片”。

作为阿里云底层的“定海神针”,飞天将阿里云遍布全球的上百万服务器连成一台超级计算机,为全社会输送算力。而CIPU的出现,将把整体性能提升至新的水平。

值得注意的是,CIPU并非最小颗粒度的芯片,整个硬件由阿里云自研,形态类似英伟达GPU显卡或DPU智能网卡。不过阿里云暂未透露其具体的内部构造。

底层基础设施通过插入CIPU而云化,能够托管在飞天云操作系统之中,进而形成了云上的统一虚拟资源池,并供客户使用云上算力。

▲CIPU的主要功能

总体来说,CIPU有两大功能:一是具备对底层基础设施资源的虚拟化管理能力,二是能承载飞天对这些资源的编排和调度需求,并具备存储、网络、计算、安全等硬件加速能力。

存储方面,其对存算分离架构的块存储接入进行硬件加速,提供超高性能的云盘。

网络方面,其对高带宽物理网络进行硬件加速,通过建设大规模的弹性RDMA分布式高性能网络,实现RDMA技术的普惠化,客户无需修改代码,即可享受CIPU的加速红利。

计算方面,CIPU快速接入不同类型资源的神龙服务器,带来算力的“0”损耗,以及硬件级安全的加固隔离能力(可信根、数据加解密等)。

扎克伯格的野心,藏在这个VR黑科技里

▲主流通用计算场景下性能领先

无论从名字还是功能来看,CIPU与两大数据中心计算芯片主宰者英特尔、英伟达近两年力推的IPU、DPU概念颇有相似之处。

传统云计算体系架构中,以CPU为中心的架构存在数据吞吐小、延迟要求高等特征,在CPU多核高密化趋势下,英特尔演进出IPU,基于与云厂商合作的经验,提高数据密集型场景的能力;以GPU为中心的架构数据吞吐量大,英伟达进而推出DPU,向虚拟化云化的数据中心市场渗透。

但IPU代表的虚拟化云化能力,和DPU代表的数据搬迁带宽能力,在云服务大规模场景,很难融合落地。

CIPU则能突破以上两者瓶颈,让整个云数据中心内的服务器形态以“CIPU+飞天”为中心,各项性能远超国际最先进水平:

(1)存储:通过全硬件虚拟化和转发加速,存储时延最低可至30μs(PLX),IOPS高达300万,存储带宽可达200Gbps,全面超越市面上所有云产品;支持云上多计算节点NVME共享访问云盘块存储,Oracle RAC、SAP Hana等高可用数据库可无缝上云。

(2)网络:基础带宽从100G增至200G,VPC的TCP下PPS转发性能从2000万升至4000万,TCP网络时延从22μs降至16μs,RDMA协议下低至5.5μs。

(3)计算:单容器虚拟化消耗减少50%,虚拟化容器启动速度快350%;虚拟化“0消耗”,结合高性能的存储和网络能力,通用在线分布式应用上云后,比自建物理机的集群吞吐量提升了30%,业务高峰期延迟下降了90%。在普惠化的eRDMA高性能网络加速下,AI深度学习场景下训练性能提升30%,大数据场景下Spark计算性能提升30%。

▲弹性RDMA全面加速

可以看到,无论是在分布式应用还是AI场景测试中,“CIPU+飞天”都展现出了更优越的性能。

由于阿里云提供的是标准的、开放的算力资源和编程接口,云上客户并不会被“锁定”在阿里云的底层基础设施中。

最终,客户感受到的是云上算力资源跑得更快,服务更稳定了,性价比也变得更好了。

而这些本事,可不是阿里云一朝一夕练就的。

三、软硬双剑合璧,优势初露峥嵘

CIPU并非突然诞生,阿里云为解决虚拟化损耗问题,可以追溯到从2014年开始对各种智能网卡的尝试,发现只有自研才能彻底解决这个问题, 最终投入自研并于2017年发布了CIPU的雏形神龙MOC卡。

当时,神龙主要消除了计算虚拟化消耗,对网络存储设备虚拟化实现了硬件加速, 创造了裸金属物理机。 但是网络存储转发数据链路依然是通过软件+CPU 完成。过去几年,阿里云从云操作系统向下延伸定义硬件,不断打磨数据面加速完整性,以及统一的资源调度和编排能力,这才有了CIPU的浇筑定型。

实现全部硬件加速的CIPU,能够对云数据中心内资源云化加速实现全面标准化,进一步提升云资源的规模化管理&运维等能力。

仅有硬件是不够的,上层云操作系统如何真正将CIPU充分使用起来,面临非常大的挑战。

▲飞天云操作系统+CIPU

在设计CIPU时,阿里云考虑到飞天本身特性,对飞天云操作系统里不同内核的组件、不同的云产品进行深度定制开发,使其更好地利用底层CIPU的能力。飞天与CIPU皆是为对方而生,故而能在实际应用中起到双剑合璧的效果。

就像PC时代的Wintel、移动互联网时代的“安卓+Arm”,云基础设施处理器与云操作系统的新型计算架构组合,有望加速云服务的普及,使企业像使用水电煤般便捷地随需随取算力资源。

但不是每朵云,都具备研发出CIPU的能力。

它不但要求研发团队对超大规模云计算的深刻理解,更要求研发团队完整掌握计算,存储,网络等领域的复合虚拟化技术,以及深度的芯片和硬件综合设计能力并进行“开着飞机换引擎”式的高效迭代创新,从而做到对云上算力高效管理编排和应用的性能全面提升。在技术经验和人才厚度方面,国内鲜少有团队能与阿里云匹敌。

而稳坐“亚太第一云计算服务商”之位多年,阿里云看到的风景,已经与其他多数云大不相同。

每个云计算公司的发展进程各异,拥有的云操作系统以及看到的客户工作负载需求均有差别。蒋林泉认为,其他云厂商即便看到CIPU概念,也很难模仿跟随。

从整个行业来看,阿里云、AWS走到了云计算技术发展的第三阶段,而更多云厂商则慢了一个节拍。

从技术角度来看,云厂商拥有自研的云操作系统,才能根据云操作系统的需求来量身定制CIPU;CIPU定制化能力亦需有云操作系统的适配,以实现高效利用。

对于独立芯片厂商而言,他们无法感知到第一手的云上客户需求,也无法做到“设计-使用-反馈-打磨-升级”的研发闭环,而如果不熟悉软件架构和系统软件栈,很难最有效率地进行云基础设施处理器相关研发和走出最短路径。

阿里云先后自研了飞天操作系统、神龙、倚天710等软硬件技术,正是这13年来的技术积累,才为CIPU的诞生铺好了路。

结语:千亿投资加持,阿里云驶向云计算下一站

“欲戴皇冠,必承其重。”蒋林泉谈道,CIPU已成为云IDC基础设施的中轴,阿里云将投入更多精力,利用CIPU的进化解决高密度计算趋势下存在的性能、稳定性、成本等问题,确保向客户提供一个开放、高效、安全稳定、高性价比的云平台。

回望人类历史,波澜壮阔的技术革命,不断将人们从繁复低维的劳动中释放出来,带来生产力与生产关系的巨大变革,使我们能更加聚焦于探索与创新。过去十年间飞速普及的云计算,正在声势浩大地改变商业世界,让衣食住行、学习娱乐、办公生产等各种活动变得更加简单高效。

伴随着新冠肺炎疫情及全球化退潮等多重冲击,未来商业浪潮将更加充满不确定性,加剧的企业变革正带来了巨大的经济重构机会。在这之中,作为信息时代的核心IT基础设施,云计算已成为企业通过数字化转型重塑竞争力的关键引擎。

历经13年的内功修炼,阿里云始终走在国内云计算研发创新、把控行业走势的前排,并通过持续战略投入,不断加固其强大的技术、业务及生态资源壁垒。

阿里每年在技术研发上投入逾1000亿元,除了云计算,还大量投入AI、物联网、智能驾驶、芯片设计、量子计算等前沿技术领域。这些技术厚积薄发,构成了阿里云最坚固的底气。

当以“CIPU+飞天”为中心的计算架构体系开始向更广泛的客户赋能,阿里云能否凭借先发优势,抢占下一阶段云计算的定义权?我们拭目以待。