马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
当高启强给泰叔说「风浪越大,鱼越贵」的时候,大概率没想到,这句话竟也适用于芯片行业。
这几年是人工智能的大年,风口之上,不只有绿厂一骑绝尘,各家芯片大厂也纷纷调转船头,希望在AI的海里多捞几条大鱼。
相比之下,另外一个技术半球、曾经风浪也很大的领域——云计算,貌似消停了不少。消停到以至于很多人没注意一个相当重磅的消息:
7月初,亚马逊云服务官宣,他们最新的Graviton4芯片,已经完成了大规模部署。
<a href=\"#\" rel=\"nofollow\">
这个消息之所以值得关注,是因为Graviton芯片本身就非常值得关注。遥想当年亚马逊云科技作为第一个吃螃蟹的人、以云计算公司的身份开始自研芯片,到现在Graviton4芯片大规模部署商用,这个过程中他们已经引领了三波重要的技术趋势:
趋势一:云厂商自研芯片,并由此构建独特的核心竞争力
趋势二:[color=rgb(68, 68, 68) !important]ARM架构在云端、消费端等各个场景的广泛使用
趋势三:软硬结合开启了更多创新机会,AI也是其中之一
今天这篇文章就帮你详细拆解下,Graviton4的大规模商用部署,是否会在科技领域掀起另一波滔天巨浪。
分析技术趋势之前,我们必须先来回顾和梳理一下Graviton这颗芯片的成长历程。
2015年,亚马逊花3.5亿美元收购了一个以色列的芯片公司Annapurna Labs,这成为Graviton芯片诞生的开端。站在现在的上帝视角往回看,这次3.5亿美元的收购撬动了超过4000亿美元的全球云计算市场。
事实上,两家公司在收购之前就已经有很密切的合作了。亚马逊云科技的当家技术叫做Amazon EC2,也就是Elastic Compute Cloud的缩写。这个东西是一个云计算的基础性平台,包括人工智能在内的很多应用,其实都是运行在这个平台上的一个个实例(instance)。所以这两家公司当时合作的重点,就是不断迭代Amazon EC2的性能和灵活性。但越迭代他们就越发现,软件优化的油水被榨的差不多了,各种瓶颈已经从软件转移到了硬件。更聚焦的说,瓶颈就是芯片。
本质原因很简单,市面上卖的各种芯片大都是通用芯片,并不会根据某个客户的需求做定制优化,即便是亚马逊云科技这样的超级大客户也不行。
于是他们决定,要自研芯片。
在2016年的re:Invent大会上,亚马逊云科技的传奇工程师James Hamilton就从口袋里拿出了他们自研的第一颗数据中心芯片,用来支持2x25G以太网的数据包处理。当时给业界带来的震撼程度,丝毫不亚于ChatGPT的发布。因为人们突然意识到,原来云厂商能打破次元壁,去抢芯片公司的饭碗,而且可以做的很好。
更加震撼的是,Graviton的芯片架构没有选择当时占据99%市场份额的x86,而是选择了基于Arm的Neoverse内核打造。要知道当时行业的普遍认知是,Arm只适用于低功耗和移动端场景,PC都费劲,更不用说有着高性能高功耗的数据中心服务器场景,真的开眼了。
芯片工程师们也集体沸腾了,因为这相当于给他们开启了一片职业生涯的蓝海。原来我们也能去互联网和云计算公司,分享一波互联网的红利。
两年后,亚马逊云科技在2018年的re:Invent大会上正式发布了第一代Graviton处理器、2019年推出了Graviton2、2021年推出了Graviton3、2023年推出了Graviton4,保持了两年一更的节奏,而且每代都取得了极大的飞跃和提升。值得特别注意的是,Graviton是基于Arm架构的服务器CPU芯片,目前驱动了超过150种计算实例、全球超过5万家企业和开发者在使用,这里面的意义是不言而喻的。
<a href=\"#\" rel=\"nofollow\">
具体来看Graviton4芯片,和前一代相比,核心数提升50%,达到96个;每个内核采用了当前最顶级的Arm Neoverse V2架构,这也是业界最早支持Arm v9架构的芯片之一。存储方面,Graviton4在缓存容量、内存容量和带宽等多个方面全面升级。比如每个核心的L2缓存扩大一倍到2MB,这样二级缓存总量达到192MB;同时支持12通道DDR5-5600,内存带宽提升75%,峰值带宽可以达到537.6GB/s。高速接口方面,Graviton4支持高达96通道的PCIe 5.0高速接口,非常适合数据中心云计算和云存储场景。
<a href=\"#\" rel=\"nofollow\">
更重要的是,Graviton4的设计范式也在悄然改变。传统CPU的评价机制一般都是各种benchmark(基准测试),比如Microbench、SPEC等。但随着业务的不断细化、应用场景不断增加,原来那些统一的benchmark可能很难代表某个应用场景的需求。很可能成了一个跑分大杀器,但实际使用的时候达不到要求。根据亚马逊云科技在上海 Summit 上展示的材料,也充分对比了 Micro benchmark 和真实工作负载在 CPU 上的表现有很大差异。
<a href=\"#\" rel=\"nofollow\">
于是从Graviton4开始,亚马逊云科技的造芯思路就从跑分转移到面向实际应用做设计,让芯片更加贴近使用场景,规避不必要的「内卷式」优化。
当然,这也是亚马逊云科技这样的云厂商才能有的「特权」。一个CPU的参数茫茫多,牵一发则动全身,所以特别需要知道哪些参数是重要的、哪些可能没那么重要。相比传统芯片设计公司,云厂商有大量实际场景和案例,对不同应用的侧重点和优化方向有第一手资料,相当于坐拥一个大宝藏了。而且这些应用更贴近自己的业务场景,也不需要为其他云计算公司的其他业务做妥协。
<a href=\"#\" rel=\"nofollow\">
再详细聊聊前文说的Graviton带来的三个技术趋势。第一个趋势,就是在亚马逊云科技的造芯「示范效应」下,全球各家云厂商都纷纷开始自研芯片了,而且自研芯片给亚马逊云科技自己的业务也带来了实打实的提升。
根据亚马逊云科技的数据,和前一代相比,基于Graviton4的R8g实例性能提升30%,数据库性能提升40%。国外也有手快的人第一时间做了测试,在HPC、加密、代码编译、模拟仿真、光线追踪等实际应用场景下,Graviton4都取得了不错的提升。
比如做数字芯片仿真常用的Gem5模拟器,编译一个大型芯片的仿真需要很久,所以编译速度非常关键。但从测试结果可以看到,使用R8g实例后编译速度明显提升,不仅比前几代有大幅提升,也比大厂的产品有23%~49%的提升。
之所以Graviton能在短短几年取得如此亮眼的成绩,一个重要的原因就是采用了Arm指令集架构,这也是他们引领的第二个技术趋势。x86服务器芯片其实起源于客户端芯片,然后逐渐往里面增加服务器芯片需要的功能。而亚马逊云科技没有这样的包袱,他们就专注于服务器芯片本身,在利用了Arm架构低功耗、低延时的优点的同时,还结合自己的应用做了大量性能优化,也让Graviton成为了Arm架构在高性能计算领域的成功范例。
比如,Honeycomb公司在测试了R8g实例后发现,和x86架构相比,Graviton在降低尾延时方面效果最明显。与基于 Graviton3的 C7g、M7g 或 R7g 实例相比,R8g实例运行的副本数可减少 25%、中位数延迟降低20%,第99百分位延迟降低了10%。
不仅如此,Graviton已经开始进军AI领域。它特别内置了可伸缩矢量扩展(SVE)技术,它是单指令多数据(SIMD)的进一步延伸,允许CPU自由使用不同的向量长度,从而实现更加灵活的数据访问和计算,这也是Arm架构支持AI计算的杀手级技术之一。在Graviton4中,每个内核就集成了4个128位的SVE-2矢量引擎,明显就是着重发力高性能计算和AI应用。
此外,Armv8.6-A架构中还特别添加了SMMLA和FMMLA,可以在不同宽度的阵列上同时执行通用矩阵乘法,并且将取指周期缩短最高4倍、将计算周期缩短达16倍。
这些是Arm架构针对ML和AI的优化,Graviton其实也做了很多自己的进一步优化。比如面向大语言模型的推理应用时,Graviton针对int4和int8内核进行了优化,从而更好支持这些低精度数据指令。
根据亚马逊云科技的数据,在Llama3-8B模型的推理应用里,当进行提示词处理和Token生成时,Graviton3比友商的第四代至强和第四代EPYC都取得了明显性能提升。那用了Graviton4之后,随着单核性能至少提升30%,整体AI能力更是降维打击前一代。
<a href=\"#\" rel=\"nofollow\">
<a href=\"#\" rel=\"nofollow\">
Graviton带来的第三个技术趋势,就是借助Graviton的加持,让亚马逊云科技这样的云计算公司更快从通用计算进军AI计算。未来的AI领域,大模型训练或许只是少数,而基于大模型的推理才是更加广泛的应用。这时算力就不完全是绝对且唯一的考虑因素,人们还需要思考更多关于功耗、成本、延时这些同样关键的指标。
很多人认为自研芯片是个投入极高的事情,事实也的确如此。但一旦芯片大规模量产部署,边际成本就会越来越低,自研芯片的成本优势甚至会在这个时候凸显出来。芯片界大神Jim Keller曾经说过,当摩尔定律驱使单颗芯片上晶体管数量不断增加的时候,单纯追求更多晶体管并没有意义,有意义的是如何把这些多出来的晶体管用起来。
通过自研芯片,能去掉很多自己业务场景中不会出现、或极少出现的情况,让芯片的每个晶体管都能用起来。相比之下,芯片厂商需要兼顾不同客户之间的通用性,所以会不得不各种「端水」,造成面积和晶体管的浪费。这也是为什么基于Graviton的云计算实例更便宜的本质原因。
其实,很多传统云计算或许还有一些「历史包袱」,比如成堆的历史代码都是面向x86架构开发的,移植到Arm架构需要一定的时间和努力。但面向AI、特别是大模型相关的应用时,x86和Arm几乎是站在同一条起跑线,这也给没有历史包袱的Arm架构在AI端的应用提供了新的机会。
图灵奖得主John Hennessy和David Patterson说过,当前是计算机架构的新黄金时代。他们做的一个重要预言,就是CPU的架构将朝着更加精简的方向发展。而这条预言,几乎已经被Graviton变成了现实。
Graviton引领的三个技术趋势或许只是表象,当人们几乎一致认为x86 CPU就是终极解法时、当人们认为AI芯片等同于GPU时,它为我们揭示了技术发展更多的可能,并由此带来芯片设计范式的变革——这或许才是Graviton给行业带来的更大意义。
亚马逊云科技re:Inforce 2024中国站即将拉开帷幕!
『本文转载自网络,版权归原作者所有,如有侵权请联系删除』
|