TA的每日心情 | 怒 前天 10:56 |
---|
签到天数: 85 天 [LV.6]常住居民II
三级逆天
- 积分
- 53741
|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
苹果M1作为Arm之光,似乎已经成为很多芯片厂商的噩梦了。它不光是Intel、AMD的噩梦,也是高通、联发科这类厂商的噩梦,因为它刷新了芯片的单核性能与IPC,整体还能保持很低的功耗。蒂姆库克最近还偷偷潜入苹果总部,偷偷把M1从MacBook身上搬到了iPad与iMac内部。
有关M1的彪悍能力,我们在此前的文章里已经多有介绍。简单回顾一下苹果自己宣传中的数据:
广告
这张宣传图横轴代表CPU功耗,纵轴代表CPU性能。其嚣张之处在于,一方面它没有明确标尺和对比对象(常规传统),另一方面则从图中可见,在相同功耗下(如10W),其性能领先幅度远高于竞品——苹果当前的宣传数字是,同功耗下最高2倍性能领先。与此同时,仅需“25%的功耗”就达到传统PC所能达到的峰值性能。(记忆中,苹果可能修改过表达)
虽然所谓的“竞品”指代不明,但大抵上也就是指Intel的十代或十一代酷睿处理器了。这张含糊不清的图,其嚣张程度几乎已经到了无视摩尔定律和行业常规的程度,“在座的都是XX”——当然我们知道,具体数值并没有苹果宣传中那么理想,毕竟x86这边的处理器仍有频率方面的显著“优势”。
如此前探讨性能详情时所述,这张图不仅吊打了Intel(Ice Lake/Tiger Lake)、AMD(Zen 2/Zen 3),也吊打了高通(骁龙8cx一代二代)、三星(Mongoose)等Arm同阵营的其他市场参与者。似乎在未来很长一段时间内,都很难再出现这么嚣张的能效吊打数据了。直到有家叫Nuvia的公司制作了另一张吊打苹果的图。
高通的处理器有多高性能?
苹果M1证明了Arm也能用来造高性能处理器,但并不意味着其他同在Arm阵营的企业有这种能力。和苹果存在直接竞争关系,且同在Arm阵营的,市场表现比较出色的应该就是高通了:无论是在手机处理器,还是在PC处理器上。
单纯从CPU核心的角度来看,高通目前的高性能核心实际上也就是ArmCortex-X1了,具体的芯片产品即骁龙888——X1也代表了Arm自己目前的高性能核心微架构。有关Cortex-X1的详情,我们在此前分析5nm芯片文章中已经提到过。
Cortex-X1实则表现出Arm有进一步向高性能领域,包括PC、数据中心等市场进发的意思(面向服务器的Arm Neoverse V1高性能核心,正是Cortex-X1的改进版)。因为传统的Arm微架构普遍在低功耗方面做文章,比如Cortex-A系列IP是追求PPA性能、功耗和成本三方均衡的。而Cortex-X1突破了这种传统,首次在PPA三角中向性能偏移,并一定程度牺牲功耗和成本。
微架构层面,Cortex-X1在宽度上明显加宽,虽然还没到苹果M1的Firestorm核心的程度,但比同代Cortex-A系列已经是规模上的扩展了,比如5-wide decoder前端,ROB条目增加40%,NEON宽度加倍,L2和L3 cache容量加倍,Mop cache条目加倍。很多指标甚至比Intel的Sunny Cove(十代酷睿)还要彪悍。Cortex-X1实现了相较Cortex-A77大约30%的IPC提升。
30%的IPC提升仍然是相当出色的迭代数字。不过对PPA平衡的打破,也一定程度表明至少从核心层面来看,CPU的单核性能提升即便在Arm这边,也变得越来越有难度。
Cortex-X1的具体实施,主要包括了高通骁龙888和三星Exynos 2100。上面这张图包含了AnandTech针对这两颗处理器的SPEC2006性能测试数据,左边的柱状条代表跑完整个测试的能耗(越短越好,单位焦耳;其中柱状条右边的第一个数字表示平均功耗-单位瓦特-即单位时间内做的功),右边的柱状条代表性能成绩(越长越好)。
无论是整数还是浮点测试,Cortex-X1的IPC提升基本符合Arm预期(虽然三星和高通都没有用上Arm为X1设计的顶配,比如仅一半容量的L3 cache),但骁龙888(以及Exynos 2100)还是被苹果A14(与M1一样的Firestorm核心)甩开一截的,从能耗与性能的角度来看都是如此。可见文首的苹果“吊打图”,实实在在地表现了苹果自身在高性能CPU核心设计方面的能力。
至于另一个方向,高通面向笔记本的骁龙8cx,此前我们也探讨过。这颗处理器在CPU核心层面还在用Cortex-A76(高通定制版的Kryo 495),从系统层面加倍内存带宽、提升芯片TDP,来提高其性能。但从已上市的笔记本产品来看,苹果M1可以在性能层面把骁龙8cx按在地上摩擦,无论多核还是单核性能,前者都是后者的2.2-2.5倍。应用骁龙8cx的Surface Pro X,轻度办公是够了,但在更追求性能的生产力应用中,骁龙8cx还是比较悲惨的。
虽然以上内容更多探讨了手机、笔记本这样的移动领域,但核心本身很多时候是在不同应用领域共享的,只不过会有频率、cache、规模方面的弹性扩展。高通现阶段是很难拿出在性能上和苹果抗衡的处理器的。单纯从性能的角度来看,如上周我们探讨Arm服务器处理器的文章,即便有新推的Arm Neoverse,其单线程、每核心性能也依然达不到x86处理器的水平(虽然数据中心的很多应用可能并没有那么看重单核性能,而且Neoverse有功耗方面的优势)。
所以高通收购了Nuvia
高通在骁龙820之前一直有自研微架构的传统,像如今的苹果一样,即基于Arm指令集做自有微架构的尝试。不过这个动作从骁龙835开始便停止了,自2017年之后,高通在骁龙处理器的CPU之上,就采用Arm“公版”核心IP、放弃自研微架构了。
这与当时的多种因素相关,可能包括早期Kryo架构(骁龙820/821)在路线上走偏(过于注重浮点性能,以及功耗崩边致最终产品规格被砍等问题),Arm后期针对核心IP授权模式越来越灵活(表现在可半定制,或更多可选配置),Arm自己的技术在日趋成熟,以及高通当时在自身发展上也遇到了一些问题。
自研微架构之路没那么好走,三星Exynos处理器从自研架构的入门到入土(2016-2020)都没有一款真正可拿得出手的作品,就是前车之鉴。这也更能衬托苹果芯片的彪悍。
所以高通选择了收购一家初创公司Nuvia,收购价格14亿美元,收购完成是在今年3月份。从宣布收购到收购完成,也就几周时间。高通收购Nuvia实在是顺理成章的事情,这家公司除了设计基于Arm的核心产品,其人才储备是令人相当眼馋的。
这家公司成立于2019年,创始人包括苹果CPU团队的前任首席架构师 Gerard Williams;联合创始人John Bruno,此前也在苹果和谷歌做过系统架构师。这俩人都有数十年的处理器设计经验,另外加入这家公司的大神还有Manu Gulati,也是前谷歌与苹果芯片团队核心成员。
其中Gerard Williams不仅在Arm公司工作了12年,而且还曾领衔过苹果A系列芯片Cyclone(苹果A7处理器CPU核心,iPhone 5s)、Typhoon(A8,iPhone 6)、Twister(A9,iPhone 6s)、Hurricane(A10的大核心,iPhone 7)、Monsoon(A11大核心,iPhone 8/X)以及Vortex(A12大核心,iPhone Xs)架构的设计。2019年12月,苹果状告Gerard Williams,称其违反合约,包括擅自创办企业,以及挖角旗下员工——这种八卦还是能够说明Williams的地位的。
有关Nuvia公司旗下产品,我们很难挖到什么细节。为数不多的线索就是Nuvia发布的几篇博客文章——且估计后续看不到Nuvia的博客更新了。从Nuvia最后一篇更新的博客文章可见,下一篇原本是打算谈更多芯片功耗管理方面的技术的,可能会提及Nuvia相关的技术;被高通收购后,就要看高通在相关技术公开方面的策略了。
Nuvia实际的芯片产品尚未问世,而在上个月的高通发布会上,高通提到“首个搭载高通全新内部设计CPU的高通骁龙平台,预计将在2022年下半年出样,设计上针对高性能超级本产品。”换句话说,Nuvia为高通贡献的Arm自研架构处理器最早可能会在2022年问世。
不过Nuvia这家公司原本着力的方向是数据中心的服务器处理器。如文首所述,去年8月份这家公司画了一张比苹果M1更嚣张的图,如下:
这张图横轴同样代表功耗,纵轴代表单核性能(Geekbench 5测试性能)——大致上与文首苹果呈现那张图的维度是类似的。这张图中,紫色、蓝色、绿色那几条比较平缓的曲线,是Intel和AMD近代的处理器产品,包括Intel十代酷睿的Sunny Cove核心,AMD Zen 2核心等。
而红色、黑色、灰色那三条曲线分别代表高通骁龙865(Arm Cortex-A77)、苹果A12X(Vortex)、苹果A13(Lightning)。最左侧那条深蓝色辐射状“曲线”就是Nuvia的Phoenix核心了(据说画成这个形状,是为了将来再揭晓具体数值)。不管这个表达方式有多奇特,在Nuvia标定的深蓝色区间内,吊打苹果前几代芯片产品的CPU性能和功耗是没问题的。
虽然这其中没有加入苹果M1/A14(Firestorm),也没有加入最新的AMD Zen 3和Intel Tiger Lake(十一代酷睿,事实上Intel最新的Xeon服务器处理器就是十代酷睿的Sunny Cove核心),但查一查Firestorm的Geekbench 5性能测试就不难发现,这个Phoenix才是真正的全方位吊打。苹果前员工创办的公司,果然有苹果公司的调性…
这张图的信息量也比较大,虽然Geekbench 5可能未必有那么靠谱:
第一,观察高通骁龙865(红色)与x86处理器(蓝色、绿色、紫色)可发现,x86处理器在性能上高出不少,但付出了巨大的功耗代价(x86处理器核心频率普遍很高)。在Geekbench 5测试中,x86平台以6-11倍的功耗,才达成了大约50%的性能领先。这一点算是符合预期,功耗和性能的提升关系本来就不呈线性。意即我们推测,如果考虑提高骁龙865的频率,其功耗同样大概率面临崩坏。
第二,AMD和Intel是旗鼓相当的水平,虽说AMD近两年有工艺和核心数方面的优势,但相比Intel的优势并不算大(图中未列出更新的Zen 3,在多核性能上,AMD应该会有更大的优势;另外我们认为,单纯从微架构的角度来看,Zen也并没有显得多先进)。
第三,苹果A系列芯片,在CPU性能上比高通骁龙芯片有显著优势,在CPU性能与x86平台持平或略高的前提下(注意:是单核性能),功耗有显著优势。
Nuvia认为,作为其主业,数据中心的服务器SoC芯片如今对功耗也是相当敏感的,在限定功耗的问题上与移动SoC是一致的。且服务器CPU的核心数目在增加,但TDP是需要得到限制的,则每个核心的功耗就必须得到限制。在谈Arm服务器CPU的那篇文章里,我们知道以Neoverse为代表的服务器处理器架构,目标设计一颗处理器最多可以有128个核心,未来架构更新还会涨到192个核心。
按照芯片整体TDP限定在250-300W,以及CPU外围功耗10-120W,每个核心可以分配到1-4.5W功耗。上面这张图,就是Nuvia用所谓的架构性能模型技术,规划出来的Phoenix核心性能表现。Nuvia在博客中提到,其CPU核心性能是竞品的2倍,而且还在1-4.5W这个TDP区间内。
产生这张表的测试方法,有兴趣的同学可以去看一看Nuvia的博客。我们无从了解Nuvia是如何达到这个性能和效率水平的,或者最终产品是否真的能达到宣称的水准。相关具体实现的,其博客只透露了这样几段话:
“Nuvia专注于开发一款提供行业领先性能,且最高效率的SoC。为了达成这一点,我们以一种全新的方式打造了一款服务器CPU,CPU流水线做出了全面变革。”
“虽然市场还会有更多的成长空间(指在Amazon Graviton问世以后),但市场核心对于特定TDP之下的最高单线程性能与全核性能,有着很明确的需求。对于绝大部分需求大规模集群的客户而言,这是提升性能与成本之比(Performance/TCO,TCO即总拥有成本)的最快方法。”
“我们采用了不同的方法,以没有累赘的CPU设计,提供性能和功耗的优雅平衡,最大化内存带宽和核心利用率。我们的解决方案不需要增加额外的核心来弥补单线程性能不足的缺陷。与此同时,也不需要采用市场上吹嘘的增加频率的方式——由于TDP限制,这样的频率在服务器SoC的真实应用中根本无法达到。”
值得一提的是,这项测试比较显著的一个槽点是测试工具选择了Geekbench 5。这个工具一方面并不是针对服务器处理器的,另一方面其测试项也伴随较大争议;通常认为SPEC才更具覆盖服务器使用场景的代表性,从编译到AI到天气预测应用等。不过Nuvia特别撰写了一篇文章来阐述Geekbench 5和SPEC的区别,以及说明采用Geekbench 5的合理性(这篇文章还是挺有意思)。
比如他们实测认为,Geekbench与SPEC测得的成绩是基本同步的,较少存在某款处理器一个测试分数很高,而一个则很低的情况。它们的关系接近线性,如上图所示;甚至用这种关系,得知某个测试的分数后,就能推测另一项测试的分数,准确率还挺高。
Windows笔记本是第一目标
从Nuvia几名大佬的从业经验来看,上面的这些说法有更大的概率是可靠的。高通亦极有可能借助Nuvia的收购,在未来面向不同领域的产品中再度采用自研微架构的处理器,以获得技术上的新一轮优势。
Nuvia在融入高通后,似乎暂时将不再从事服务器CPU的研究。此前高通接受采访时提到,对Nuvia的收购是为了填补这么多年来IP设计的空白,因为这些年高通一直在采用外部的IP,比如Arm的Cortex核心;而Nuvia当前最直接的目标是设计针对Windows笔记本的骁龙SoC芯片(Intel又中枪)。
另外,服务器和企业市场并非收购Nuvia的直接目标;且长期规划尚未完全敲定。高通在今年1月份发的新闻稿中提到将Nuvia的CPU技术与内部的各种加速处理器产品融合,针对不同的市场。智能手机、ADAS、增强现实、网络基础设施、笔记本等应用均在其列。预计明年到后年,Nuvia的设计抵达市场,这些领域又要热闹很久了。 |
|