论坛风格切换切换到宽版
发帖 回复
返回列表  提醒:不能用迅雷等P2P下载,否则下载失败标(二级)的板块,需二级才能下载,没二级不要购买,下载不了
  • 1394阅读
  • 37回复

[技术文章]深度解读ARM新架构:大核进取、小核摆烂? [复制链接]

上一主题 下一主题
 

性别:
帅哥
发帖
60
金币
97
提示:会员销售的附件,下载积分 = 版块积分 + 销售积分       只看楼主 倒序阅读 使用道具 0楼 发表于: 2022-07-30
众所周知,对于如今的绝大多数的智能手机、平板电脑,以及部分笔记本电脑产品来说,ARM可以说是“一切的源头”。高通与三星的SoC近年来一直使用着ARM公版的CPU设计,而被公认“翻身”了的联发科,则靠的是ARM公版的CPU与GPU架构,甚至就连一向标榜“自研”的苹果,实际上也离不开ARM的基础指令集授权。 E{[>j'dwc  
,-1d2y  
E4xybVo@  
s~g]`/h$r  
正因如此,当ARM方面在2022年6月28日晚间,毫无预兆地突然发布了全新一代的架构方案后,自然也值得我们去进行进一步的分析。 VaTA|=[;  
+jj] tJ$[  
性能概况:大核更强、中核更省,GPU加入硬件光追
4YCuO%  
开门见山,我们先直接为大家带来ARM这一代新架构的性能相关信息。并且非常令人感叹的是,ARM此次在公布新老架构性能对比数据时居然不再“玩巧”,事实上,他们给出了可能是史上最详细的性能对比参数。 >UV?n XP}  
NtQ#su$  
首先,是全新的Cortex-X3大核。在使用了完全相同半导体制程、主频和缓存设计的前提下,Cortex-X3的性能比Cortex-X2可以提升11%。 NP$ D9#   
K#dG'/M|Pb  
py9`q7F  
&8hW~G>(m  
在使用完全相同半导体制程,但主频和缓存设计按照新老架构的不同典型值做对比时,Cortex-X3的性能比Cortex-X2可提升22%。 KZ|p_{0&  
10m`LG  
3+V.9TL'a  
{N@tJ,Fh{  
如果再考虑到制程方面的因素,比如假设Cortex-X3采用新的台积电3nm工艺情况下,此时对比采用台积电4nm工艺、且主频与缓存采用现有设计的Cortex-X2时,那么新架构的性能领先幅度则会达到25%。 &&te(DC\  
a-9sc6@  
(_eM:H=e>  
*r iWrG  
其次,是改进型的Cortex-A715中核,在使用相同半导体制程、相同主频和缓存设计的前提下,新的中核性能相比老设计仅有5%的提升,但请注意,此时的能效会比老架构高出20%。也就是说其实际功耗此时为Cortex-A710的87.5%,在性能略微提升的前提下省电了12.5%,算是比较明显的进步了。 6#kK  
X9#i!_*  
rnXoA, c/  
3q`Uq`t4mR  
相比于大核与中核的显著改进,新架构里Cortex-A510小核的改进就比较微妙了。一方面,正如其名称所示的那样,此次的新版小核还是叫做“Cortex-A510”,连名字都没变。但另一方面,要说它完全没改又不太对,因为新版的小核功耗比老版本下降了5%,同时更为重要的是,其此次加上了对32位应用的兼容性。 Fc a_(jw  
4JGU`L:~  
但请注意的是,这个兼容性功能是可选特性,并非标配。选配后是有可能会给性能带来负面影响的,但具体影响有多少,ARM方面并没有明确。 q=+wQ[a<  
lF)k4 +M  
{\ogw0X  
r1.OLn?C  
除了新版的CPU,ARM此次也同期发布了换代的GPU方案。这一次,新的GPU设计被分为了三档,分别是“顶配”的Immortalis(不朽)-G715、中配的Mali-G715,以及入门级的Mali-G615。 MG74,D.f  
EP8R[Q0_"  
与本世代的Mali-G710和Mali-G610相比,新架构首先带来了15%的基础效率提升(而且是不考虑制程增益的情况下),其次还支持了VRS可变着色率技术,能够在部分高刷游戏中显著降低渲染负载、对于XR应用也有很大的意义。 (sEZNo5n  
[.>g.p,;  
pY(S]i  
QVWUm!  
不仅如此,作为ARM的全新旗舰GPU产品,Immortalis-G715更是首次引入了硬件光线追踪单元。根据ARM方面的说法,硬件光追单元在GPU核心中仅占据了4%的面积,但其相比Mali-G710采用的软件光追设计却能够带来300%以上的性能提升。考虑到真正支持Mali-G710光追效果的游戏至今尚未上市,所以ARM的这番表述属实是“背刺”自己了。 BV]$= e'  
#=I5_u  
架构分析:大核更大、中核做减法,小核原地踏步
l1]'3]P(  
讲完了新架构的性能参数变化,接下来我们就进入按惯例的架构分析环节,来看看ARM到底是如何实现这些改进的。 kl#) 0yqN0  
saR9_ ux  
首先是全新的大核Cortex-X3,它的改动无疑是此次新架构中最大的。其包括了比前代大10倍的L0BTB(分支目标缓冲区)和大50%的L1BTB,这意味着大幅提高的分支预测性能。根据官方的说法,Cortex-X3的分支预测延迟降低了12.2%,预测错误率降低了6%,同时减少了3%的前段停顿。由于分支预测性能大为提升,因此Cortex-X3的mop(微操作)缓存现在可以做得更小,同时流水线长度也进一步下降。 }*56 DX  
"mAMfV0  
[)nU?l  
yz_xWx#9  
这还没完,与Cortex-X2相比,Cortex-X3的指令缓存提取宽度现在从5增加到了6、算术逻辑单元从4个增加到了6个,同时乱序窗口也进一步增大。而在后端部分,新架构的加载/存储宽度也增加了50%,并增多了数据预取引擎的数量。 =p#:v  
vPx#TXY=b}  
更强的分支预测性能,更宽的执行窗口、更短的流水线级别,更快的存取速度,有没有觉得很眼熟?没错,这个改进方向,其实就是多年前已被Intel从奔腾4到酷睿的革新时,所证明的有效路径,只不过ARM如今将其在RISC处理器上“复刻”了一遍。 D~@lpcI  
bdvVPjGc&  
0Y/k /)Ul]  
WsR4)U/]v  
相比于Cortex-X3的锐意进取,Cortex-A715与(新版)Cortex-A510的改变就相对没有那么大了。其中,Cortex-A715的改进主要来自于放弃对32位指令集的支持,从而大幅简化了指令解码器的设计,空出更多的晶体管位置来提高了缓存大小。而Cortex-A510的变化则更是语焉不详,现在只知道它具备了可选的32位支持、同时功耗略微下降而已。 Xvn \~Vr  
wO"ezQ  
AI3\eH+  
8PvO_Gz5  
与CPU部分(特别是大核心)的改动相比,ARM此次的新GPU变化显得就不是那么显著了。一方面,无论是Immortalis-G715、Mali-G715,还是Mali-G615,它们其实都是共享的相同架构设计(只是Immortalis-G715内部多了硬件光追电路),主要区别还是在于核心数量上做了明确限制。 q:G3y[ P  
~{!,ZnO*  
另一方面,与现有的Mali-G710相比,新款GPU在基础架构上将FMA乘加单元的数量翻了一倍,设计了用于抗锯齿的新型FP16计算单元。同时根据ARM方面的说法,新的GPU“在重负载场景下”的三角形生成率为现有的3倍,纹理映射速度是现有的2倍。不过,暂时还并不清楚这个倍数是来自底层架构的改进,还是来自于核心数量或频率的提升,因此仅仅做个参考就好。真正的GPU性能提升幅度,还得等到实际产品上市后才能有定论。 ,~7+r#q7  
@gihIysf  
市场分析:ARM笔记本或将兴起,入门手机也有望翻身
c_syJ<  
值得一提的是,在发布新一代产品线的同时,ARM还给自家的软硬件方案起了一个新的名字,叫做“ArmTotal Compute Solutions(直译为ARM整体计算解决方案)2022”,缩写为ARMTCS22。同时,ARM方面也将去年发布的上代架构随之“整合”为ARMTCS21,并同时预告了明年(TCS23)和后年(TCS24)的产品命名。 I9kBe}g3  
@wa<nY d  
;;n=(cM|z  
}r:8w*4 7  
这意味着什么呢?从这个举动中,我们至少可以挖掘出两条信息点。一是ARM似乎并不打算用新架构完全取代上一代的产品线,Cortex-X2、A710和A510得到“重命名”或意味着它们的授权还将继续。 bE2{^5iG  
Hv|(V3-  
但更进一步来说,ARM从TCS21到TCS22的变化,以及目前官方已经“剧透”的TCS23和TCS24不难发现,一方面ARM在TCS22(也就是这一代的新架构上)删除了中核(Cortex-A715)对32位计算的支持,同时为“新版的”Cortex-A510小核增加了“可选的”32位计算功能。 l6HT}x7OiH  
[3io6XG x@  
a`S3v  
+c\uBrlZQ;  
另一方面,在TCS23和TCS24的预告图里可以清楚地看到,接下来的两年里,ARM每年都会更新大核与中核设计,但小核却只会在2023年迎来一次换代,2024年则是不更新、直接沿用。 mp17d$R-  
@1)C3(=A  
与此同时,在此次TCS22官方“样板设计”中,ARM不仅将新架构支持的最大核心数量从8核扩展到了12核,而且还给出了多个以大核、中核为主的组合方案,甚至出现了完全不采用A510小核,仅由大核与中核构成的“超高性能设计”。 T%1Kh'92  
&A~(9IV  
`-<m#HF:)d  
73(5.'F  
这或许意味着,ARM“仗着”新架构,特别是大核(Cortex-X3)、中核(Cortex-A715)性能与能效比的显著改善,明显在有意将其往更高的市场定位上推。或许,未来我们就会看到更多基于ARM新架构的笔记本电脑SoC方案了。 |sV@j_TX  
zK&J2P`  
其实回溯历史不难发现,此前的Cortex-A53架构用了四年(2014-2017)才换代,而Cortex-A55架构更是“坚挺”了至少五年(2018-2022)之久。相比之下,去年的“初版”Cortex-A510架构因为完全不兼容32位代码,其实并不适合入门级设备与其他低功耗设备使用。 -/J2;AkGH  
_<l9j;6  
如此一来,今年的“新版”Cortex-A510实际上才是ARM v9指令集下,第一款真正可以用于入门级设备的低功耗CPU架构设计。而最快到明年,它就将会被更新的架构所取代。 bv'Z~@<c  
vmT6^G  
Aq{7WA  
换句话来说,面对如今智能手机市场高端产品大放光彩、而入门级设备却销量萎缩的局面,ARM一方面通过新的大核、中核为新旗舰注入了体验继续进步的动力,另一方面也史无前例地针对低端市场进行了“补救”。 4mF=A$Q_/  
或许在不久后,我们就会看到基于(新版)Cortex-A510架构,体验明显更加靠谱的入门级主控,或是性能与能效比都大幅进步,总算能与苹果掰掰手腕的Android智能手表平台了。 a8r+G]Z  


评价一下你浏览此帖子的感受

精彩

感动

搞笑

开心

愤怒

一般

差劲
离线roygu

性别:
帅哥
发帖
5095
金币
1542
提示:会员销售的附件,下载积分 = 版块积分 + 销售积分       只看该作者 1楼 发表于: 2022-07-30
了解  B<?fD  


在线heming2216

性别:
人妖
发帖
11405
金币
8704
提示:会员销售的附件,下载积分 = 版块积分 + 销售积分       只看该作者 2楼 发表于: 2022-07-30


离线mj8abcd

性别:
帅哥
发帖
10595
金币
4796
提示:会员销售的附件,下载积分 = 版块积分 + 销售积分       只看该作者 3楼 发表于: 2022-07-30
  


离线bidinghong

性别:
帅哥
发帖
16284
金币
24265
提示:会员销售的附件,下载积分 = 版块积分 + 销售积分       只看该作者 4楼 发表于: 2022-07-30
    


离线chen

性别:
帅哥
发帖
3961
金币
3120
提示:会员销售的附件,下载积分 = 版块积分 + 销售积分       只看该作者 5楼 发表于: 2022-07-30
E 0k1yA  


离线海韵电器

性别:
帅哥
发帖
755
金币
994
提示:会员销售的附件,下载积分 = 版块积分 + 销售积分       只看该作者 6楼 发表于: 2022-07-31


离线wangy2000

性别:
人妖
发帖
6747
金币
283
提示:会员销售的附件,下载积分 = 版块积分 + 销售积分       只看该作者 7楼 发表于: 2022-07-31


离线huangchang

性别:
人妖
发帖
2170
金币
3462
提示:会员销售的附件,下载积分 = 版块积分 + 销售积分       只看该作者 8楼 发表于: 2022-07-31
路过了解一下



性别:
人妖
发帖
5943
金币
7495
提示:会员销售的附件,下载积分 = 版块积分 + 销售积分       只看该作者 9楼 发表于: 2022-07-31
  


离线ww645133040

性别:
人妖
发帖
3140
金币
3142
提示:会员销售的附件,下载积分 = 版块积分 + 销售积分       只看该作者 10楼 发表于: 2022-07-31


离线13131

性别:
人妖
发帖
2368
金币
1757
提示:会员销售的附件,下载积分 = 版块积分 + 销售积分       只看该作者 11楼 发表于: 2022-07-31
jvHFFSK  


在线heming2216

性别:
人妖
发帖
11405
金币
8704
提示:会员销售的附件,下载积分 = 版块积分 + 销售积分       只看该作者 12楼 发表于: 2022-07-31


离线io357

性别:
人妖
发帖
2618
金币
8473
提示:会员销售的附件,下载积分 = 版块积分 + 销售积分       只看该作者 13楼 发表于: 2022-07-31


离线小鑫鑫

性别:
人妖
发帖
5423
金币
13774
提示:会员销售的附件,下载积分 = 版块积分 + 销售积分       只看该作者 14楼 发表于: 2022-07-31


快速回复
限150 字节
 
上一个 下一个