马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
AMD EPYC霄龙服务器处理器亮相,Zen3架构性能飙升
备受关注的第三代AMD EPYC霄龙服务器处理器“米兰(Milan)”正式亮相。“米兰”采用7nm制程工艺,架构升级到Zen3,“米兰”家族7003系列有19个型号,性能较二代EPYC“罗马”有显著提升。
在AMD服务器处理器的演进路线图上,“米兰”具有重要的战略位置,经历了前两代的“那不勒斯”和“罗马”之后,对于实现在数据中心市场的进一步攻城略地,“米兰”被寄予厚望。 发布会上,AMD高级副总裁兼服务器业务总经理Dan McNamara,AMD 全球院士、Zen核心首席设计师Mike Clark,AMD院士及SoC架构师Noah Beck,AMD EPYC产品管理全球副总裁Ram Peddibhotla等接受了集微网在内的媒体采访,从架构、设计、产品等方面详细介绍了“米兰”背后的更多细节。 Dan McNamara表示,“米兰”的发布将会进一步巩固AMD在数据中心市场中的地位,无论是从核心还是系统层面都体现出优越的性能。对于市场用户而言,在整体拥有成本方面,“米兰”将带来更高的价值,同时AMD也在加速布局生态,推出围绕“米兰”的更多应用。 7nmZen3架构 19%IPC性能提升 自2017年重返数据中心市场开始,AMD一直追求架构上的创新以及由此带来的性能飞越,从Zen1到到Zen3,都在IPC性能表现方面实现了显著提升。如采用Zen2架构的“罗马”发布时,实现了较上一代15%的IPC性能提升,而此次Zen3架构,实现了约19%的IPC性能提高,远高于行业平均水平。 据Mike Clark介绍,要实现这样的进步,必须在整个架构的每个环节去分别优化。首先,在Zen3上,AMD改善了分支预测的功能,不仅提高了准确性同时能够更快的到达目标,同时在系统中能发出更快指令,更高指数的吞吐量,增加了更多的流水线提高吞吐量,同时也为推理方面的工作负载去更强的赋能。从四核到八核都让整个通讯的速度加快,效果更完善,即使是在线程数比较低的系统中由于能够实现共享内存调用,可以降低有效的内存访问的延迟。 具体而言,从Zen2到Zen3,在前端改进方面,AMD将BTB提高了一倍,达到1024。同时增加了分支预测器的带宽,另外在分支预测中消除了冒泡现象,因为冒泡现象在很多架构中是常见问题,能够更快的从误测中去恢复,能够更快的寻址。 Mike Clark表示,对于更大的服务器工作负载而言,Zen3可以更无缝的在op cache和I cache切换,实现现更高颗粒度的流水线切换。 在执行部分,Zen3首先针对整数设置了专用的分支和ST数据拣选器,有更大的窗口,减少了某些运行时延,在浮点方面增加两个位宽的调度和分发,更快的FMAC周期,还有两条INT8的IMAC流水线。 在加载存储这部分Zen3有三个加载和两个存储,操作灵活性增加,也对内存依赖性的检测做了优化,同时对于这些非常随机内存的操作我们也提供了6个页表查询器去实现更好的TLB查询。 在指令集方面,在加速、加密和解密算法上Zen3扩展了AVX2指令到256位。Mike Clark指出安全是改进最大的部分,首先对SEV的改进,限制中断的注入,限制恶意管理程序注入SEV-ES访客中断/异常类型,还有能够将调试寄存器添加到交换状态中。 此外,Mike Clark介绍,在一代EPYC产品投入市场时,行业正在遭遇幽灵攻击,现在看当时的应对方式并不是最优解,但到目前三代时,应该说AMD从架构方面已经做好了强防御,同时对性能的折损也能够降到最低,在提升的IPC性能的同时,也大大增强了系统的安全性和稳定性。 “8+1”小芯片设计 强化安全性能 从芯片上看,“米兰”仍延续了自“罗马”起的“8+1”小芯片设计方式,采用原来的运算CCX,Socket IO整合设计。所有的八核能够同时共享32MB的缓存。在兼容性上,Zen3与Zen2平台能够实现较好兼容,支持PCIe4有两个DIMMs通道,4TB每插槽。 目前三代霄龙处理器产品家族都采用了小芯片架构,能够在产品的配置方面给大家提供灵活性,让客户在选用方面更容易。 Noah Beck表示,从布局变化上,此前也有CCD这样的设计,但在Zen3上,AMD将CCD做了一个8核的完整整合。这样所有的8核心都能直接访问在本地的L3的32MB缓存,通过这样的设计可以降低时延,同时对于那些需要用内存子系统比较密集的应用可以有效地提高性能。 在内存通道方面,在Zen2架构中AMD提供了两种通道选择,一个是八通道,能够让内存位宽达到最大,还有四通道,主要是针对成本优化,一些对于内存需要不是那么高的客户可以选用。在Zen3上,AMD增加了六通道选择,六通道的选择可以支持在4和8之间做出一个更平衡的安排,可以让客户有更多的灵活性,同时优化内存方面的成本。这方面的好处是如果用推荐的通道可以避免内存通道中出现过热的点,同时能更好的平衡工作负载的需要,降低内存的成本和所需的核数。 在安全方面,Noah Beck介绍,Zen3延续了原来AMD的安全处理器核心的设计,同时能够把处理器安全的集成到IO Die上,另外也为密钥的生成和管理,提供了加密的功能,在Zen3上启用了硬件验证的启动,所以能够实现以硬件信任更为基础的平台的安全,现在我们整个os的核心也是在一个非常安全的水平上。 Noah Beck指出,Zen3传承了上一代在安全方面一些功能,如虚拟化方面的功能,同时新增了影栈技术,能够增加对控制流攻击的防护,SNP能够针对访客权限登录的一些虚机程序,防止恶意攻击。 在密钥管理方面,在Zen1系统中提供了SME和SEV,在Zen2中增加了访客加密态的保护,同时将同时可用的密钥的数量增加到209个。Zen3在此基础上增加了SNP,SNP可以增强系统完整性的保护,加强SEV和SEV-ES提供的保密性。 产品性能“碾压”对手 壮大生态布局 Ram Peddibhotla介绍,此次三代霄龙处理器7003家族共有19款产品,均有不同程度的性能表现。如有四款产品针对单核性能做了最大优化,能够提高他的单核频率,可调用缓存,可使用内存、带宽,单核性能是非常强的,非常适用于关系型数据库,技术类运算和商用的场景。 此外,还有五款产品属于核心密度高的产品,主要是能够给行业提供非常高的多线程运算性能和多插槽运算性能,针对的目标市场主要是企业应用,高性能计算和云计算。有十款产品面向性能平衡优化以及整体拥有成本需求的的企业客户。 根据AMD展示的数据,“罗马”中已有部分产品对英特尔Xeon Gold 6258R在性能上实现超越,而从32核的“米兰”起之后的产品,无论是从单核性能、整体性能还是线程密度方面都有非常强的优势。 Ram Peddibhotla表示,同英特尔的Xeon Silver 4216产品比较,“米兰”16核产品有更强优势。 “总结来说,我们在二代产品罗马系列就已经比竞争对手要强,米兰能够进一步把性能差异拉大,把优势做强。”Ram Peddibhotla说。 在高性能计算方面,二代“罗马”的产品已经比竞争对手的6258R高出76%的速度,而在三代“米兰”上,性能比英特尔6258R最佳的双插槽处理器快106%。 在云计算应用方面,SpecinRate基准测试显示,AMD双插槽二代霄龙系统已经比英特尔的6258R的产品快81%。而到了三代米兰,性能快106%。 在企业应用方面,基于SPEC JBB的基准,二代产品比竞品性能快79%,三代比竞品性能高117%。 Ram Peddibhotla介绍,三代霄龙处理器同竞品的最佳处理器相比,性能方面有较强优势,如果是三代霄龙顶配产品,在核数增加之后,可以看到性能优势将更加明显。 基于SPECrate基准的整数性能测试显示,采用三代霄龙的7763服务器数量只有采用英特尔6258R服务器数量的一半。整体来看四年的TCO(总体拥有成本)可以实现35%的削减。 Ram Peddibhotla认为,从上述比较来看,AMD的服务器芯片将给客户带来巨大成本方面的节约,不管是前期购置成本,还是后期维护处理器生命周期的成本,不管是投资支出还是运维支出来说,整体拥有成本一定是AMD的产品优势。 Ram Peddibhotla还表示,除了性能和整体成本优势方面之外,AMD也在进一步壮大生态布局,围绕三代霄龙产品打造更多解决方案,让客户能够更快、更明显地感受到AMD提供的价值,具体来说AMD的合作生态伙伴包括在超融合的情境下的应用,关系型数据库,数据分析。对于企业用户来说,这些是非常有相关性的应用市场,能够让客户能更快的去获得AMD提供的价值。 |