|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
[paragraph]
骁龙855/麒麟980/苹果A12/联发科P60/瑞芯微RK3399,谁能领跑AI时代?
2018年,AI几乎充斥了我们的生活,如果见朋友不聊点和AI相关的话题,似乎自己就与这个时代脱节了,近期高通骁龙855的发布再次把AI的关注度推向了高潮,从权威统计机构的预测来看,2018年全球AI市场规模预计为1.2万亿美元,到2022年有望达到3.9万亿美元。AI势不可挡的发展势头让各大科技公司不得不一拥而上,不管是做芯片还是做产品,统统都要和AI挂钩,大有“得AI者得天下”之势。AI已经在各个领域开始渗透,光AI音箱这一种亚马逊、天猫、小米就打得不可开交,其它智能电子产品更是不胜枚举,当然,这都不是今天的重点,今天我主要想谈的是AI芯片,今年推出的这些AI芯片看看哪些比较靠谱。
1、骁龙855:张量加速器不等于独立NPU
骁龙855采用台积电7nm工艺制程,CPU为Kryo485(超级内核基于A76定制主频2.84GHz、性能内核主频2.42GHz、效率内核主频1.8GHz,1+3+4架构);GPU为Adreno640,与前代产品相比,渲染速度提升20%,支持Vulkan1.1/HDR/PBR。
骁龙855
在AI性能方面,骁龙855加入新的张量加速器(TensorAccelerator),专门负责AI,组成第四代AI引擎。可以实现每秒超过7万亿次运算(7TOPs),AI性能比骁龙845提高了3倍,比苹果A12每秒5万亿次运算(5TOPs)也高出不少。
高通的DSP数字信号处理器升级为最新的Hexagon690,具备四线程标量内核,性能提升20%,四个向量扩展核心(HVX),性能提升1倍,另外一个重要的改进是引入了张量加速器(HTA),自主设计,专为AI而设,支持多元数学运算、非线性方程、INT16/INT8与混合精度整数运算,大幅提升了机器学习算法的性能和能效。结合HexagonDSP、新的张量加速器,再借助更强的GPU和CPU完成终端侧神经网络运算,所有单元综合实现了专有的、可编程的AI加速。
但是,值得注意的是,骁龙855并没有配置独立NPU单元,其AI运算需要协调CPU、DSP、GPU等处理器单元,如果应用场景复杂,恰巧占用了这些处理单元,AI运算就要排队等候。也就是,其他公司的芯片的人工智能算力是独立算力,高通的AI运算是综合算力。
2、麒麟980: 配置双NPU
麒麟980采用7nm工艺制程,基于ARM的A76架构,主频是2.6GHz,八核心分别是2×A76(超大核)+2×A76(大核)+4×A55(小核),其中A76四个核心上采用了智能调度机制。相对于传统的大小核两档位设计,麒麟980让CPU在重载、中载、轻载场景下灵活适配。
在AI配置上,麒麟970搭载了一个NPU(神经处理单元),其专门负责AI运算,在大幅提高手机AI性能的同时降低了AI任务功耗。麒麟980则配置了两个NPU,因此在ResNet-50图像识别测试中得到了4500张每分钟的成绩。整体来看,相较于麒麟970,麒麟980的CPU性能提升75%,能效提升58%,内置的10核GPU Mali-G76让性能密度号称提升30%,能效提升30%。
3、苹果A12:搭载8核神经网络引擎
A12采用7nm技术,内部有69亿个晶体管,采用六核CPU设计,相比A11处理器,其中两个大核心性能提速15%、功耗降低了40%,四个小核心功耗降低最多50%。A12采用自研四核GPU,性能相比A11的GPU性能提高50%,并强化了对AR混合现实的支持,支持曲面细分、无损内存压缩和实时多层渲染功能,AR性能获得大幅度提升。
关于AI性能,苹果A12还搭载了八核神经网络引擎,其运算速度达每秒5万亿次,远超A11的每秒六千万次,可以更独立机器学习,支持多精度,智能计算系统。同时,苹果还将神经网络引擎开放给 Core ML 平台,开发者可将机器学习技术应用到自己的 app 中,让学习过程在用户的 iPhone 上进行。提升了Siri易用性、使A12芯片的机器学习能力相比之前能够提升9倍,而能耗则降低到原来的十分之一。
4、联发科Helio P60
联发科Helio P60采用ARM Cortex A73和A53大小核架构,采用八核心大小核(big.LITTLE)架构,内建四颗ARM A73 2.0 Ghz处理器与四颗ARM A53 2.0 Ghz处理器。相较于上一代产品P23与P30,CPU及GPU性能均提升70%。采用12nm FinFET制程工艺,功耗表现得到很大提升,整体效能提升12%,执行大型游戏时的功耗降低25%,大幅延长手机电池的使用时间。
关于AI配置,联发科在P60中引入了AI单元APU,在P60中采用了三核ISP+双核APU的架构,性能提升两倍。ISP+APU的多核图像处理单元除了提供硬件加速之外,还能够提供多线程的处理能力,这使得对于图片处理能力和速度大幅提升。包括自动对焦、白平衡以及高规格HDR在内等反映的速度更快。此外,APU的引入以及联发科提供的平台化的策略,也更有利于开放给合作伙伴以及第三方进行拍照的后处理,定制更多的拍照算法。应该说AI的引入,使得P60的硬件性能进一步得到释放。与此同时,AI所带来的软件层面的超级算力也将带来诸如人脸、语音识别等功能的进一步增强。
5、紫光展锐SC9863
紫光展锐SC9863主打AI牌,被称为8核AI芯片,支持CAT-7,采用Arm Cortex-A55处理器架构的SoC芯片平台,在Cortex-A55人工智能的基础上,进行了应用开发。Cortex-A75与Cortex-A55均采用Arm DynamlQ技术打造,而DynamlQ融入了AI神经网络技术。相比前代Cortex-A53,Cortex-A55 NEON进行了流水线改进与新增机器学习指令,让其在矩阵乘法运算方面的机器学习性能大幅提升,如果按照AI 8bit dot-product运算能力,比Cortex-A53提升6倍。
同时,得益于ARM DynamlQ单簇组合方式,Cortex-A75与Cortex-A55可实现1+3、1+7或者4个大核、8个小核的组合,多个CPU核芯以单簇的方式一起工作,可发挥更强大的性能,避免“1核有难,7核围观”的状况。紫光展锐SC9863采用的是8核Cortex-A55的组合方式,而高通骁龙845是4核Cortex-A75与4核Cortex-A55的组合方式。
SC9863芯片平台的AI能力体现在支持基于深度神经网络的人脸识别技术,可实现快速精准的人脸认证;通过智能AI算法,实现实时智能场景检测识别、不同场景智能拍照增强、支持手机侧图库照片的智能识别与分类。但是,没有加入独立的神经处理单元,计算能力是否会出现折扣不得而知。
6、瑞芯微RK3399
RK3399Pro采用big.LITTLE大小核CPU架构,双核Cortex-A72+四核Cortex-A53+四核ARM高端GPU Mali-T860,其集成的NPU(神经网络处理器)融合了Rockchip在机器视觉、语音处理、深度学习等领域的多年经验。相较传统芯片,典型深度神经网络Inception V3、ResNet34、VGG16等模型在RK3399Pro芯片上的运行效果表现出众。
RK3399Pro的AI特性有三点:
1)AI硬件性能高,采用专有AI硬件设计,NPU运算性能高达2.4TOPs,高性能与低功耗指标均大幅领先:相较同类NPU芯片性能领先150%;相较GPU作为AI运算单元的大型芯片方案,功耗不到其所需的1%;
2)平台兼容性,RK3399Pro的NPU支持8bit与16bit运算,能够兼容各类AI软件框架。现有AI接口支持OpenVX及TensorFlowLite/AndroidNN API,AI软件工具支持对Caffe/TensorFlow模型的导入及映射、优化;
3)完整方案易于开发,Rockchip基于RK3399Pro芯片提供一站式AI解决方案,包括硬件参考设计及软件SDK,可大幅提高全球开发者的AI产品研发速度,并极大缩短产品上市时间。
从以上六款带有AI功能的芯片来看,在架构上基本都是采用了多核模式,以八核为主;另外,关于AI运算,在原有CPU、GPU的基础上增加独立神经元计算处理单元成为主流趋势,这样可以实现AI运算加速,从而带来更好的用户体验;在应用方面,还是以手机的人脸识别、图像处理为主,未来随着5G的商用,在自动驾驶汽车中的应用也会逐渐增加。
从对比中可以看出,国产厂商和国内厂商各占一半,从高端到低端均有覆盖,在独立神经元计算单元的集成上,只有海思、苹果、联发科的产品上已经实现,其它几家厂商还在追赶。由于智能手机强烈的市场需求,因此AI普及起来更为顺畅,但是目前需要在人脸识别和图像处理的基础上探索更多可能的应用。 |
|