从制程、架构、应用入手，深入分析AI处理器

显示全部楼层 · 2018-1-19 16:28:13

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区

您需要登录才可以下载或查看，没有账号？立即注册

×

寒武纪Cambricon-1A：核心的核心

寒武纪科技的Cambricon-1A是一款深度学习专用处理器芯片(NPU)，其高性能硬件架构及软件支持Caffe、Tensorflow、MXnet等主流AI开发平台。据称这是国际上首个成功商用的深度学习处理器IP产品，可广泛应用于计算机视觉、语音识别、自然语言处理等智能处理关键领域。专注于人工智能产业发展的美国权威媒体CB Insights最新发布全球AI 100榜单，寒武纪以其深度学习专用处理器入选，是中国大陆唯一一家上榜的AI硬件创业公司。

寒武纪目前有三条产品线：首先是智能终端处理器IP授权，智能IP指令集可授权集成到手机、安防、可穿戴设备等终端芯片中，客户包括国内顶尖SoC厂商，现已开始投入市场。其次，在智能云服务器芯片领域，作为PCIE加速卡插在云服务器上，客户主要是国内的知名服务器厂商。第三，家用智能服务机器人芯片：从智能玩具、智能助手入手，使服务机器人独立具备看听说的能力。客户是各类下游机器人厂商，产品的推出将比智能云服务器芯片更晚一些。

华为麒麟970：号称全球首款AI处理器

华为声称麒麟970是全球第一款人工智能系统级芯片，Kirin 970选择了异构计算架构来大幅提升AI的运算能力，内置独立的神经网络处理单元。据说这种专用硬件处理单元源自寒武纪NPU IP授权，专门用于机器学习和一般的AI应用程序。

Kirin970采用台积电10ns芯片组制程技术（耗电量减少20%，体积减少 40%），主要规格如下：8 核心 CPU（时脉最高达2.4GHz），新世代12核心GPU（Mali G72MP12）、Kirin NPU（1.92T FP16 OPS）、Image DSP（512bit SIMD）、Dual Camera ISP（具备脸部、动作侦测）、HiFi Audio（32bit/384k）、UFS 2.1、安全引擎（inSE&TEE）、全球通用4.5G数据机（1.2Gbps@LTE Cat 18）、4K影像（HDR10）、LPDDR 4X、i7感应处理器。

华为宣布将在美国上市的Huawei Mate 10 Pro会搭载麒麟970芯片，另外华为荣耀（Honor V10）也会采用。相较之下，高通骁龙845也把大部分焦点集中在AI，而普及率无疑会比麒麟970高，骁龙845支持众多Android 旗舰智能手机，当中包括三星、Sony、LG 和小米的高端产品。

与华为麒麟970芯片不同的是，高通是在通用平台内做内核优化，它没有独立的神经网络引擎单元，而是更弹性的机器学习架构，分布在CPU、GPU、DPS等每个单元上，从而可以针对不同移动终端弹性调用各个处理单元。

对于两者方向的不同，高通方面认为集成更加有效。但华为认为，鉴于手机对能耗的要求，独立NPU处理单元未来一定是手机处理器的必由之路，从现在看只有苹果和华为做了独立的NPU。

最近从微博流出Kirin 970与Snapdragon 845跑分对比，声称前者跑分比后者还要高出7%，但麒麟970、骁龙845的差异其实不大，且网络还只秀出几个独立测试结果，并非完整跑分的平均值，显示差距甚至可能比表面看来还小。同样地，就算处理器的跑分很高，实地运作的绩效还是不一定，尤其在差距如此微小的情况下。话虽如此，外泄的跑分结果依旧暗示华为旗舰处理器的运算能力有可能很快会追上高通。

高通骁龙845：今年将在高端Android手机中广泛应用

骁龙845采用最新的八核Kryo 385定制架构，性能比骁龙835的Kryo 280提升25%，三星第二代10nm工艺制程，主频最高为2.8GHz；其次骁龙845集成的Adreno 630 GPU性能比骁龙835的Adreno 540提升30%，功耗降低30%。另外，骁龙845集成了第二代千兆级LTE Modem——X20调制解调器，比骁龙835的X16速度提升20%，其集成的全新Hexagon 685 DSP与Spectra 280 ISP全面提升拍照功能。

从微博发布的骁龙845和麒麟970参数规格对比看出，骁龙845核心发生巨大升级，采用全新高端大核心A75与A53组合，GPU升级为Adreno 630，三星10nm LPE制程工艺。而麒麟970继续采用A73核心与A53核心，GPU型号未知，同样采用10nm工艺，由台积电代工。

三星Exynos 9810：苹果A11的最强对手？

三星Exynos9810处理器采用其第三代自研M3架构，拥有4个2.9GHz的M3大核和4个1.9GHz的A55小核，依然是10nm（FinFET）的制程工艺。10nm也是目前苹果A11、骁龙845和麒麟970都在采用的制程工艺。

GPU方面，Exynos9810采用最新的Mali-G72，采用了18颗核心（MP18），预计工作频率在700MHz。Mali-G72是ARM去年发布的基于Bifrost架构的图形处理器，在更小面积与更低功耗的基础上，提供更强大的效能。采用Mali-G72的设备，整体图形性能是前一代的1.4倍。能效提升25%，芯片面积效能提升20%，机器学习效率提升17%。

在人工智能方面，支持人脸检测的Bixby变得更加聪明。基于神经网络的深度学习，新的处理器能够通过快速图像搜索和分类精确识别照片中的人或物，以进行快速图像搜索或分类，或者通过深度感测，在3D中扫描用户的脸部以进行混合式人脸检测。通过利用硬件和软件，混合式人脸检测功能可以实现真实的人脸跟踪检测，从而在使用人脸进行设备解锁时候更加安全。

英伟达DRIVE Xavier：为自动驾驶提供强劲驱动力

在CES会展上抢尽风头的英伟达展示了DRIVE Xavier，这个AI芯片由一个特别定制的8核CPU、一个全新的512核Volta GPU、一个全新深度学习加速器、全新计算机视觉加速器、以及全新8K HDR视频处理器而打造。DRIVE Xavier可以提供更高的处理能力，运行功率更低，每秒可运行30 万亿次计算，功耗却仅为30瓦，能效比上一代架构高出15倍。TensorCore、视频识别和流处理、物体定位、路径规划等所有AI计算任务都能在上面飞快跑起来，据称首批样品2018年第一季度就可以交付给客户。英伟达CEO黄仁勋表示，中国市场是全球最大市场，所有的系统在设计时都考虑到了本地化和中国客户的需求，比如百度的每辆自动驾驶车辆都搭载了Drive Xavier。

Intel Loihi：挑战神经拟态计算难题

为了抵御NVIDIA在人工智能领域的强势进攻，Intel先后收购了FPGA芯片巨头Altera、AI初创公司Nervana Systems，以及以色列自动驾驶芯片公司Mobileye等。Intel在CES上向各界展示了其自主学习神经拟态芯片“Loihi”，这是在收购以上技术公司并汇集众多研究成果后推出的神经拟态芯片。

AI芯片可以分为两类，一类为人工神经网络，而另一类为神经拟态计算，理论上来说神经拟态计算效能更好，但芯片开发难度更大，Intel的Loihi采用神经拟态计算这条更难的道路可以看出它希望逆袭NVIDIA的野心。

Loihi采用了架构到芯片建模、异步设计流程以及基于FPGA仿真的圆形算法验证，具有非常节能的特点，拥有128个核+3个低功耗X86核、可编程的学习规则等特点。

Intel介绍Loihi芯片拥有自主学习功能，并且可以利用数据来学习和推断，随着时间延长能变得更加智能，可以应用于汽车和工业生产等领域，不过说了这么多优点，这一切还需要在现实中应用以证明它是否具有这些能力，这恰恰是Intel相较NVIDIA的弱点，因为当前在全球的神经网络训练系统大多数都采用NVIDIA的芯片，Intel需要加大力度推广以在市场份额上赶上NVIDIA。

瑞芯微RK3399Pro：首次采用CPU+GPU+NPU硬件结构设计

瑞芯微电子（Rockchip）在CES上发布旗下首款性能超强的AI处理器RK3399Pro，为人工智能领域提供一站式Turnkey解决方案，其NPU运算性能高达2.4TOPs，具高性能、低功耗、开发易等优势。

RK3399Pro AI芯片采用big.LITTLE大小核CPU架构，双核Cortex-A72+四核Cortex-A53，在整体性能、功耗方面具技术领先性；四核ARM高端GPU Mali-T860，集成更多带宽压缩技术，整体性能优异。RK3399Pro具备极强的AI运算性能，是瑞芯微首次采用CPU+GPU+NPU硬件结构设计的AI芯片，其集成的NPU融合了瑞芯微在机器视觉、语音处理、深度学习等领域的多年经验。相较传统芯片，典型深度神经网络Inception V3、ResNet34、VGG16等模型在RK3399Pro芯片上的运行效果表现出众。

联发科NeuroPilot：广泛用于消费性产品

联发科在CES发布了NeuroPilot人工智能（AI）平台，主攻智能手机、智能家庭、自驾车的终端边缘运算。联发科表示，目前1年约有15亿台消费电子产品采用联发科芯片，2018年将整合AI处理器与NeuroPilot SDK软件开发套件技术，将AI带入广泛的消费性产品中。

联发科已在2018年新款Helio手机芯片中加入AI运算核心，现在已为智能语音助理、智能电视、自驾车打造AI解决方案，并在CES中展示具体跨平台应用，包括Amazon Echo智能语音助理、Android O智能电视、BelkinWemo智能型插座、以及联发科全网覆盖家庭路由器等。

华夏芯“北极星”：完全自主知识产权的AI芯片平台

华夏芯发布全自主IP的AI芯片平台——“北极星”，这是国内首次发布的CPU、DSP和AI全部具有自主知识产权的平台型人工智能芯片。“北极星”是一款面向多种应用的SoC芯片，不但有负责神经网络和深度学习的AI专用处理器，还集成了高性能的CPU/DSP，其能力可以延伸到多个产品领域，诸如智能辅助驾驶、智能安防监控、机器人、计算机视觉、车载和商用雷达探测、语音识别等嵌入式人工智能应用。此外，还能延伸到工业4.0、现场控制、边缘计算、智能硬件、智慧家居等在内的多个其它领域，是一款市场适应性极强的异构计算和人工智能平台型芯片。

“北极星”可以在单芯片上采用编程扩展的方法实现复杂度很高的现场控制与决策、数字信号处理、图像信号处理、基于神经网络的深度学习和特征提取、多线程并行计算等多种功能。“北极星”芯片采用台积电28nm工艺制程，将于2018年上半年量产。

地平线“征程”和“旭日”：嵌入式人工智能视觉芯片

去年获得Intel一亿美元投资的地平线推出了征程（Journey）和旭日（Sunrise）两款处理器，都属于嵌入式人工智能视觉芯片，分别面向智能驾驶和智能摄像头。

这两款芯片性能可达到1Tops，实时处理1080P@30帧，每帧可同时对200个目标进行检测、跟踪、识别。典型功耗做到1.5W。两款芯片采用关注模型（Attention Engine）+认知模型（Cognition Engine）的数据处理流模式。通过这一个组合算法，芯片的计算速度可以10倍以上。通过边缘学习，模型可以不断提升自己，错误率降低在50%以上。此外，两款芯片利用弹性张量计算核，地平线人工智能处理器的乘法器利用率接近100%。

征程1.0处理器具备同时对形容、机动车、非机动车、车道线、交通标志牌、红绿灯等多类目标进行精准实时检测与识别的处理能力，可支持L2级别的辅助驾驶系统旭日1.0系列处理器集合了深度学习算法，支持在前段实现大规模人脸检测跟踪、视频结构化，可应用于智能城市、智能商业等场景。