马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
“我们作为人类,刚出生的时候都差不多。为什么20-30年后,每个人都变得不一样?因为我们在学习,我们接受教育。教育和学习让我们有了个性,那么能不能让芯片通过接受教育和学习,跟别人变得不一样?如果能做到这一点,芯片会越用越聪明,越用越离不开。”
2015年前后、AI开始大规模崛起之际,我们曾听过一个说法:如果2015年的某个人穿越到2005年——也就是10年前,他应该是很难适应的,因为这10年间兴起的社交网络、4G通讯、智能手机,从根本上影响到了人类的生活方式。但要是某个生活在2005年的人穿越回1995年——同样的10年,他大概是能够适应的,或者说即便无法轻易适应,也会很快适应,因为这10年信息技术对人类生活方式的颠覆并没有那么显著。这一点所表现的是信息技术的指数级发展速度。按照这个思路,或许5年以后的人类穿越到现代,他就已经无法适应了,尤其参考这些年AI发展呈现出的状况。
尤其在摩尔定律失效或迟缓的当下,这种趋势是否会持续?架构革命是人们始终在提的一种方案。上周在上海举办的CDNLive China 2019全球巡回用户大会就体现得相当淋漓尽致。CDNLive是Cadence公司一年一度举办的全球用户大会,2019年度CDNLive大会以Cadence 创新的“智能系统设计” (Intelligent System Design)战略为主题。Cadence公司总裁Anirudh Devgan,以及Cadence的众多合作伙伴在会上提出了他们的设想。今年的Cadence CDNLive China 2019吸引了超过130家企业、 1400位IC设计从业者参与,在规模上延续了中国IC设计业覆盖技术领域全面,以及规模最大的技术交流平台传统。
Cadence邀请的重要合作伙伴,依图科技联合创始人、CEO朱珑为我们更形象地呈现了这种“指数”级速度在人类历史上的含义,以及当前AI技术的发展速度。
下图题为“文明的变迁”,“从直立行走到今天,花了五六百万年的时间;此后的1万年前,人才有了比较初始的形态,开始产生农业文明。”朱珑说。这期间又有了漫长的历史过程,到1759年才发展出后续几次工业革命。技术的这种革新速度实则并不是在电子科技发展后才呈现出这种指数级的速度。
“60年前,才有了最早的人工智能,就是金色的这条曲线。而人工智能的某些技能,开始与人类智能产生交叉,或者说超越人类,这是非常奇妙的时刻。”在整个这条指数级发展的长河中,“我们认为,文明的变化,时代最重要的变化,始终是基础设施的革命。从刚开始原始文明,石器、火,到农业文明有了文字、轮子,工业文明的内燃机等发明;以及过去几十年的时间,信息时代,PC的发明;都是基础设施的变革。”
当代的基础设施大抵上就是指材料、半导体、生物基因编码等领域的发展。“2015年,人脸识别机器已经超过了人类”,这其实就是人工智能的某些技能超越人类的节点。“信息时代的过去30年,运算能力、存储能力、传输速度都提升了百万倍。”“而以人脸识别为代表的智慧,在过去5年中,现在的机器和过去超越当年人类的机器相比,从算法的角度又提升了一百万倍。”AI显然是这个时代指数级发展,改变人类生活方式,及当代信息技术的主题。
AI芯片难做在哪儿?
摩尔定律的停滞是行业的一个共识,维持上述指数级发展速度也已经越来越吃力。所以被人提了无数次的恐怕就是架构革命了,这其实也是Cadence以其产品在大会上传递这个理念,并期望帮助芯片制造商落实这个理念的原因。不过这种架构革命并不止于一家企业或某一类芯片微架构的改良这么简单。
AI、深度学习或者说人工神经网络,可以算得上是某种全新的计算方式,“人工神经网络其实是根据神经元结构想象出的神经元的连接结构,神经元将传来的数据经过加权送到下一阶段去。”来自清华大学的魏少军教授表示。实际上,从这个角度来看,近期越来越热门的模态脉冲神经网络,在架构变革上显得更彻底。这些都指向AI作为未来的可行性。
我们在前不久的《深度学习的兴起,是通用计算的挽歌?》一文中曾提到过通用计算正在走向衰落,未来可能是专用处理器大行其道的时代。这种论调建立的根源实则是摩尔定律放缓。魏少军教授为我们提供了另外一种思路。主题演讲中,他呈现了一张图。
这张图是来自ISCA 2018的一个主题演讲,图中横轴表示的是芯片的可编程性(programmability,或称可配置性、可重构性),纵轴表示效能(Energy Efficiency,每消耗一毫瓦,达到的运算能力)。在运算弹性方面,如我们在先前的文章中谈到的那样,通用计算的CPU是最佳的,而专用芯片最差;但相反的,CPU能效比最差,专用芯片最佳。中间地带的比如GPU等。
当代的AI芯片就属于典型的专用芯片。这种专用,如魏少军所说,造成的问题就在于:
●“第一,算法在不断演变,每6个月-3个月就变一次;
●“第二,一种算法只对应一种应用,没有通用的算法。”
魏少军表示:“做一个AI芯片,都还没做好,算法就变了,或者做好了还没投入应用,算法就变了;好不容易做了个芯片,只能解决一个问题,人家说我要解决两个问题。”
比较有意思的是,朱珑在会上提到“AI芯片为什么难”的时候也提了三点,有两点与魏少军教授所说的一致,在一般企业造AI芯片的时候,如果:
●没有典型场景应用,就没有意义;
●没有世界级的算法,就没有意义;
●没有超越NVIDIA的芯片,就没有意义。
除了第三点之外,实则在专用芯片的应用场景单一性和算法方面,两位专家的观点表现出了高度一致;而朱珑提到的最后一点,实际是市场竞争对算力的要求。朱珑说,在应对的方式上,针对第三点的算力问题,一般产品“很难超越英伟达,很难超越英特尔”。所以解决问题的关键就集中在了应用场景,以及算法上。
依图科技CEO朱珑
未来的一场架构革命
“处理算法演进的不确定性,以及场景的不确定性”是横亘在AI芯片开发中的阻碍,“如果能猜对最重要的应用场景是什么,针对算法的优化空间也会非常大。”
实际上,我们已经看到过依图针对这个问题的早期解决方案。今年5月,依图科技发布了应用于服务器的视觉推理AI芯片求索QuestCore。这并非AI加速模块,“而是一个完整的具有端到端能力的AI处理器”。“这个芯片最大的特点是,整个SoC包含了x86芯片原有的功能,以及为AI设计的功能。”“主要注重在视觉信息的处理上,就是视频和图像,不是说其他的AI不能做,而是我们优化最重要的目标是视觉信号识别。”
这本身就可以认为是这个时代,针对传统架构的一种变化方式和应对摩尔定律放缓的某种解决方案。从朱珑展示的这张示意图来看,QuestCore的单一产品相当于“CPU加上英伟达的卡”,在采购的成本,以及本身功耗及应对专门领域的单位面积算力上是有优势的。不过实际上,QuestCore仍然有规划中面向的主要应用场景,即便它或许已经通过架构增加了本身的灵活性:依图认为,QuestCore可应用于智能城市管理,毕竟视觉处理是其强项。
而在魏少军教授的认识中,进一步“猜对”“应用场景”的关键在“软件定义芯片(Software Defined Chips)”,以在未来实现更完整的硬件架构灵活性。“去年图灵奖获得者的两名大牛,他们总结AI就是Architecture + Intelligence,我觉得AI应该是Architecture InnovaTIon,最终成为‘智慧化’芯片”。这就可以回到前文提到的ISCA 2018的那张图。魏少军提到,真正在能效比和可编程性方面找到平衡性的,应该是就是Software Defined Chip。
针对完全不同算法和应用场景的神经网络,“如何把众多不同的神经网络,集成到一种?这显然需要我们重新找个架构;而且还需要很高的计算效率。”
美国DARPA早前曾提出过一个ERI(Electronics Resurgence Initiative)项目,要在2025-2030年加强美国“国家的电子能力”,从材料、设计和架构方面做变革,投入大约是15亿。其中在架构这一方面就提到了软件定义硬件(SDH):构建运行时(runtime)可配置硬件和软件,在不需要牺牲可编程性的情况下,就实现接近ASIC的性能。这里面涉及到构建编程语言和编译器,在运行时优化软件和硬件。
说得更具体,硬件架构、功能能够根据软件,实时地发生动态变化。“我们做芯片遇到一个最大的挑战,是如何实现差异化。芯片做了6个月,设计、生产,28个月后,突然发现市场上有很多差不多的芯片。开始定义芯片,到最终走向市场之间,有2-3年的时间,差异化又怎么去做?”
“我们作为人类,刚出生的时候都差不多。为什么20-30年后,每个人都变得不一样?因为我们在学习,我们接受教育。教育和学习让我们有了个性,那么能不能让芯片通过接受教育和学习,跟别人变得不一样?如果能做到这一点,芯片会越用越聪明,越用越离不开。”
针对这种具备超强灵活性的设想,其中一种解决方案是如上图左下所示,这个结构中有一个通用的controller,这是个完全可编程的FSM(有限状态机),能够读取数据、控制流和配置上下文(由软件生成),其上跑一个相关任务的状态流图(state flow chart),并控制每个子任务的执行。这里每个状态对应于一组子任务,这些子任务需要执行,且关联一系列的可配置上下文。
而这种架构中的,另外一个关键组成部分是通用数据通道(Datapath),这实际是个PE(处理单元)阵列。每个PE可以是多功能的,可根据软件中相应的操作来进行配置。Controller和Datapath构成这种动态可编程芯片架构。
在高级语言和这里的SDC软件定义芯片的中间,有一个SDC compiler,不过这个compiler并非程序中传统意义上的编译器。它实际上是高层级的一种综合体现(high-level synthesis)。软件定义芯片不再使用“指令(instruction)”,而通过数据流、控制流和配置流来重新定义芯片功能。
魏少军提出再高一个层级的架构方案是,带有片上(on-chip)人工智能training、片上compiler和可重配置计算架构的芯片。其组成如上图所示,通过自我学习过程,让算法和软件自动演进——实现这种演进的方案还是通过神经网络。上图中,右边的计算结果输出到左边,通过AI学习,对中间软件和算法的演进产生影响。“再进一步根据硬件、结果去选择我们需要的。通过这种正向循环,让芯片在不断的学习过程中更聪明。”
人工智能本身的发展,已经让图中的computing engine和training engine模块有了眉目,中间部分的on-chip compiler和software evolution(软件演进)实则是最难的,也是当前行业努力的方向。“一个好消息是关于on-chip compiler这部分,我们已经解决了。”但“软件怎么演进,今天仍然不知道应该怎么做。”
“一旦我们实现了这种芯片的智慧化,正向循环,我们相信以我们的市场,实现AI芯片的第三个阶段就不遥远了。”
中国半导体行业协会IC设计分会理事长、清华大学微电子所所长魏少军
助力架构变革,需要工具
这里提到的“第三个阶段”,源自魏少军总结的AI芯片演进方向。在他看来,AI芯片:
• 早期0.5阶段,是利用一些非专用芯片实现AI计算,比如Intel的通用计算CPU、英伟达的GPU,这个时间段算力还在GOPS-TOPS量级的过渡;
• 而在1.0时期,就诞生了谷歌TPU、英伟达的SCNN等硬件,它们偏向ASIC形态,是真正的专用芯片,性能大到TOPS量级,真正开始注重能效比;在0.5-1.0时期,偏向云AI的training;
• 2.0时期开始,逆向至“半通用”和可配置,比如清华(TsingMicro)的Thinker芯片,或许依图的QuestCore也可归于这一阶段;这阶段延开始真正关注计算的弹性,也就是前面我们花这么多篇幅谈的内容;
• 3.0阶段,是未来,也就是前文提到的芯片“智慧化”;“我们走在了第二个阶段,正在向第三阶段迈进,让芯片智慧化是最重要的。”
实际上,我们可能很难预言芯片智慧化的到来时机,但用魏少军的话来说,它“是个不可逆的过程”。这种针对摩尔定律放缓的架构革新,在想法上可谓非常激进了,远不是Intel tik-tok战略中一个微架构迭代这么简单。不过实现这样的目标,落地还是最重要的。那么Cadence实则是落地第二阶段,并且向第三阶段迈进的平台和工具。
Cadence在前两年开始提踏足“系统设计”,走出传统EDA模式之时就提出了“智能系统设计(Intelligent System Design)”,这也是助力AI芯片落地的重要组成部分,或者说是推进未来AI芯片的一种必然趋势。Cadence中国区总经理徐昀在会上表示:“今年对Cadence而言是特殊的一年,Cadence踏入系统分析市场,并推出系统设计战略,通过智能化系统设计在日常开发中为客户提供更多的帮助。”
很多系统公司现在更倾向于自己开发专有芯片,而非从半导体公司采购,这样一来产品能够在市场上体现出差异化。这些系统公司专注于系统设计,开始从软件下潜到了物理芯片设计。基于这种趋势,半导体企业也开始专注在整个系统上,为客户提供更多面向系统的解决方案。
Cadence公司总裁Anirudh Devgan
Cadence公司总裁Anirudh Devgan也特别以“智能系统设计”为主题做了演讲。最初是移动和消费用户产品,领衔这种整个系统的设计优化。像智能手机这种发展已经偏成熟的领域,设计者为了体现手机的差异化,会开发属于自己的定制系统和SoC,将硬件和嵌入式软件结合起来做优化,获得最佳系统性能和能耗比,与此同时还可兼顾安全性。系统物理设计、电子、热等特性分析,对产品而言也都变得很重要。
到如今,汽车、航空航天、工业、医疗等领域也开始有这种转向的趋势。这种趋势,从端到云都更有利于充分利用超高速连接、AI的能力,计划定制系统的开发和特定应用需求优化的SoC。
另一方面,如前所述,AI和机器学习能力变得非常普遍。这可以从两个层面来谈。其一是芯片或者系统产品应用AI能力,让整个系统借用AI技术来实现高性能、高能效。包括自动驾驶、安防、智能语音助手、金融应用等领域;机器学习、深度学习实际融入到了这些领域的多个层级。类似Cadence这样的上游企业本身就在着力提供包含了AI处理器IP的机器学习硬件系统。比如说Tensilica DNA 100 AI处理器IP,适用于on-device的神经网络inferencing应用,适配于AR、VR、智能手机、智能家居、汽车ADAS等各种领域。
其二是在Cadence本身的开发工具产品内加入AI,加强开发质量。典型的比如说Cadence的Genus与Innovus解决方案,在这套完整的流程中,包含了一个加入机器学习的设计优化闭环,并最终产生PPA(功耗、性能与面积)的最优化方案;还有比如第三代JasperGold形式验证平台,是基于超过500种设计的监督学习,在inferencing后产生定制的solver。这些其实也是AI普及到行业各层面的某种佐证。
所以Cadence的智能系统设计策略是从底层核心EDA+IP,延伸到系统设计和垂直领域的AI与算法方案。这实际上响应了架构变革的市场基础,也是前述AI芯片走向新阶段的雏形和依据。
智能系统设计解决方案的具体产品方面,底层核心EDA能力的有full-flow的数字设计与signoff方案工具、Verification Suite验证套件、云组合产品,以及预设计IP库等——这原本都是Cadence的强项。
而延伸领域的系统设计层面,比较典型的有Clarity 3D Solver,着力于针对5G、汽车、高性能计算、机器学习应用等系统设计比较复杂的EM电磁相关问题;还有Protium这类提供早期软件开发和高性能系统验证的企业原型产品平台,和加速SoC、子系统、IP模块和系统级眼中verification的Palladium等;AI相关的产品包括前面提到的AI相关的IP,和各种原有Candence解决方案的机器学习强化版(比如前文提到的Innovus布局布线、JasperGold形式化验证),实现AI芯片建模、AI智能验证解决方案。
与材料、工艺定义人类技术指数级发展的时代不同,AI在这个时代才是持续指数级发展的源泉:我们在Cadence CDNLive China 2019看到众多半导体企业,以及学术机构在为企业赋能AI、制造AI芯片,为上层提供驱动力的同时,自己也在利用AI带来的便利实现更智能的芯片设计。
不管是依图科技的QuestCore芯片产品,还是魏少军教授构想的SDC内部再应用一套完备的AI结构,或者Cadence从核心EDA/IP到系统设计的策略变迁,这其实是现在我们真正在谈的“架构革命”的核心与未来。
大会更多图集:
芯原在展示的集成了高性能低功耗Vivante GC7000 GPU的NXP i.MX8平台
旷视的工作人员在展示其智能视觉解决方案(手机影像解决方案)
OPTEK展示的音频SoC
Sigasi的code工具
微软Azure与台积电展台 |