|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
在加速人工智能的竞赛中,硅谷公司 Cerebras 采取了一个不同寻常的战略:做大。 |
典型的计算机芯片只有指甲盖那么大,Cerebras的芯片是餐盘大小。 |
深度学习是为语音助手、自动驾驶汽车和围棋冠军提供动力的一种人工智能技术,它依赖于分层排列的复杂“神经网络”软件。深度学习系统可以在一台计算机上运行,但最大的系统分布在连接在一起的数千台机器上,这些机器有时位于大型数据中心,比如由谷歌操作的数据中心。在一个大集群中,多达48个披萨盒大小的服务器滑进一个人高的机架;这些货架成排排列着,装满了仓库那么大的建筑物。这些系统中的神经网络可以解决令人生畏的问题,但它们也面临着明显的挑战。在一个集群中扩散的网络就像一个分散在房间里并连接在一起的大脑。电子移动得很快,但即便如此,跨芯片通信还是很慢,并且消耗大量的能量。 |
旧金山风险投资公司Benchmark的普通合伙人埃里克·维什里亚(Eric Vishria)在2016年春天听一家名为Cerebras Systems的新电脑芯片公司的演讲时,第一次意识到这个问题。Benchmark以早期投资Twitter、优步(Uber)和ebay等公司而闻名——也就是说,投资的是软件,而不是硬件。该公司每年会考察大约200个创业项目,并投资其中一个。“我们在玩这种吻一千只青蛙的游戏,” Vishria告诉我。演讲一开始,他就决定把青蛙扔回去。“我就想,我为什么要同意这么做?”我们不会进行硬件投资,”他回忆当时的想法。“这太蠢了。” |
Cerebras的联合创始人安德鲁·费尔德曼(Andrew Feldman)从幻灯片封面开始,到他的团队幻灯片,引起了Vishria的注意:他的才华令人印象深刻。然后费尔德曼比较了两种电脑芯片。首先,他研究了图形处理单元或GPU——专为创建 3D 图像而设计的芯片。由于各种原因,今天的机器学习系统依赖于这些图形芯片。接下来,他研究了中央处理单元(简称CPU)——在典型计算机上完成大部分工作的通用芯片。“第三张幻灯片的主题是‘GPU’它实际上对深度学习来说很糟糕——只是碰巧比CPU好上一百倍。”Cerebras公司提出了一种新型芯片,这种芯片不是为图像设计的,而是专门为人工智能设计的。 |
Vishria已经习惯听那些计划将深度学习应用于网络安全、医疗成像、聊天机器人和其他应用的公司的推销。在Cerebras演讲之后,他与Benchmark资助的一些公司的工程师进行了交谈,包括Zillow、Uber和Stitch Fix;他们告诉他,他们在人工智能方面遇到了困难,因为“训练”神经网络花费了太长时间。谷歌已经开始使用超快的“张量处理单元”,即为人工智能设计的特殊芯片TPU。Vishria知道一场淘金热正在进行,必须有人来制造镐头和铁锹。 |
那一年,Benchmark和另一家风险投资公司Foundation Capital领投了一轮对Cerebras的2700万美元的投资,该公司已经筹集了近5亿美元。其他公司也在制造所谓的人工智能加速器;Cerebras的竞争对手groq、Graphcore和sambanova总共筹集了超过20亿美元的资本。但Cerebras的方法是独一无二的,该公司不是用通常的方法——在一块大的硅片上印刷几十个晶片,然后将它们从硅片上切下来,然后彼此连接,而是制造了一种巨大的“晶圆级”芯片。一个典型的计算机芯片只有指甲大小,Cerebras的大小和餐盘差不多,它是世界上最大的计算机芯片。 |
即使是竞争对手也觉得这一壮举令人印象深刻。“这是全新的科学,”Graphcore的首席执行官兼联合创始人奈杰尔·图恩(Nigel Toon)告诉我。“这是一项令人难以置信的工程,是一项杰作。”与此同时,另一位与我交谈过的工程师把它描述为一个科学项目——为了大而大。过去,公司曾试图制造巨型芯片,但以失败告终;Cerebras的计划相当于打赌克服工程挑战是可能的,而且是值得的。“老实讲,对我来说,无知是一种优势,” Vishria说。“我不知道,如果我知道做他们做的事情有多难,我就会有勇气投资。” |
计算机变得越来越快,这是一个很容易被认为是理所当然的事情。人们通常用摩尔定律来解释这一现象:1965年,半导体先驱戈登摩尔在 1965 年确定的模式,根据该模式,芯片上的晶体管数量每年或每两年翻一番。当然,摩尔定律并不是一个真正的定律,工程师们孜孜不倦地缩小晶体管,同时也改进每个芯片的“架构”,创造出更高效、更强大的设计。 |
芯片建筑师们一直想知道,单一的、大规模的计算机芯片是否可能比一堆较小的芯片更高效,就像一个资源集中、区块密集的城市比郊区更高效一样。这个想法在20世纪60年代首次尝试,当时德州仪器有限地生产了几英寸宽的芯片。但该公司的工程师遇到了良率的问题。在任何给定的硅片上,制造缺陷不可避免地危及一定数量的电路。如果晶圆片含有50个芯片,公司可以扔掉坏的,把其余好的卖掉。但是,如果每个成功的芯片都依赖于一个晶圆的工作电路,那么许多昂贵的晶圆将会被丢弃。德州仪器找到了解决办法,但技术和需求都还没有到位。 |
20世纪80年代,一位名叫吉恩·阿姆达尔(Gene Amdahl)的工程师又一次尝试解决这个问题,他创立了一家名为Trilogy Systems的公司。它成为了硅谷有史以来最大的初创公司,获得了大约2.5亿美元的投资。为了解决成品率问题,Trilogy公司在芯片上印制了冗余组件。这种方法提高了产量,但降低了芯片的速度。与此同时,Trilogy在其他方面也举步维艰。Amdahl 开着他的劳斯莱斯撞死了一名摩托车手,引发了法律纠纷;公司总裁患脑瘤去世;大雨延误了工厂的建设,空调系统也生锈了,芯片上也积满了灰尘。1984年,Trilogy 放弃了。Amdahl 的儿子告诉《泰晤士报》说:“当时根本没有意识到这有多难。” |
如果 Trilogy 的技术成功了,它现在可能会被用于深度学习。相反,GPU(用于视频游戏的芯片)正在国家实验室解决科学问题。将 GPU 重新用于 AI 取决于这样一个事实,即神经网络虽然非常复杂,但依赖于大量的乘法和加法。当网络中的“神经元”相互激活时,它们会放大或减少彼此的信号,将它们乘以称为连接权重的系数。一个高效的 AI 处理器将并行计算许多激活;它将它们组合成一系列的数字,称为向量,或者是数字网格,称为矩阵,或者是高维的块,称为张量。理想情况下,您想一下子将一个矩阵或张量乘以另一个矩阵或张量。GPU 旨在完成类似的工作: |
“Trilogy的阴影如此之大,”费尔德曼最近告诉我,“人们停止思考,开始说,‘这是不可能的。’”包括英伟达在内的GPU公司抓住了这个机会,为深度学习定制了芯片。2015年,费尔德曼和一些计算机架构师开始讨论更大芯片的想法,他们之前共同创立了一家计算机服务器制造商seamicro,以3.34亿美元的价格将这家公司卖给了芯片制造商AMD。他们在一间从风投公司借来的办公室里研究了这个问题四个月。当他们有了一个可行的解决方案的大纲后,他们与8家公司进行了交谈;获得Benchmark、Foundation Capital和Eclipse的投资,并开始招聘。 |
Cerebras的第一个任务是解决困扰大型芯片的制造难题。芯片最初是一个圆柱形的结晶硅锭,直径约为一英尺,钢锭被切成不到一毫米厚的圆晶片。然后,通过一种光刻的工艺把电路“印”到晶圆上。对紫外线敏感的化学物质被小心地沉积在表面,然后紫外线光束通过称为光罩(掩膜版)的详细模板投射,这些化学物质发生反应,形成电路。 |
通常情况下,通过掩膜版投射的光线覆盖的区域将成为一个芯片。然后晶片移动,光线再次投射。在数十个或数百个芯片被打印出来后,它们会从晶圆上进行激光切割。“最简单的方法是,你的妈妈拿出一个圆的曲奇面团,”费尔德曼说, “她有一个饼干模子,她会小心翼翼地把饼干刻出来。”根据物理和光学定律,做一个更大的饼干切割机是不可能的。因此, “我们发明了一种技术,这样你就可以通过两块饼干之间的小面团进行交流。” |
在Cerebras与制造芯片的公司台积电合作开发的打印系统中,饼干的边缘会重叠,这样它们的电线就会连起来。结果是一个单一的“晶圆片大小”的晶片,铜色的方形,边长21厘米。(最大的GPU直径略小于3厘米。)Cerebras公司于2019年生产了其首个芯片 Wafer-Scale Engine 1。今年推出的WSE-2采用了更密集的电路,包含2.6万亿个晶体管,这些晶体管被集中到85万个处理单元(或称“核心”)中。(顶级的GPU只有几千个核心,而大多数的CPU不到10个。) |
Synopsys公司董事长兼联席首席执行官Aart de Geus表示:“2.6万亿晶体管令人震惊。”Synopsys提供了一些软件,Cerebras和其他芯片制造商用来制作和验证他们的芯片设计。de Geus说,在设计芯片时,工程师首先要考虑两个核心问题:“数据从哪里来?”在哪里处理?”当芯片还比较简单的时候,设计师们可以在制图桌上拿着铅笔回答这些问题;在处理当今更加复杂的芯片时,输入代码来描述他们想要创建的架构,然后继续使用可视化和编码工具。de Geus说:“想想从屋顶看房子的感觉。“车库靠近厨房吗?”还是离卧室很近?你想让它靠近厨房——否则,你将不得不带着食品杂货经过房子的每一个角落。”他解释说,在设计了平面图之后,“你可以用方程式来描述房间里发生的事情。” |
芯片的设计复杂度令人难以置信。de Geus说:“这里有很多层,”电路纵横交错,层层叠叠,就像主要的高速公路立交桥一样。对于“Cerebras”的工程师来说,在晶圆的规模上工作,复杂性被提高了。Synopsys的软件以人工智能的形式提供帮助:模式匹配算法识别常见问题并提出解决方案;优化程序将房间推向更快、更有效的安排。如果太多的车道试图挤在两个街区的建筑之间,该软件可以让工程师扮演罗伯特·摩西(Robert Moses),移动街区。 |
最后,费尔德曼说,超大芯片设计有几个优点。当核心在同一个芯片上时,它们的通信速度更快:计算机的大脑现在集中在一个头骨中,而不是分散在一个房间里。大芯片处理内存的能力也更好。通常情况下,准备处理文件的小芯片必须首先从位于电路板上其他地方的共享内存芯片获取文件;只有最常用的数据才会被缓存到离家更近的地方。在描述晶圆级芯片的效率时,费尔德曼做了一个类比:他让我想象一群室友(核心)住在一个宿舍(芯片),他们想看足球比赛(做计算工作)。费尔德曼说,为了观看比赛,室友们需要把啤酒储存在冰箱里(数据存储在内存中);Cerebras在每个房间都放了一个冰箱,这样室友们就不用冒险去宿舍的公共厨房或Safeway了。这样做的额外好处,即允许每个核心更快地处理不同的数据。“所以在我的宿舍里我可以有巴德,”费尔德曼说。“在你的宿舍里,你可以享用舒立兹。” |
最后,Cerebras 必须克服产量问题。该公司的工程师使用 Trilogy 的技巧:冗余。但在这里,他们比他们的前辈有优势。Trilogy 试图制造具有许多不同组件的通用芯片,因此围绕单个故障元件的布线可能需要连接到远处的替代品。在 Cerebras 的芯片上,所有内核都是相同的。如果一块饼干出问题了,它周围的饼干也一样好。 |
今年6月,在《自然》杂志上发表的一篇论文中,谷歌的开发人员报告说,他们第一次完全自动化了一个叫做“芯片布局规划”的过程。一个典型的芯片可以包含数千个内存块、数千万个逻辑门和数万公里的微型线路。他们使用的技术与DeepMind的同事用来教神经网络赢得围棋比赛的技术相同,他们训练了一个人工智能来规划张量处理单元,在安排这些元素的同时防止数据拥塞;当他们将人工智能的TPU与一组专家花了几个月时间创造的TPU进行测试时,他们发现这台电脑的设计只用了大约几个小时就完成了,在对面积、电力和电线长度的有效利用方面,与人类不相上下,甚至超过了人类。谷歌目前正在使用该算法设计下一个TPU。 |
人工智能领域的人都在谈论这个奇点——在这个点上,技术将开始以超出人类控制的速度自我改进。我问 de Geus,他的软件是否帮助设计了他现在用来设计芯片的任何芯片。他说有,并给我看了他最近做的一个幻灯片; 最后以 MC Escher 的两只手互相画画的插图结束,de Geus 将其标记为“Silicon(硅)”和“Smarts(智慧)”。当我告诉费尔德曼我迫不及待地想看他用Cerebras芯片来设计Cerebras芯片时,他笑称“这就像给鸡喂鸡块。” |
结果证明,设计和制造芯片只是挑战的一半。大脑消耗大量的能量——人类的大脑占我们体重的2%,却消耗了我们摄入的20%的热量,而硅也是如此。一个典型的大型计算机芯片可能需要350瓦的功率,但Cerebras的巨型芯片需要15千瓦的功率——足够运行一间小房子。费尔德曼说:“从来没有人给芯片提供过这么大的能量。”“从来没有人需要像这样冷却芯片。” |
最后,由Cerebras公司围绕其WSE-1芯片构建的CS-1计算机,有四分之三的部分致力于防止主板熔化。大多数计算机使用风扇将冷空气吹过处理器,但CS-1使用水,导热性更好;与管道相连的硅片顶部是一个水冷板,由定制的铜合金制成,加热时不会膨胀太多,并抛光至完美,以免刮伤芯片。在大多数芯片上,数据和电力通过边缘的电线流入,其方式大致与到达郊区住宅的方式相同;对于更城市化的晶圆引擎来说,它们需要垂直地从下面进入。工程师们必须发明一种新的连接材料,能够承受超大芯片环境的高温和压力。“这花了我们一年多的时间,”Feldman说。 |
最终的结果是一个设计精美的盒子,正面是一个复杂的几何网格,边缘的刚性三角形镶嵌在中心变成一种地质的,几乎是生物的混乱,在那里它们与橙色的垂直条纹相交。这台电脑看起来就像你在商店买的除湿机一样;在数据中心的机架中,它占用的空间相当于十五个由GPU驱动的披萨盒。定制的机器学习软件工程任务以最有效的方式分配给芯片,为了防止冷点分配工作,从而使晶片不会破裂。。 |
这个系统有多快?最接近全行业机器学习性能度量的是一组称为MLPerf的基准测试,由一个名为MLCommons的工程联盟组织。许多得分最高的系统都是由图形公司英伟达(Nvidia)生产的使用GPU的系统。Cerebras还没有参加比赛。费尔德曼说:“你绝对不想走到歌利亚面前,邀请他来一场剑战。”“他们会分配比我们公司更多的人来调优基准。”在任何情况下,基准测试只是系统的一部分。一台计算机的性能可能优于另一台,但它也可能有更多的芯片,或使用更多的电力,或成本更高,或缺乏灵活性,或不能很好地扩展,或设置起来很麻烦。 |
费尔德曼认为,更好的表现来自于客户满意度。考虑到CS-1约200万美元的价格,顾客群相对较小。据Cerebras称,CS-1已经被一些世界级的实验室使用,包括劳伦斯利弗莫尔国家实验室、匹兹堡超级计算中心和爱丁堡大学的e.p.c.超级计算中心,也被制药公司、工业公司和“军事和情报客户”使用。今年早些时候,制药公司阿斯利康(AstraZeneca)的一名工程师在一篇博客文章中写道,该公司使用CS-1训练神经网络,可以从研究论文中提取信息;这台计算机在两天内完成了“大型GPU”需要两周的工作。美国国家能源技术实验室(U.S. National Energy Technology Laboratory)报告称,其CS-1系统解方程组的速度比其超级计算机快200多倍,而耗电量仅为超级计算机的“一小部分”。研究人员写道:“据我们所知,这是有史以来第一个能够在真实的流体动力学模型中实时模拟数百万个细胞的系统。”他们的结论是,由于规模的低效率,他们的超级计算机不可能有一个版本大到足以击败CS-1。 |
劳伦斯·利弗莫尔运行着许多世界上最快的超级计算机。该实验室已经将CS-1集成到其中一个装置中,以帮助进行包括模拟核聚变在内的实验。利弗莫尔计算机公司(Livermore Computing)的首席技术官布罗尼斯·德·苏平斯基(Bronis de Supinski)告诉我,在最初的测试中,CS-1每个晶体管的神经网络运行速度是一组GPU的五倍,而且网络训练速度更快。 |
葛兰素史克 AI 团队负责人 Kim Branson 表示,作为与伯克利生物化学家 Jennifer Doudna 合作的一部分,该公司已经使用 CS-1 完成了许多任务,包括分析 DNA 序列和预测突变结果。去年因其在crispr 方面的工作而获得诺贝尔奖. 布兰森发现,在 DNA 测序工作中,CS-1 的速度大约是他一直使用的 16 节点 GPU 集群的 80 倍。他还指出了其他优势,其中一个是,作为一台单一的机器,它更容易安装。他回忆起自己第一次拜访Cerebras位于加州森尼维尔的办公室的情景。他的团队喜欢使用“银翼杀手”命名的会议室。当费尔德曼启动CS-1时,屏幕上出现了“我们来玩个游戏吧?”——指的是1983年的电影《战争游戏》,这部电影讲述的是一台智能电脑威胁要发动一场核战争。他告诉我,他很期待今年CS-2的发布,它将拥有两倍的晶体管和内存。 |
最近,摩尔定律开始放缓。随着晶体管越来越小,它们开始触及物理极限——很难构建比几个原子更小的结构。芯片制造商开始拿摩尔第二定律开玩笑:芯片制造厂的成本似乎也在呈指数级增长。台积电目前正计划建造一座耗资超过100亿美元的晶圆厂;为了用更小的晶体管制造芯片,该公司正在考虑建造一座成本可能高达250亿美元的工厂。20年前,有25家公司可以制造尖端芯片。如今,这一领域已经缩小到台积电、三星(Samsung)和英特尔(Intel)。 |
像WSE-1和WSE-2这样的加速器芯片填补了这一空白。它们并不需要每平方毫米包含更多的晶体管,但它们优化了特定应用的排列。“设计芯片和设计汽车没有什么不同,”Feldman说。你想要一辆运砖的小货车吗?一辆接送孩子的小货车?周日开一辆跑车?“我们在芯片上放的都是人工智能的东西,” 目前,进展将通过专业化来实现。 |
风险投资家维什里亚(Vishria)用“工作量”来描述芯片行业的历史。在他看来,到目前为止已经有四次了。粗略地说,在20世纪80年代,个人电脑需要通用芯片,英特尔成为了这个市场的领导者。然后,在20世纪90年代,电子游戏和CGI的发展推动了具有并行处理功能的强大的GPU的发展,英伟达最终占据了主导地位。互联网和计算机网络的兴起要求更快的响应时间,博通赢得了巨大的胜利。在2000年,移动需要电力效率,我们有高通和ARM。维什里亚说:“我认为第五项工作量是深度学习,它将与前四项工作量一样大。”据Synopsys说,“世界已经明白,人工智能和人工智能芯片现在是基础设施。它是使人类在未来20年发生根本变化的核心。” |
Cerebras 的晶片级方法只是一种可能性。业内人士描述了人工智能芯片设计的寒武纪大爆发。微处理器分析师林利·格温纳普(Linley Gwennap)表示,“人工智能带走了所有的规则。”通用芯片的设计者必须考虑与旧软件的兼容性。“对于人工智能来说,这就像是把所有这些都抛弃了,因为人工智能的一切都是几年前的事了,”格温纳普说。超过200家初创公司正在设计人工智能芯片,据估计,到2025年,这个市场的规模将接近1000亿美元。并非所有的芯片都是为数据中心设计的,其中一些将被安装在助听器、门铃摄像头或自动驾驶汽车上。(特斯拉和大众都在设计自己的汽车。) |
地球上几乎每一种生命形式,从鹰到珊瑚到大肠杆菌,都填补了自己的生态位,并经过优化在特定的条件下茁壮成长。同样,芯片将继续进化和多样化,以满足特定的需求。Cerebras Wafer-Scale engine可能不会取代Nvidia的GPU,即使是在数据中心,不是每个人都需要200万美元的超级大脑。这里有容纳多种神经系统的空间,包括自然神经系统和人工神经系统。尽管如此,我们似乎已经达到了一个里程碑。 |
|
|