我们从2011年坚守至今,只想做存粹的技术论坛。  由于网站在外面,点击附件后要很长世间才弹出下载,请耐心等待,勿重复点击不要用Edge和IE浏览器下载,否则提示不安全下载不了

 找回密码
 立即注册
搜索
查看: 1793|回复: 5

[人物访谈] Graphcore如何能成为西方半导体业唯一“独角兽”?

[复制链接]
  • TA的每日心情

    2024-9-29 10:35
  • 签到天数: 68 天

    [LV.6]常住居民II

    1万

    主题

    8193

    回帖

    5万

    积分

    三级逆天

    积分
    53625

    终身成就奖特殊贡献奖原创先锋奖金点子奖优秀斑竹奖宣传大使奖

    发表于 2019-7-11 08:57:12 | 显示全部楼层 |阅读模式
    总部位于英国布里斯托的新创公司Graphcore,开发了一款被称为智能处理单元的新型AI加速器;Graphcore估计市值达17亿美元,被认为是西方半导体产业界唯一的“独角兽”,其投资者包括Dell、Bosch、BMW、Microsoft和Samsung等巨擘。

    总部位于英国布里斯托(Bristol,UK)的新创公司Graphcore,开发了一款被称为智能处理单元(intelligence processing unit,IPU)的新型AI加速器;该公司在2016年在风险资本业者的支持下诞生,并在2018年12月进行的最后一轮融资募集了2亿美元。
    Graphcore估计市值达17亿美元,被认为是西方半导体产业界唯一的“独角兽”,其投资者包括Dell、Bosch、BMW、Microsoft和Samsung等巨擘。EE Times记者最近采访了Graphcore执行长Nigel Toon (文章上方大图右,左为Graphcore技术长Simon Knowles),畅谈该公司愿景、AI加速器市场以及AI领域未来发展。

    EE Times:Graphcore的IPU芯片已经开始销售了吗?以什么形式?


    我们的产品已经量产出货以取得营收,目前正在与极少数早期客户合作。我们目前的主要产品是一款可插入服务器的double-width、full-height 300W PCI Express卡,顶部连接器可以实现卡间互连。每一片Graphcore C2卡都配有两颗Colossus IPU处理器芯片;该芯片本身,即IPU处理器,是迄今为止最复杂的处理器芯片──在16纳米单芯片上容纳了240亿个晶体管,每颗芯片可提供125 teraFLOPS运算力。
    我们能在一个标准4U机箱中插入8张卡,卡间透过IPU链路互连。卡上的处理器能像是同一个处理单元般共同运作,提供双petaFLOPS的运算力。IPU与CPU和GPU的运算架构不同,能为机器智能提供更高效率的处理平台。这类运算模块能应用于云端运算服务器,也具备进驻自动驾驶车辆的潜力。

    EE Times:Graphcore如何因应在数据中心执行深度学习软件堆栈的挑战?


    在过去3、4年崛起的标准化深度学习框架,如TensorFlow和PyTorch,搭配ONNX等图形描述子(graph descriptors),能支持某些框架之间的数据交换,让开发人员快速设计神经网络;这些设计基本上是图形框架,也就是说,它们描述了一种包括运操作数(operators)和图形内部元素链接的数学图形。
    而我们从这些高阶框架中取得输出并将其输入到我们称之为Poplar的软件层;Poplar扮演我们的映射和编译工具,采用高阶框架图形并将它们映像成为在IPU处理器上执行的完整运算图形。每颗IPU处理器都有1,200个独立的专用核心,以及机器学习所需的所有控制操作和超越函数(transcendental function)。每个IPU核心可执行多达六个程序线程;因此如果你有16颗处理器,在一个4U机箱中可以执行超过10万个独立的平行程序。
    正是这种平行化水平,让用户可实现快速训练模型并进行实时操作──这也让我们能够在自然语言处理以及理解自动驾驶车辆应用的视频方面取得重大进展。因此,强大的平行处理能力真的非常重要。
    有了Graphcore的IPU,能在处理器内部生成完整的机器学习模型。该处理器具有数百MB的RAM,可在处理器上以超过1.6GHz的速率全速运行;其中的延迟已被程序线程隐藏。若GPU内具备高带宽内存(HBM)等内存技术,还能以更快的速度操控模型。
    HBM可达到900GBps的内存带宽,我们的单颗IPU处理器则可约45TB内存带宽;因此一个4U机箱中若有16颗处理器,将带来大量的内存带宽──能平行运作成千上万个程序线程;这是我们得以加快机器智能任务执行速度的部分原因。

    EE Times:与市面上领先的GPU方案相较,Graphcore的IPU性能表现如何?


    这取决于任务。如果是执行用以分类静态影像的前馈卷积神经网络(feed-forward convolutional neural networks),GPU的表现已经相当好,但IPU可以提供两到三倍的性能优势、有时甚至是五倍。对于更复杂的模型,例如有数据来回传递以尝试理解情境(例如对话)的模型;由于数据被传递多次,需要非常快。对于这样的应用,因为所有的模型都保存在我们的处理器中,IPU可以比GPU快很多,甚至可能快十倍、二十倍或者五十倍。

    EE Times:Graphcore是否计划将性能测试结果送交MLPerf或其他基准检验平台?


    我们会这么做;目前我们专注在与早期客户合作,帮助他们解决实际问题,但我们会回过头去做一些基准检验。基准检验平台的问题在于它们比较守旧,通常专注于标准的卷积神经网络(CNN),可是这个产业已经往前走了很大步。虽然基准检验是有用的相对衡量标准,但看到产品在实际应用上的真实性能表现也很重要。
    创新发展可说日新月异,很难保证你不是“拿苹果跟橘子比”;如果采用标准框架,(为了比较)在不同的系统上进行尝试也很容易。

    EE Times:Graphcore的IPU芯片在推论与训练上都适用吗?


    是的,你可以用相同IPU芯片进行推论或训练;从架构的角度来看,这对我们非常重要,因为随着机器学习演进,系统将能够从经验中学习。推论性能表现的关键包括低延迟、能使用小模型、小批次(small batches),以及可能会尝试导入稀疏性(sparsity)的训练模型;IPU可以有效地完成所有这些事情。
    因此在一个4U机箱中,16颗IPU共同合作协作进行训练,每颗IPU可以执行独立的推论任务,并由一个CPU上执行的虚拟机来控制,最终你会得到一个可用于训练的硬件。因此一旦模型被训练、布署,随着模型演进且我们开始想要从经验中学习时,就可以采用相同硬件。

    EE Times:在人才方面,Graphcore将如何培养软件开发工程师,就像是竞争对手Nvidia为CUDA技术所做的?


    Graphcore的映射和编译工具Poplar虽然在某种程度上与CUDA差不多,但实际上是一种程序语言,不是在较低层级描述图形的框架。你可以在Poplar中描述一种新型的卷积函数,或一种新型的递归神经网络层,将之视为高阶框架中的函式库元素(library element)。我们可提供各种高阶运操作数与函式库元素,还有许多低阶运操作数;你可以轻松将之互连以创建新的函式库元素,或者是如果你想做一些完全创新的事情,可以使用Poplar C ++环境创建自己的东西。
    我们希望大家分享他们的创新让其他人使用。如果你检视Google的TPU或NVIDIA的GPU,会发现很多函式库元素都是封闭的黑盒子,无法看到它们是如何打造;但而我们的是开放的,人们可以进行修改并扩展,我们希望建立的是这样的一个开放社群。

    EE Times:在AI领域,Graphcore面对的是包括Google、百度(Baidu)、Nvidia、Intel,以及据说也在开发自家芯片的数据中心巨擘Facebook、阿里巴巴(Alibaba)等对手。Graphcore将如何与那些公司竞争?如果数据中心业者开发自己的AI加速器,市场竞争态势又将如何变化?


    我认为会有三个主要市场。首先是一个相当简单的小型加速器市场,通常是以应用于手机的IP核心形式来提供;我们知道一些手机大厂已经在进行这类开发,但我们没有参与这个市场。
    还有一个是类似ASIC组件的市场;举例来说,某家公司拥有具备大量用户的特定工作负载──或许他们经营一个很大的社交网络──他们可以在一颗芯片中创建一个非常具体的功能,然后在数据中心布署该芯片以加速执行此功能。这种ASIC类型方案市场也会很大,但我们也没有参与。
    我们在做的是一种通用处理器,可以让你用来做许多不同的事情,而且是以惊人的效率。如果该技术应用于云端运算环境,能非常轻松地解决问题,而且功能多样、容易编程,并带来极具效益的结果…我们相信这是一种能在市场上致胜的技术。
    人们打造专属ASIC类型芯片的事实,几乎可证明GPU并非市场所需。市场需要的是一种更高效益、容易使用、为机器智能量身打造的处理器,这正是我们所做的。我们认为通用IPU有机会形成迄今最大的一个市场类别,透过为以上所有问题从零开始打造一种更高效益的解决方案,我们相信我们能主导该领域的产业标准。

    EE Times:在AI加速器市场俨然成为领导者的GPU,其实在一开始并不是为了这个目的而设计,您认为它会继续占据主流地位吗?


    如果只是要做基本的前馈卷积神经网络,GPU是很不错的解决方案,但随着网络变得越来越复杂,人们需要全新的解决方案──这也是为何他们要用ASIC和FPGA。
    我们接触过的所有创新者都说,使用GPU会阻碍阻碍他们的创新,而如果仔细看一下他们正在做的模型种类,会发现他们主要采用的是CNN形式,因为递归神经网络和其他种类结构,例如强化学习,不能很妥善地映像在GPU。研究领域因为缺乏够好的硬件平台而受限,这也是为什么我们要将IPU推向市场。

    EE Times:Graphcore会进入企业应用市场吗?如果答案是肯定的,你们要如何在竞争对手环伺的该市场脱颖而出?


    企业应用市场很有意思,特别是当很多公司正尝试进行真正的深度学习──我们对这个部分特别感兴趣,也并专注于此。问题是,我们该如何接触这类客户?他们遍布全球,分散在不同的垂直市场;对于新创公司来说,这是一个很难进入的市场。
    但我们的策略可以说相当“狡猾”──我们与Dell建立了密切的合作关系;Dell是我们公司的投资者,透过与他们合作,我们顺利地进入企业应用市场,并透过多种不同形式将我们的技术提供给客户。举例来说,我们的产品可能是4U规格一体化IPU服务器,也可能是内建单片IPU PCI卡的工作站;我们有很多不同的选项瞄准这个市场,我们也已取得管道。

    EE Times:恭喜你们成为西方半导体界的唯一“独角兽”;拥有如此高的身价,Graphcore将如何确保投资者获得良好的投资报酬?


    拥有很高的估计市值对我们的公司来说是好事,因为那是公司业务模式的有力验证,而且能让我们可以筹集到大量资金。我们现在拥有具备惊人成长速度的“火力”,这非常重要,因为我们所在的是一个新兴市场;这种动力将在未来的两至三年内发挥作用,我们得在这段时间内跑得非常快,以成为市场上的领先者。
    回复

    使用道具 举报

    该用户从未签到

    19

    主题

    154

    回帖

    577

    积分

    PADS20200601高级班

    积分
    577

    终身成就奖

    发表于 2019-7-11 09:01:53 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情
    开心
    6 天前
  • 签到天数: 42 天

    [LV.5]常住居民I

    6

    主题

    1万

    回帖

    2万

    积分

    三级逆天

    积分
    20512

    终身成就奖特殊贡献奖原创先锋奖优秀斑竹奖

    QQ
    发表于 2019-7-11 09:10:26 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情
    郁闷
    5 小时前
  • 签到天数: 102 天

    [LV.6]常住居民II

    3

    主题

    3735

    回帖

    4553

    积分

    二级逆天

    积分
    4553

    终身成就奖优秀斑竹奖

    QQ
    发表于 2019-7-11 09:28:10 | 显示全部楼层
    回复

    使用道具 举报

    该用户从未签到

    76

    主题

    2895

    回帖

    84

    积分

    二级逆天

    积分
    84

    终身成就奖社区居民优秀斑竹奖

    QQ
    发表于 2019-7-11 09:39:14 | 显示全部楼层
    回复

    使用道具 举报

    该用户从未签到

    8

    主题

    959

    回帖

    0

    积分

    1元学习PADS(5期)

    积分
    0

    终身成就奖特殊贡献奖原创先锋奖

    QQ
    发表于 2019-7-11 13:36:53 | 显示全部楼层
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    论坛开启做任务可以
    额外奖励金币快速赚
    积分升级了


    Copyright ©2011-2024 NTpcb.com All Right Reserved.  Powered by Discuz! (NTpcb)

    本站信息均由会员发表,不代表NTpcb立场,如侵犯了您的权利请发帖投诉

    平平安安
    TOP
    快速回复 返回顶部 返回列表