我们从2011年坚守至今,只想做存粹的技术论坛。  由于网站在外面,点击附件后要很长世间才弹出下载,请耐心等待,勿重复点击不要用Edge和IE浏览器下载,否则提示不安全下载不了

 找回密码
 立即注册
搜索
查看: 347|回复: 0

[资料贡献] AMEYA报道:昆仑芯在大模型场景的规模落地实践

[复制链接]

该用户从未签到

198

主题

0

回帖

428

积分

二级逆天

积分
428

终身成就奖特殊贡献奖金点子奖原创先锋奖

发表于 2023-3-31 15:26:29 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区

您需要 登录 才可以下载或查看,没有账号?立即注册

×
  ChatGPT及大模型技术大会上,昆仑芯科技研发总监王志鹏表示:“作为一家芯片公司,需要对市场的需求和变化非常敏感,才能使硬件产品始终精准匹配主流需求。”

  大模型对计算的要求主要体现在三个方面,一是算力,二是互联,三是成本。就大模型而言,昆仑芯科技在产品定义上已经做出布局——相较第一代产品,昆仑芯2代AI芯片可大幅优化算力、互联和高性能,而在研的下一代产品则将提供更佳的性能体验。

  昆仑芯科技成立于2021年,前身为百度智能芯片及架构部。在实际业务场景中深耕AI加速领域已逾10年,专注打造拥有强大通用性、易用性和高性能的通用人工智能芯片。

  在持续推进核心技术攻关的同时,昆仑芯科技紧密关注科技前沿,精准匹配市场需求。目前,公司已实现两代通用AI芯片的量产及落地应用,在互联网、智慧金融、智慧交通等领域已规模部署数万片。“来自真实场景”一直是昆仑芯科技最独特的身份标签,也是其规模部署数万片、在行业内“领跑落地”的核心优势所在。

  王志鹏认为,只有基于真实业务场景中的数据进行端到端优化,才能顺利推进大模型落地。

  目前市场上主流的大模型以Transformer架构为主,包含Encoder和Decoder。Encoder主要被应用于各类NLP的判别类任务;而Decoder更多被应用于翻译、图文生成等场景,最近出圈的ChatGPT就是典型代表。

  针对大模型,昆仑芯持续打磨部署优化方案,领跑产业落地。昆仑芯已将大模型的Transformer相关优化技术沉淀为重要基建,优化后的性能比原有方案提升5倍以上,压缩显存30%以上。AI绘画模型的推理算力及显存需求随图像分辨率增大而指数级增加,同时,图像生成需要循环采样数十次,产业落地动辄需要高昂成本的部署集群,严重阻碍了AIGC模型大规模商业化落地。

  2022年第四季度,昆仑芯联合客户,基于飞桨PaddlePaddle发起了端到端联合优化项目。在2-3周内,项目组快速完成端到端优化,最终实现输入文本后2秒出图的优化效果,性能提升近8倍。

  目前,昆仑芯AI加速卡R200已在该客户的大模型场景完成规模部署,性能数据全面超越同系列主流推理卡:

  基于昆仑芯AI加速卡R200高效运算与推理能力,综合优化方案,在dpm-25steps算法下,利用昆仑芯AI加速卡R200,生成1024*1024图像时的推理速度为10.89 iters/s,相比同能力的主流推理卡快20%。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

每日签到,有金币领取。


Copyright ©2011-2024 NTpcb.com All Right Reserved.  Powered by Discuz! (NTpcb)

本站信息均由会员发表,不代表NTpcb立场,如侵犯了您的权利请发帖投诉

( 闽ICP备2024076463号-1 ) 论坛技术支持QQ群171867948 ,论坛问题,充值问题请联系QQ1308068381

平平安安
TOP
快速回复 返回顶部 返回列表