马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有账号?立即注册
×
当生成式大语言模型已经让「图灵测试」(Turing Test)沦为历史性符号,而人工智能的下一个边界正在物理世界悄然形成。
英伟达 AI 机器人总监、杰出研究科学家 Jim Fan 在红杉资本 2025 年 AI 峰会发表主题演讲,系统阐述了 AI 如何从数字对话走向物理交互。他还在演讲中提出了「物理图灵测试」(Physical Turing Test)概念,并预言这将在未来成为 AI 领域的下一个圣杯。
图灵测试已成常规 AI 挑战转向现实世界
Fan 开场直言当前 AI 行业已进入「图灵测试通过后的平淡期」。
「我们通过了图灵测试,但没人注意。」就如 o3-mini 思考慢了几秒、Claude 调试代码失败,都不再让人产生惊讶,因为 AI 大语言模型已经完全融入目前的生产生活当中。
在他看来,真正值得期待的 AI 突破,应当是让机器人能在现实生活中完成家务、烹饪等复杂任务,并让人类无法分辨这些成果究竟出自机器还是人类——这便是「物理图灵测试」的标准。
他以家庭场景为例:「你在周日举办黑客马拉松后家里一团糟,周一希望有人能打扫干净并做一顿烛光晚餐,让伴侣满意。当你回家,发现一切井井有条,却分不清到底是人还是机器做的,这才是真正的 AI 时代。」
数据瓶颈: 机器人采集能力远逊于大模型
Fan 指出,对于眼下 AI 机器人领域,最稀缺的资源并非「算力」,而恰恰是「数据」。
他调侃道当大模型领域的研究员们,如 Ilya Sutskever 在抱怨预训练数据枯竭,称互联网是 AI 的「化石燃料」时,机器人团队却连最基本的「化石燃料」都没有。
「我们只能靠人类遥操作(teleoperation)为机器人采集数据——这是烧人力燃料,比化石燃料还难得。」
他介绍了英伟达总部的真实数据采集流程:在公司咖啡厅架设人形机器人,研究员戴上 VR 头显,手势实时传递给机器人,采集连续的关节控制信号(robot joint control signals)。这些数据无法通过互联网爬取,也不可能从维基百科、YouTube、Reddit 获得,只能靠人工一点点录制。
Fan 坦言,这个过程极其低效且难以扩展:「每台机器人一天理论上顶多采集 24 小时数据,但实际远低于此,因为人和机器人都会疲劳。」
仿真突破: 数字孪生(Digital Twin) 和领域随机化(Domain Randomization)
面对数据瓶颈,英伟达选择大规模仿真(simulation)作为「核能」突破口。
Fan 强调,仿真平台让机器人手在虚拟世界中以真实速度的 1 万倍训练,并通过「领域随机化」(domain randomization)不断调整重力、摩擦等环境参数,从而大幅提升泛化能力。
Fan 幽默自嘲:「我小时候就放弃了旋转钢笔,但我的机器人手在仿真中可以做到超人类水平。」
他进一步指出,只要有数字孪生(digital twin),即机器人与环境的一比一数字复制体,训练成果就能实现「零样本迁移」(zero-shot transfer),直接部署到真实机器人上。
例如,英伟达团队让机器狗在球上保持平衡,还让人形机器人仅用 2 小时仿真,完成相当于 10 年量的步行训练。Fan 直言,完成这些复杂运动的神经网络只需 1.5M 参数,远小于主流 LLM 规模。
自动生成,数据扩增: Robocasta 与「数字表亲」(Digital Cousin)范式
Fan 称,传统仿真最大瓶颈在于场景和资产构建需大量人工。
为此,英伟达引入 3D 生成模型 (3D gener model)、扩散模型(Diffusion Model)、大语言模型(LLM)自动生成 3D 资产、纹理和场景布局(layouts),并开发了组合式仿真平台 Robocasta。
通过这一平台,研究员只需在仿真中演示一次操作(如遥控杯子移动),系统即可通过环境与动作的组合扩增,轻松获得数百倍数据量(数据扩增公式:M * N)。
这一混合生成物理引擎(hybrid generative physics engine),部分依赖生成模型,部分仍用传统图形管线,让成本与多样性实现平衡。
视频扩散模型: 「数字游牧民」(Digital Nomad) 与反事实仿真
更具前瞻性的突破来自视频扩散模型(video diffusion model)。Fan 展示,英伟达可用真实机器人实验室数据微调开源视频生成模型,实现全流程自动生成仿真视频。
研究员仅需给定自然语言提示(prompt),即可生成「反事实」场景(counterfactuals):比如同一帧画面,模型根据不同指令演绎出不同动作——即便这些动作现实中从未发生。
Fan 进一步演示了机器人弹尤克里里(ukulele)、抓取物体等复杂行为,指出这些生成视频「没有一个像素是真的」,但交互、反射、动作细节都高度拟真。
他形象地称这一阶段为「仿真 2.0」,数据多样性极高但速度较慢,是 AI 模型在虚拟多元宇宙(simulation of the multiverse)中自由推演现实。他将其命名为「数字游牧民」(digital nomad),强调 AI 模型正以前所未有的自由度探索物理世界的所有可能。
计算规模定律(Scaling Law): 神经世界模型与传统仿真融合
但 Fan 也向大家警告说,传统的仿真扩展方法(Simulation 1.x)现在还需要巨量的算力资源,但多样性仍将遇到瓶颈。
而神经网络世界模型(Neural World Models, Sim 2.0) 可随算力指数级扩展,最终超越人类手工构建系统。他强调,「这两者结合,就是下一代机器人系统的『核能』。」Fan 还提醒业界,认为算力将会过剩完全大错特错。
开源与「物理 API」: AI 机器人走向服务与新经济
所有数据与能力,最终汇聚到视觉-语言-动作模型(Visual Language Action Model),输入像素与指令(instruction),输出马达控制信号(motor control)。英伟达已开源 GR00T N1 模型,能让机器人执行家务、工业、多人协作等多场景任务。
Fan 也透露,英伟达的相关后续系列模型也将坚持开源,来践行 CEO 黄仁勋「开源物理 AI,普惠社会」的承诺。
Fan 展望更远未来,提出「物理 API」新范式:要像大模型 API 能操作数字比特,物理 API 将让软件直接控制现实世界原子。在此基础上,将诞生「物理提示」(physical prompting)、物理应用商店(physical app store)、技能经济(skill economy)等新业态。
例如米其林大厨可教机器人烹饪,实现「米其林晚餐即服务」,让物理技能数字化、商品化。
最后,引用黄仁勋的预言——「未来,所有能移动的事物都将实现自主。」他畅想,未来人类回家,沙发洁净、晚餐丰盛,伴侣微笑不再抱怨家务。这一刻或许不会成为头条新闻,只是又一个普通星期二,但物理智能(Physical AI)已然融入日常生活,成为「环境智能/泛在智能」(Ambient Intelligence)的一部分。
|