21世纪经济报道记者董静怡南京报道
“蚂蚁集团一直是在做生活相关的服务,包括金融、医疗等,过去更多是在数字世界积累,未来要更好地服务用户肯定会进入到物理世界。灵波就是蚂蚁在这一方向上的重要尝试。”近日,在智汇金陵 · AI开源人才峰会暨魔搭开发者大会上,蚂蚁灵波首席科学家沈宇军在接受21世纪经济报道记者采访时表示。
这是蚂蚁灵波成立的背景,它承载着蚂蚁集团将智能从数字世界向物理世界延伸的使命。而在这个过程中,蚂蚁的选择是:聚焦“大脑”,探索具身智能的上限,以开源开放推动行业共建。
今年1月,蚂蚁灵波一口气开源了四个大模型,包括行业热议的VLA(视觉-语言-动作)具身基座模型。在这个被很多人视为“下一个万亿赛道”的行业里,蚂蚁灵波选择了一条不那么拥挤的路。
但这条路该怎么走?技术路线又该如何选择?近日,沈宇军与我们聊了聊他对具身智能的思考。
在这个过程中,沈宇军看到了几个确定性的趋势:数据的积累方式会越来越高效,真机数采成本会快速下降;当物理世界的数据积累到足够量级后,这个行业会拥有属于自己的预训练模型;而原生安全,会成为预训练的一部分。

关键卡点是数据
过去一年,具身智能领域最火的概念莫过于“世界模型”。无论是斯坦福的《The Bitter Lesson》续篇,还是国内外头部公司的技术路线图,世界模型几乎被视为通往通用机器人的必经之路。
世界模型很热,但沈宇军对此保持了审慎的距离。“我不太喜欢讲这个词,但是现在可能这个词大家更能听得懂一点。”他向记者表示。
他解释,所谓世界模型,在他们这里更多是沿着视频生成的路线在走。视频生成相比其他模型最大的好处,是能够真正建模时序。因为机器人需要在真实场景中操作,而真实场景中的元素是动态变化的,因此他们更倾向于利用视频生成的能力,将连续建模的概念融入其中。
在技术路线上,沈宇军保持着一种难得的务实。他认为大家不用太纠结做的到底是VLA还是世界模型,“从原理上都一样——机器人根据观察到的东西,理解要做的事情,把它执行。”
不过,现阶段的主流路径还多是一种“迫不得已”的选择。无论是VLA还是世界模型,都建立在数字世界的大模型基础之上,再叠加少量机器人数据进行微调。
沈宇军真正期待的方向,是具身智能最终能拥有属于自己的预训练模型。这个预训练模型,将主要基于物理世界采集的数据从头开始训练,不再只依赖数字世界的先验知识。
现阶段,他认为,核心是要在大的范式框架下,把数据发挥到最大的价值。目前来看,对于具身智能来说,数据还是远远不够的。
“现在的多模态模型、视频生成模型,基本上都得用几亿个视频去学。但机器人的有效数据积累,还远未达到这个量级。”沈宇军向记者表示。
在数据量不够、参数量又特别大的情况下,模型很容易过拟合,也就是说只在某一小撮数据上表现好,换个场景就失效,未能真正学习到具有泛化能力的规律。
但数据从哪里来?怎么来?这可能是整个行业目前最棘手的问题。
真实数据正处于成本加速下降的拐点
首先是数据来源的选择:仿真还是真实?
目前,行业内存在两种声音。一派认为,仿真数据成本低、可扩展性强,是训练通用模型的必经之路。另一派则坚持,只有真实世界的数据才能最终弥合“仿真到现实”的鸿沟。沈宇军明确表示,蚂蚁灵波坚定地站在后者。
“我们基本上没有用仿真数据,尤其是预训练过程基本上没有。”沈宇军向记者表示。
也正因为如此,蚂蚁灵波在过去一年投入了大量精力去做真机数据采集。沈宇军透露,LingBot-VLA 使用了约2万小时的有效数据,但实际采集的总时长接近10万小时。其中包含了大量重复和时间不一致、质量较低的数据,有效数据的筛选标准非常严格。
这并非否定仿真的价值。在他看来,仿真在确定性任务上是有用的,比如在某个具体的场景落地时,它可以发挥价值。但如果目标是构建一个通用的模型,仿真环境也得跟着通用,而这本身就是个极难的问题。
而真实数据的采集,正处于一个成本加速下降的拐点,“可能会比仿真器提升的速度更快。”沈宇军向记者表示。
过去,机器人数据的采集主要靠遥操——人远程操控机器人做动作,把过程记录下来。这种方式有两个问题:一是机器人本身成本高,一台机器人动辄大几十万元;二是遥操慢,效率低。
但变化正在发生。“今年应该就有很多公司去探索更低成本的采集方式。”沈宇军表示,比如UMI、数据手套等等,这些新方式正在快速拉低成本,相应的公司也越来越多。
其次,是数据的“供给侧”问题:什么样的真实数据才是好数据?沈宇军给出了三个关键词:多样性、灵巧性、力。
多样性指的是任务本身的丰富程度。如果所有数据都是抓、拿、取、放这些简单动作,机器人最后也就只能干这些。数据分布的多样性决定了模型能力的边界。
灵巧性则指向了硬件的局限。目前大多数机器人用的还是夹爪,但夹爪能做的东西有限。
力这个维度,则是物理世界独有的。数字世界里没有摩擦力,没有重量感,没有材质的软硬。但在物理世界干活,这些东西恰恰至关重要。
“坦白讲,尤其是遥操这种数据采集方式采集到的数据,应该跟真实生活中人的操作还差的非常远,所以从数据层面,行业还有很长的路要走。”沈宇军向记者表示。
开源对具身智能行业尤为重要
沈宇军认为,具身智能还处在发展的早期,尤其是考虑到通用性和泛化能力。开源热潮也正是基于这种共识——复杂系统的演进,需要多方协同。
今年1月,蚂蚁灵波科技连续四天发布并开源四款具身智能模型:空间感知模型LingBot-Depth、具身大模型LingBot-VLA、世界模型LingBot-World、具身世界模型LingBot-VA。
“行业确实太早期了。”沈宇军向记者表示,“我不觉得有任何一个公司可以把整个具身智能行业的方方面面全吃透。我们既然聚焦‘大脑’这一层,那让更多人用我们的模型,在实际场景里跑起来,就是一个很关键的点。”
开源之后,反馈来得比预想的更具体。沈宇军向记者表示,以VLA模型为例,蚂蚁灵波内部用的时候效果不错,因为团队知道怎么调整。开源出去之后,我们收到反馈:模型的“好”和使用者感受到的“好用”,中间还隔着一层适配的鸿沟。而开源,恰恰是填平这道鸿沟的方式。
更深层的战略考量在于,蚂蚁灵波希望通过开源,让更多开发者进入这个赛道。在他看来,模型被更多人使用,才能知道哪里不足,才能精准地去补充数据。这种互动,对于尚处早期的具身智能行业尤为重要。
目前,来自顶尖实验室与硬核企业的海量高质量真机数据正在魔搭疯狂涌现,北京人形机器人创新中心开源的RoboMIND 2.0系列数据集,首度集成高保真触觉,累计下载量已突破185万次;乐聚机器人联合构建的LET全尺寸人形机器人真机数据集,下载量超过90万次;智元机器人发布的AgiBot World百万级真实轨迹数据,下载量超过34万次。
魔搭社区洞察:“今天的具身智能,正处于2022年大语言模型(LLM)爆发的前夜。历史的齿轮再次转动,算法与数据的全面开源,必将推动具身智能行业迎来指数级的爆发式发展。”
不过,现存挑战的应对仍需时间,沈宇军对具身智能落地的节奏仍保持着冷静:“如果说跑通一两个行业,我觉得一两年内就能看到。但大规模在生活中应用,至少五年起步。”
他还特别提出了“原生安全”的思路。在他看来,安全不应是事后加装的围栏,而应成为机器人预训练的一部分。“要先想清楚怎么定义安全、怎么采集安全数据,把安全能力内化到预训练过程中。”
在一个充满热钱和宏大叙事的赛道里,方向已经明晰,但与此同时,行业也需要有对漫长周期的耐心。

