21世纪经济报道记者孔海丽 北京报道
2025年智源大会上,人形机器人不再是吉祥物,被“围堵”的人从杨植麟变成了王兴兴。
这一年,AI进展迅猛,迭代周期甚至少于3个月,且不再局限于大语言模型,而是转化为人形机器人训练、落地的强辅助。
“人工智能正在加速从数字世界走向物理世界。”智源研究院院长王仲远在接受包括21世纪经济报道在内的记者采访时直言:“人工智能应该为世界做一些实实在在的事情,帮助人类摆脱繁琐的、重复的以及简单的劳动。”
AI技术路线转向世界模型
“大模型技术还远没有到发展的尽头,过往所说的‘百模大战’更多是大语言模型的竞争,而大语言模型受限于互联网数据的使用,基础模型性能虽然还在提升,但是提升速度不如以前。”在王仲远看来,大语言模型性能提升瓶颈的解法主要包括三个方面,一是强化学习优化推理能力,二是合成高质量数据替代人类标注,三是激活海量未充分利用的多模态数据,多模态数据的规模可达文本的“百倍乃至万倍”。
在智源研究院的判断中,大模型的技术路线会从大语言模型往多模态尤其是原生多模态世界模型的方向发展。原生多模态世界模型本质上是为了让人工智能感知和理解物理世界,进而推进和物理世界的交互。进入物理世界之后,在宏观层面,大模型与硬件结合,通过具身智能的发展解决实际生产生活问题。
“所有这一切构成的世界模型,是实现物理AGI的重要发展路径。”王仲远表示,智源研究院的工作布局都是围绕这一技术发展趋势进行的。
在2025北京智源大会上,继“悟道”系列大模型之后,智源研究院推出了“悟界”系列大模型,包括原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。
到底该如何定义“世界模型”内核,王仲远以咖啡杯举例:“现有模型能描述‘白色带文字的杯子在桌上’,但无法判断‘杯沿悬空可能坠落’——这需要时空预测能力。”他强调Emu3的核心突破正在于此:建立对物理因果关系的理解,而不仅是多模态信息拼接。
争议中的具身智能落地路径
当被问及具身智能的技术路线之争,王仲远展现出务实的态度。
关于人形是不是具身智能的最优解,王仲远肯定了人形机器人的长期价值:“社会基础设施为人类设计,双足构型更易融入,且海量人类行为数据利于模型训练。”
但短期内四足、轮式等形态将共存,“人形机器人的成熟周期更慢,今年刚学会跑,稳定性仍需突破。”他说道。
数据悖论如何解? 面对“硬件能力不足限制数据采集,数据稀缺又制约模型进化”的循环困局,王仲远认为,可以通过互联网视频数据训练基础能力,再以少量真实数据强化学习微调。“就像孩子看视频学会串蓝莓,再动手实践优化动作。”
工厂场景为何优先? “封闭环境可规避安全风险,且重复枯燥任务存在刚需。”他举例物流分拣、激光刻印等场景,“这些人类不愿做的工作,正是具身智能首个突破口”。
对于业内热炒的“大小脑融合”概念,王仲远表示,智源不否认大小脑融合的可能趋势,未来5-10年,大小脑融合的模型可能会成熟,但不是今天。
他直言,当前具身智能数据量不足以支持大小脑融合的模型训练。
目前,具身智能的VLA模型泛化性不够,也许能把咖啡端得很好,但并不能很好地解决其他泛化任务。王仲远认为,具身智能或者机器人2.0时代,最重要的是能突破专有任务,达到一定的泛化性,再到未来具备更通用、跨领域的泛化性,这需要一定的发展过程。
他判断,2006-2022年的深度学习或者AI 1.0时代,人工智能的发展路径是首先在某项能力上超越人类,然后进入到生产生活应用,积累了越来越多的数据,再随着算力、算法、数据达到一定程度,推动大模型的产生,随后,发现其具备了通用人工智能和跨领域的可能性。“VLA以及真正意义上端到端的具身大模型,需要时间沉淀。”
AGI刚过起跑线
MCP、Agent成为人工智能领域最新话题,这是否意味着AI有了实质性突破,以及AGI到底走到了哪一步?
王仲远认为,大模型发展到一定程度,达到可用状态之后,Agent是产业界可以开始发力的领域。
“基础大模型达到可用状态时,像水、电、操作系统一样,意味着可以基于这个操作系统开发很多APP。现在的Agent相当于移动互联网的APP,目前手机上很多APP也是工作流,但是越来越强时就能扩展能力。”他指出,现在大模型的思考能力和智能化程度已经实现使得部分Agent做得很好,这是产业界特别擅长和优势所在,这是产业发展的趋势。
王仲远表示,此前“百模大战”讨论的是基础大模型的竞争,但是基础大模型一定会收敛,现在可以看到行业内还剩下少数几个玩家在坚持基础大模型,这在某种程度上不会造成资源浪费。
将来有没有可能出现新的“千模大战”或者“万模大战”?王仲远并不排除这种可能性。他说,因为基础大模型进入产业,需要产业相关的数据衍生出垂类模型,但垂类模型并不是指垂类领域训练,而是基于好的基座模型+垂类数据,训练出好的产业模型。
“具身大模型的发展仍处于非常早期的阶段,类似于GPT-3前的探索期。”王仲远分析指出,当前具身智能也面临与早期AI大模型类似的挑战。
比如,技术路线尚未形成共识:学界与产业界对核心技术路径存在分歧,仿真数据、强化学习、大小脑融合架构等方向仍在探索中,尚未形成统一方法论;又如产业落地尚需突破:尽管智源推出具身智能跨本体大小脑协作框架等成果,但离大规模商用仍有较长距离,需要解决“感知-决策-行动”协同、多模态数据融合等基础问题。
或许,当机器人能真正理解“咖啡杯放桌沿会摔碎”时,才是物理AGI的里程碑。