智元机器人发布并开源首个机器人动作序列驱动的世界模型_常用知识

作者 | 褚杏娟

近日，智元机器人重磅发布具身智能领域双重里程碑式突破：全球首个基于机器人动作序列驱动的具身世界模型 EVAC (EnerVerse-AC)，以及具身世界模型评测基准 EWMBench。这两大创新成果现已全面开源，旨在构建“低成本模拟 - 标准化评测 - 高效迭代”的全新开发范式，持续赋能全球具身智能研究，加速技术落地与产业发展。

EVAC arxiv：https://arxiv.org/abs/2505.09723

EVAC 开源代码：https://github.com/AgibotTech/EnerVerse-AC

EWMBench arxiv: https://arxiv.org/abs/2505.09694

EWMBench 开源代码：https://github.com/AgibotTech/EWMBench

当前具身智能演进面临两大关键制约：在测试阶段，真机验证代价大、风险高，仿真系统又受制于虚实偏差；在数据层面，海量真机数据尚未构建基于轨迹扩增的高效利用机制，限制了多样性生成与泛化训练。为打破困局，智元机器人在去年发布的世界模型架构 EnerVerse 基础上推出创新成果：基于动作序列驱动的世界模型 EVAC 与具身世界模型评测榜单 EWMBench，构建从训练到评测全链路技术闭环，重新定义具身世界模型研发范式。

全球首个机器人动作序列驱动的世界模型

EVAC 是一个能够动态复现机器人与环境复杂交互的世界模型，标志着从传统仿真到生成式模拟的跃迁。

核心能力：从 “物理执行” 到“像素空间”的精准映射

EVAC 基于前序工作 EnerVerse 架构持续演进，创新型引入多级动作条件注入机制，实现 “物理动作 - 视觉动态” 的端到端生成，其核心能力体现在以下几个方面：

机器人动作与像素的高精度对齐：将机械臂 6D 位姿（x,y,z,roll,pitch,yaw）与末端执行器行程投影为 action map，确保物理动作与图像帧的像素级对齐，精准建模 “抓取”、“放置”、“碰撞”、“推拉”、“快速抛掷”、“缓慢摇晃” 等复杂动力学行为；
动态多视图建模：引入 Ray Map 编码相机运动轨迹，支持头部、腕部等多视角协同生成一致且连贯的视觉场景，赋予机器人更全面的环境生成能力。；
卓越的长时序一致性：采用 Chunk-Wise 自回归扩散架构与稀疏记忆机制（Sparse Memory），EVAC 能够实现单视图稳定生成长达 30 个连续片段、多视图下亦可维持 10 个连续片段的无漂移稳定输出，保证了模拟过程在时间轴上的连贯性与真实性；
数据高效利用：融合 Agibot-World 数据集 + 失败轨迹（如抓取滑脱、路径碰撞）提升生成质量，该策略能有效抑制幻觉现象，使模型能更合理、更全面地建模机器人与环境的交互动态。

生成式仿真评估 + 数据引擎双轮驱动

生成式仿真评测

数据增广引擎

EVAC 能够基于极少量的专家轨迹数据，通过动作插值与高保真画面生成技术进行大规模数据增广。应用结果表明，采用 EVAC 数据增广数据训练的策略模型，其任务成功率提升高达 29%，目标跟随性得到显著改善，验证了这一方案在具身智能研究中的实用性与高性价比。

打造具身世界模型的 “质检尺”

为了科学、系统地衡量具身世界模型的性能表现，智元机器人推出了全球首个具身世界模型评测基准——EWMBench，旨在填补行业空白，构建统一、可信的评测标准。

三维度评估体系：场景 × 动作 × 语义的立体考核

针对机器人操作场景的复杂性与特殊性，EWMBench 构建了立体化的评估体系，从场景一致性、动作合理性与语义对齐与多样性三大核心指标进行分析：

场景一致性 Scene Consistency，评估生成场景中背景 / 物体 / 视角等稳固度与真实性，采用微调过的 DINOv2 特征进行量化。
动作合理性 Motion Correctness，利用 HSD (Symmetric Hausdorff Distance), nDTW (normalized Dynamic Time Warping) 和 Dynamics Score 三重互补指标协同精确评估生成动作的合理性与动力学真实度。
语义对齐与多样性 Semantic Alignment & Diversity，结合 MLLM(多模态大模型）和 CLIP 从全局指令对齐度、关键步骤语义准确性、逻辑合理性等多个层次对生成视频进行语义理解评估。

权威数据支撑与便捷开源工具

基准数据集：EWMBench 基于行业领先的开源百万真机数据集 AgiBot World 构建，涵盖了家居、工业、医疗三大场景的 10 类典型机器人操作任务和刚体 / 柔体 / 流体 / 关节物体等多种交互对象，其中包含超过 300 个精心设计的测试样本及 30% 挑战性场景（低光照 / 部分遮挡），全面验证模型在复杂环境下的鲁棒性。
开源评测工具：智元机器人同步开源了全流程评测工具，支持一键生成标准化对比报告，大幅降低评估门槛，方便研究者快速开展模型比较与性能分析，加速实验验证与成果复现。

卓越评测性能：更贴近人类主观感知

相较于当前主流视频生成评测基准 VBench，EWMBench 在评测结果与人类主观判断的一致性方面表现更优，能够更真实、细致地反映具身世界模型在交互理解、动作还原与视觉一致性等核心维度的实际能力。

EnerVerse 作为强大的世界模型基础架构，为 EVAC 提供可靠的基础框架与预训练能力，而 EVAC 生成的多样化高质量数据又能反哺 EnerVerse 模型的持续优化，二者形成 “训练 - 验证” 技术闭环，不断推动模型性能突破。通过 EWMBench 提供的精细化、多维度量化分析，研发团队可以精准定位 EVAC 在处理如 “多物体交互”“动态环境避障” 等复杂场景的潜在不足，从而进行更具针对性的优化。

据悉，EVAC 与 EWMBench 组合方案，已正式入选 AgiBot World Challenge @ IROS 2025 – World Model 赛道的官方基线系统与评测标准。

中意知识网

智元机器人发布并开源首个机器人动作序列驱动的世界模型

热门标签

热门排行

最新更新

友情链接