高德地图公布ABot全栈具身智能技术架构

2026-04-24 59675阅读

一、 当地图开始“Dream World”

当大模型从数字世界走向物理世界,具身智能正成为人工智能的下一个主战场。然而,让机器人真正在开放、非结构化的真实环境中实现自主感知、决策与行动,仍面临数据稀缺、技能泛化和可靠执行三大核心瓶颈。

高德基于二十年时空数据积累与大规模地图工程能力,提出了由世界模型(World Model)、导航模型(N系列)操作模型(M系列)和具身Harness架构构成的"三位一体"具身智能技术基座。该架构以世界模型为想象引擎,以N0与M0为行动双核,运行于统一的Abot智能中枢之上,首次打通从环境理解、路径规划到精细操作的全闭环技术链路。同时,我们三层架构是真正面向具身AGI的,真正做到了一套模型部署轮式机器人、四足机器人、人形机器人,均有智能、鲁棒的的真机和产品表现。

依托于20年在数据和智能方面的积累,高德正在将地图时代沉淀的数据资产系统性地转化为具身机器人的智能——从物理一致的神经模拟器到可交互世界模型,从Unified的具身导航、操作大脑到面向通用具身机器人的Harness架构,高德正用自己20年对于物理世界的深刻理解,为具身AGI真正走向物理世界开启了新篇章。

二 、ABot全栈技术架构

ABot General EAI System 包含Data Infra Layer、Foundation Model Layer 和Agent Layer ,共同构建“连续的真实世界数据 → 可持续的算法迭代 → 长期真实的物理反馈”的完整闭环。

● Data Infra Layer 是地基。核心是 ABot-World 仿真引擎,批量合成 Video、Depth、Point Cloud、Trajectory 四类训练数据,配合 RL Training Engine 在虚拟环境里定义奖惩、反复试错。这一层本质上是在用仿真替代成本极高的真实数据采集,是整个系统的天花板所在。

● Foundation Model Layer 是感知与决策核心。ABot-M 负责操作,ABot-N 负责导航,将机器人动作变成机器人的物理直觉。两个模型分工训练、通过 Model Skill 机制组合调用,通过不同模型(导航、操作等)、skill组合完成长程、复杂任务。

● Agent Layer 是执行层。ABot-Claw 具备任务规划、多模态记忆、闭环纠错三个能力,针对的是长时序任务下的鲁棒性问题——系统设计上默认"会出错",而不是假设每步完美执行。

bd7351c2-3d76-11f1-90a1-92fbcf53809c.png

三 、ABot-World:可交互具身世界模型

● 当主流世界模型仍陷于“视觉幻觉”,ABot-World 已实现根本突破:全球首个将物理定律深度嵌入全流程的世界模型,不再是视频生成器,而是为机器人服务的可微分、可进化的物理级动力学引擎。

beb724e6-3d76-11f1-90a1-92fbcf53809c.png

其核心突破由四大支柱构成:

● 具身原生架构:专为具身智能设计的14B DiT架构,以观测与动作为输入,在潜空间直接生成符合时空动力学的未来状态序列;基于千万级真实导航、操作数据与多层级采样治理,打破任务垄断,激活长尾技能,实现强泛化能力。

● 3DGS 冷启动空间基座:面向手机拍摄、航测图等稀疏输入,构建“粗建模→高保真修复→蒸馏回环”流程,实现从低质视频到高质量3D场景的自动化生成。

● 物理硬约束训练:首创 Diffusion-DPO 物理偏好对齐框架,通过 VLM 生成规则清单、并进行独立判别,构建优劣样本对,驱动模型抑制物理违规行为;融合拉格朗日动力学与3DGS重建,每帧均为含质量、摩擦、接触力等属性的可微分物理快照。

● 双引擎自进化系统:构建“训练引擎 + 数据引擎”并行架构。依托高德高精地图与真实轨迹数据,结合3DGS 技术实现厘米级重建与光照一致,支持多视角合成与动态扰动,共生产万级 3D 真实场景、百万级推理数据、千万级训练轨迹,覆盖99%典型生活场景;接入VLA闭环,实现“预测即训练,演练即学习”的持续进化;通过跨形态动作映射,统一实现单臂、双臂、灵巧手等多形态精确控制。

● 行业权威具身榜单榜首成绩:涵盖由李飞飞团队主导的 WorldScore(截至2026.04.08)、清华主办的 WorldArena、智元机器人发起的 Agibot World Challenge(截至2026.04.15);

● 对标行业顶尖和新兴强手:ABot-World 直面 OpenAI (Sora 2.0)、Google DeepMind (Veo 3.1)、NVIDIA (Cosmos) 等国际顶尖巨头,以及 GigaWorld、UnifoLM 等新兴强手的激烈竞争。在物理合理性性、动作可控性与3D一致性等核心指标上取得显著提升,在WorldArena榜单上,超过Veo 3.1 10%;

bf9ad736-3d76-11f1-90a1-92fbcf53809c.png

下面看一下我们真实的效果,首先是我们的城市级的生成式重建——ABot-3DGS,一个无限尺度的可编辑世界场景渲染。

同时,我们打造了专门为具身导航、操作打造的物理世界模型——ABot-PhysWorld,从像素走向物理,从视觉走向行动。

同时,高德的可交互世界模型ABot-World即将发布,支持消费级显卡实时交互与10min级别长程记忆,请关注我们后续官网消息。

四、 ABot-N系列& ABot-M系列:跨本体具身导航、操作基座模型

c02bbb52-3d76-11f1-90a1-92fbcf53809c.png

c0b03bde-3d76-11f1-90a1-92fbcf53809c.png

ABot-N(Navigation): 作为全球首个实现五大核心导航任务"大一统"的VLA基座模型,ABot-N是真正理解人类意图、自主决策、持续进化的具身导航智能体。

Heterogeneous Target Encoder:ABot-N通过统一的多模态编码方案整合:全景与单目视觉自适应切换,文本指令、物体类别、POI名称与几何坐标异构表达统一映射至共享语义空间;时空记忆机制则赋予模型在POMDP环境中保持上下文连贯的能力,真正将感知与行动融为一体。

RL Alignment:ABot-N提出SAFE-GRPO强化学习框架,让模型从根本上理解"物理可通行≠社会合规"的因果逻辑,主动规避闯入车道、踩踏草坪等行为。三阶段课程学习(Cognitive Warm-up → Sensorimotor SFT → Value Alignment),确保运动能力与社会规范的协同内化。

ABot-N在VLN-CE(R2R/RxR)、HM3D-OVON、EVT-Bench等7大权威基准上全面刷新SOTA,在导航精度、社会合规性、zero-shot泛化三个维度实现系统性领先。

c1188cd4-3d76-11f1-90a1-92fbcf53809c.png

● ABot-M(Manipulation):构建开放协同的通用操作智能体系,通过系统性架构创新,在泛化能力、鲁棒性与跨形态迁移性能上实现全面突破,推动具身操作智能迈向开放协作的新阶段。

○ 动作流行学习假设(Action Manifold Learning):DiT 架构直接预测连续、可行的动作轨迹,将学习目标由去噪重构转为流形投影,显著提升动作生成的稳定性与解码效率,在高自由度全身控制等复杂场景中展现出更强的可扩展性。

○ 语义理解Expert × 空间先验Expert :构建双流并行感知体系,语义流继承 VLM 的跨模态理解能力,解析高层任务意图;几何流则通过3D Perception Injection 和 Multi-View Implicit Fusion 机制,增强空间结构认知。两路特征通过 cross attention 机制协同融合,显著提升精细操作任务的执行精度。

○ 统一动作表征与可持续泛化:动作统一为 EEF 坐标系下的增量表达,桥接不同机械结构的运动差异;padding 机制实现单/双臂任务在单一网络中的参数共享与统一建模。结合任务级分层采样与“预训练 + 空间感知微调”的两阶段训练范式,模型可在持续接入新形态、新模态与新任务的同时,保持已有技能的稳定性,支持能力的渐进式演进。

○ 四大权威具身操作基准SOTA性能:涵盖斯坦福主导的 LIBERO(单臂长程任务)、UT Austin 与 NVIDIA 联合发布的 RoboCasa(双臂高维操作)、清华推出的 RoboTwin 2.0(跨场景/任务泛化)以及 LIBERO-Plus(环境鲁棒性);

○ 对标国际主流VLA方案:直面 Physical Intelligence (π0.5)、NVIDIA (GR00T-N1)、斯坦福 (OpenVLA)、北大 (X-VLA) 等业界代表性工作,在长程任务成功率、跨本体迁移率及扰动鲁棒性等核心指标上取得显著提升,在RoboCasa任务上较 GR00T-N1 提升 11%成功率,在RoboTwin任务上较π0.5提升44%成功率;

c1a6e632-3d76-11f1-90a1-92fbcf53809c.png

下面ABot-N0在真机上的效果

● ABot-N、ABot-M的多项子成果(含多篇 ICLR,CVPR 2026 Oral等),从模型架构、记忆范式、Reasoning、强化学习等方向,不断探索具身导航与操作的技术边界。

c237521c-3d76-11f1-90a1-92fbcf53809c.png

五、 ABot-Claw:通用具身Harness架构

当前具身智能面临长程任务闭环难、多机协同弱、知识不共享等核心瓶颈。ABot-Claw 提出一种集中式具身 Harness 架构,将异构机器人统一于共享认知框架之下,打造具备调度、记忆、分层控制与社会对齐能力的“智能中枢”。

c29d1368-3d76-11f1-90a1-92fbcf53809c.png

c3091b80-3d76-11f1-90a1-92fbcf53809c.png

其核心架构聚焦四大技术方向:

● 统一调度与跨体协同:基于能力描述的动态调度机制,实现机械臂、人形、四足等多形态机器人的并行协作与任务接力,支持故障时自动接续,保障任务连续性。

● 跨具身共享Spatial Memory:以全局空间坐标为锚点构建持久化多模态记忆系统,将对象位姿、地点语义与关键帧视觉特征统一映射至共享的空间语义地图中;环境观测与历史行为具备可沉淀、可基于 Hybrid Retrieval(空间/语义混合检索)的特性,新设备通过读取全局 Context 实现知识零成本继承,支撑长周期运行下的跨会话连续性与跨具身协同作业。

● 分层协同架构:采用 “云端大脑 - 边缘响应” 两级设计,兼顾智能深度与执行可靠性:

○ Cloud-Brain (L3/L4 Planning) 负责高层任务分解与规划;

○ Edge-Claw (L1/L2 Control) 实现本地高频实时控制,确保物理安全与响应速度。

● 社会化行为对齐:引入 RL 相关技术,通过多智能体相对评估,自主学习电梯避让、行人礼让等社会规范,实现自然融入人类环境。

ABot-Claw 已经具备闭环反馈与在线修正能力,在模糊指令理解、部分可观搜索、跨机导引等复杂场景中验证其鲁棒性与泛化性。它标志着机器人系统从“单体智能”向“体系智能”的演进,机器人不再是孤立个体,而是共享记忆、统一调度、协同进化的智能网络节点。

下面,大家来看一下ABot-Claw部署在真机的表现吧。

Round1:四足机器人执行长程任务——自主取咖啡

Round2:人形机器人执行复杂长程任务——接待陌生访客

Round3:多机械臂协作——厨房操作

六 、生态与愿景

1. 范式:Physical AI数据飞轮已经跑通

"连续数据 → 算法迭代 → 人群反馈"这个闭环,在高德的系统里已经不是设计图,而是在持续运转的事实。每天亿级的真实出行数据进入系统,算法在这个基础上迭代,迭代的结果再通过产品回到用户,用户的行为反馈又成为下一轮训练的信号。这个循环每转一圈,系统对物理世界的理解就加深一层。

这件事的意义不只是"我们的模型更准了"。它意味着高德建立了一个随时间自动增值的资产——数据规模越大,算法越好;算法越好,产品越能吸引用户;用户越多,数据规模越大。竞争优势不是某个时间点的领先,而是飞轮本身的转速。

2. 开源:邀请行业共建空间智能与具身智能生态

今天,高德宣布开源部分空间智能与具身智能能力。这不是公关动作,是一个战略选择:我们相信,空间智能要成为具身时代的基础设施,前提是有足够多的开发者、合作伙伴、硬件厂商在同一套语言上构建各自的能力。封闭的护城河会减慢整个行业的速度,开放的生态才能让标准真正落地。

开源的部分能力,将覆盖ABot技术的全栈(ABot-World、ABot-M、ABot-N、ABot-Claw等),我们希望这些能力成为合作伙伴在具身场景下构建应用的起点,而不是每个人都要从零开始解决的基础问题。"AMAP-AI Inside"的含义,正是在这里——不是高德一家的产品,而是一个行业可以共同依赖的空间智能底座。

详细信息请关注Amap CV Lab官方网站:https://amap-cvlab.github.io/

3. 结语:为行业绘制标准航线

高德和行业的合作伙伴,共同期待具身GPT时刻的到来。ABot的技术体系,给行业一个很好的实践方案。它意味着机器第一次有了对物理世界的内在模型,能够在行动之前预测后果、在出错之后理解原因。这是从"会执行"到"会理解"的本质跃迁,是整个行业走向规模商业化的真正起点。

高德正在做的,就是这件事——不是第一个出发的,但我们有二十年对物理世界的丈量,有已经跑通的数据飞轮,有开放生态的决心。我们不是在宣布终点,我们是在为行业绘制一条走向大规模商业化的标准航线。