GR00T N1.5和GR00T N1.6 GR00T N1.5An Improved Open Foundation Model for Generalist Humanoid Robotsnvidia简介GR00T N1.5是人形机器人的 GR00T N1 基础模型的升级版本。通过架构、数据和建模方面的多项改进N1.5 在模拟操作基准测试和真实的 GR-1 机器人上的表现均优于 N1详情见下文。我们预计 N1.5 的用户相较于 N1 应能观察到更好的性能特别是在泛化能力和语言跟随 language following能力方面的提升。模型与数据更新架构与 N1 一样GR00T N1.5 使用 NVIDIA Eagle VLM视觉语言模型来编码文本和视觉观测信息。来自 VLM 的视觉-语言嵌入随后被 DiT扩散 Transformer进行交叉注意力处理该 DiT 负责处理状态和带噪动作。与 N1 的主要区别如下VLM 模型在预训练和微调过程中均被冻结。连接视觉编码器和 LLM大语言模型的适配器 MLP多层感知机被简化并对输入 LLM 的视觉和文本 token 嵌入均添加了层归一化。我们发现这些修改极大地改善了语言遵循能力和泛化能力。改进的 VLM Grounding Capabilities我们更新了 GR00T N1.5 的 VLM基于 Eagle 2.5 并针对更好的grounding capabilities和物理理解进行了调优。在 RefCOCOG 和我们内部 GEAR GR-1 Grounding数据集上我们观察到 N1.5 VLM 模型的表现优于 Qwen2.5-VL-3B。模型规模GR-1 接地 IoU (↑)RefCOCOG-val IoU (↑)Qwen2.5VL3B35.585.2GR00T N1.5 VLM2.1B40.489.6模型和数据改进冻结 VLM视觉-语言模型在预训练和微调过程中均保持冻结保留了语言理解能力并提高了泛化能力。增强的 VLM Grounding升级至 Eagle 2.5具有改进的接地能力和物理理解能力在 GR-1 Grounding任务上达到了 40.4 IoU而 Qwen2.5VL 为 35.5。简化的适配器简化了视觉编码器和 LLM 之间的 MLP 连接并增加了层归一化。FLARE 集成在流匹配损失flow matching loss之外增加了未来潜在表征对齐FLARE目标从而能够从人类第一人称视频中有效学习。DreamGen 集成整合了通过 DreamGen生成的合成神经轨迹以实现对超越遥操作数据的新颖行为和任务的泛化。性能改进语言跟随与 N1 相比语言命令跟随能力显著提升——在 GR-1 操作任务上成功率从 46.6% 提升至 93.3%。数据效率在低数据机制0-shot 和少样本场景下表现更好。更好的新物体泛化能力。新的具身头Embodiment Heads通过EmbodimentTag.OXE_DROID头增加了对具有末端执行器EEF控制空间的单臂机器人的支持并通过EmbodimentTag.AGIBOT_GENIE1头增加了对带有夹爪的人形机器人的支持从而超越了关节空间控制实现了更广泛的机器人兼容性。联合策略学习与世界建模目标除了 N1 使用的流匹配损失外对于 N1.5我们增加了未来潜在表征对齐Future Latent Representation Alignment见 FLARE 项目。FLARE 不是以生成方式对未来帧进行建模而是将模型与目标未来嵌入对齐。我们发现添加 FLARE 既提高了策略性能又开启了从人类视频中学习的能力。训练我们在 1000 张 H100 GPU 上对 GR00T N1.5 进行了 25 万步的训练全局批次大小为 16384。与 N1 一样我们使用了带有预热比例为 0.05 的余弦学习率调度器的 AdamW 优化器。我们在预训练和后训练中都使用了 0.2 的 FLARE 损失系数。我们的预训练混合数据包括内部 GR-1 数据、OpenXE、模拟 GR-1即 DexMG、来自 DreamGen 的神经轨迹以及 AgiBot-BetaDistribution of training data in GR00T N1.5 pretraining.实验结果架构验证为了调整 N1.5 的模型架构我们在两个需要语言following的模拟机器人基准测试上从头开始训练了策略“Language Table” 和一组五个需要语言的模拟 GR-1 任务“Sim GR-1 Language”。我们发现 N1.5 架构在这两个基准测试上都取得了显著更高的成功率表明其具有更强的语言条件控制能力。基准测试GR00T N1 (从头训练)GR00T N1.5 (从头训练)Language table52.8%93.2%Sim GR-1 Language36.4%54.4%模拟环境中的数据受限后训练遵循 GR00T N1 的评估协议我们评估了 N1.5 在数据受限后训练中的表现。对于 Sim GR-1我们可以评估少样本和零样本情况因为预训练混合数据包含了其他具有相同具身形态的 Sim GR-1 任务。我们发现 N1.5 在极低数据量情况下零样本和 30 次演示表现显著更好。模拟基准测试GR00T N1GR00T N1.5RoboCasa每任务 30 次演示17.447.5Sim GR-1零样本39.643.9SimGR-1每任务 30 次演示43.247.4真实 GR-1 语言following我们在真实的 GR-1 评估中增加了一个简单的语言following任务桌子上有两个水果要求机器人将其中一个放到盘子上。目标水果的初始位置被采样为以 50% 的概率更靠近左手或右手。设置GR00T N1GR00T N1.5语言following率46.6%93.3%总体成功率43.3%83.0%我们发现在真实 GR-1 机器人上follow语言指令的能力方面N1.5 相比 N1 有显著提升。虽然两种策略都能一致地将某些水果抓取并放置到盘子上但 N1.5 的语言遵循率高得多从而带来了更高的总体成功率。从人类第一视角视频中学习操作新物体为了评估模型的泛化能力我们使用一组在预训练期间未见过的 10 个新物体来评估抓取和放置的性能。正如FLARE项目所示未来潜在表征对齐future latent representation alignment使得能够直接从人类第一视角视频中学习。这允许利用人类视频和极少量的机器人演示来学习操纵新物体。在使用 N1.5 时我们发现这也适用于零样本zero-shot场景。SettingGR00T N1GR00T N1.50-shot0%15.0%FLARE post-trained on human videos including novel objects-55.0%新物体泛化性能。我们观察到 N1.5 不仅在 zero-shot 设置下表现更好而且还能从与真人视频的联合训练中获益。利用神经轨迹泛化到新行为为了超越遥操作数据的局限使人形机器人能够在新环境中学习新任务我们使用DreamGen生成合成机器人数据用于训练。通过 DreamGen 流水线我们展示了 GR00T N1.5 可以在 12 个新动词上取得非平凡的结果详见 DreamGen 博客文章以了解任务详情这些动词是通过我们的流水线添加到预训练数据中的。GR00T N1 对新动词仅表现出微弱的泛化能力只能重复预训练中包含的任务例如拾取和放置。我们发现GR00T N1.5 在 12 个 DreamGen 任务中达到了 38.3% 的成功率而 GR00T N1 仅为 13.1%。虽然从我们从未为这些任务收集过遥操作数据这个意义上说这些新动词可以被视为“零样本zero-shot”但我们仍然通过 DreamGen 轨迹显式地对它们进行了训练将完全的零样本动词和环境泛化留待未来的工作。在 Unitree G1 上的后训练我们在 Unitree G1 机器人上收集的 1K 个遥操作片段上对 GR00T N1 和 N1.5 进行后训练。与 GR-1 语言跟随实验一样我们用一个目标物体和一个干扰物体初始化场景目标物体距离左手或右手的概率相等。我们观察到对于之前见过的物体在 GR-1 预训练语料库中见过的玩具水果经过后训练的 GR00T N1.5 比 N1 取得了高得多的成功率并且也展示了对各种先前未见物体的泛化能力。ModelGR00T N1, 1K DemosGR00T N1.5, 1K DemosGR00T N1.5, 1K DemosTaskPlace 1 of 2 fruits onto plate; 4 total fruitsPlace 1 of 2 fruits onto plate; 4 total fruitsPlace 1 of 2 objects onto plate; 5 novel objectsScene---Success rate44.0%98.8%84.2%Discussion总体而言我们看到 GR00T-N1.5 相比 GR00T-N1 有了显著的改进。它实现了更高的成功率可以使用更多样化的数据源并且具有显著改进的语言遵循能力。我们将这些改进归因于增强的grounding capabilities、FLARE loss 的使用以及来自 DreamGen 的多样化数据。GR00T N1.6简介我们推出了 GR00T N1.6这是针对人形机器人的 GR00T N1.5 基础模型的改进版本。通过多项架构、数据和建模方面的改进我们发现 N1.6 在模拟操作基准测试以及真实的 Bimanual YAM、Agibot Genie-1 和 Unitree G1 机器人上的表现均优于 N1.5详情如下。我们预计 N1.6 的用户应能观察到比 N1.5 更好的训练后性能。模型和数据改进架构变更基础 VLM视觉-语言模型我们使用了内部的 NVIDIA Cosmos-2B VLM 变体。该 VLM 支持灵活分辨率能够以原始纵横比对图像进行编码而无需填充Padding。该 VLM 在通用视觉-语言任务和具身推理任务如“下一个动作预测”上进行了联合训练。扩散 TransformerDiT 层数扩大至原来的 2 倍N1.6 为 32 层而 N1.5 为 16 层。移除适配器层移除了 N1.5 中 VLM 后的 4 层 Transformer 适配器。取而代之的是我们在预训练期间解冻了 VLM 的顶部 4 层进行协同训练。动作范式调整针对大多数具身形态模型预测“状态相关的动作块state-relative action chunks”而不是绝对关节角度或末端执行器EEF位置。除了 N1.5 的数据混合外N1.6 的预训练数据还额外包含了来自以下来源的数千小时遥操作数据Bimanual YAM 双臂机械臂AGIBot Genie1在 BEHAVIOR 套件上模拟的 Galaxea R1 Pro使用 Unitree G1 进行的全身移动操作Locomanipulation讨论对于 GR00T N1.6我们进行了比 GR00T N1.5 更复杂的现实世界机器人实验这些实验需要长视野推理、灵巧性和多任务处理能力。在扩大现实世界实验规模时我们结合了从机器人学习社区学到的各种经验教训以提高模型在推演rollouts过程中的成功率。相对动作被用作大多数具身形态的默认动作空间。我们的实验表明相对动作比绝对动作能产生更平滑、更准确的运动。然而在小数据集上相对动作容易出现误差累积从而影响修正能力。预训练统计量在任务分布与预训练数据相似时可以提高性能否则模型可能会欠拟合。因此当分布不同时我们会使用后训练统计量。GR00T N1.6 比 GR00T N1.5收敛更快从而产生更平滑的动作但也需要更仔细的调优以防止过拟合。我们在后训练期间应用了更强的状态正则化、额外的数据增强以及与预训练数据的联合训练来对模型进行正则化。DAgger能有效提高模型性能建议在模型在现实世界实验中表现不佳时使用。测试时和训练时的实时控制RTC在异步推演rollouts过程中显著提升了动作的平滑度和鲁棒性。我们在 Unitree G1 和 Bimanual YAM 实验中采用了这一技术。多任务语言跟随和分布外任务泛化对当前的 VLA 模型来说仍然是挑战。更细粒度的子任务标注可以改善语言跟随能力但尚未达到鲁棒的泛化水平。这将是未来研究中持续努力的方向。Rollouts在机器人学习和强化学习中通常指模型在环境中执行动作并观察结果的序列过程可译为“推演”、“部署”或“采样”。DAggerDataset Aggregation一种模仿学习算法通过迭代收集专家在模型预测状态下的纠正数据来训练策略。VLAVision-Language-Action视觉-语言-动作模型一种结合了视觉感知、语言理解和动作生成的多模态AI模型。