跨机器、物体与各种任务!RoboScience发布通用具身大模型 RoboScience机器科学发布了Visics通用具身大模型并且完整披露了其VLOAVision-Language-Object-Action视觉-语言-物体-动作技术架构。Visics从底层出发搭建一套全新的具身基础表征单元实现三大维度的全域泛化适配任意机器人本体、操作任意类型物体、自主完成多样化任务。团队没让模型去复刻机器人关节轨迹而是用一串3D点云轨迹作为基础表征单元让机器人先理解什么是抓再决定怎么抓。Visics大模型由两个核心引擎组成具身世界模型负责想象物体怎么动通用操作模型负责把想象翻译成精确动作中间用Object Trajectory物体轨迹接口串起来。换机器人、换物体、换场景能力都能保留。具身智能缺一个基础表征过去两年具身智能领域主流做法是让模型直接学习机器人的关节运动轨迹复刻某一个特定硬件在特定任务下的动作坐标。这样的问题是换一台机器人、换一个物体、换一个场景模型此前习得的能力便无法直接迁移复用。模型学会的是夹爪怎么抓起杯子而非理解抓取本身什么是抓需要多大的力物体受力会怎么反应。RoboScience机器科学创始人兼CEO田野指出当前机器人操作面临三大核心瓶颈泛化能力差、精细操作难、长程任务误差累积。三大瓶颈都指向同一件事行业缺一个能让数据流通、让模型复用、让能力迁移的基础表征单元。大语言模型领域有标准的文本Token几亿网页几亿本书统一切成Token就能喂给同一套Transformer。自动驾驶领域有统一的视觉或点云表征不同车型不同传感器落到同一张鸟瞰图上就能联合训练。而具身智能至今没有这样的基础格式采数据、训模型、迁移场景都各自为战。RoboScience机器科学选择从底层出发搭建一套全新的具身基础表征单元。这套表征要能在真实三维空间里建模能显式可解释能跨物体跨场景复用能直接喂给下游操作模型。他们给出的答案是3D点云轨迹。以物体为中心的3D点云轨迹能让思考“可见”。一串带时间戳的三维点序列每个点包含位置坐标、姿态信息、时间步和预测置信度既能描述物体未来怎么动也能直接驱动机械臂去执行。2D视频生成只能预测下一帧像素不懂三维空间。3D静态重建能还原空间结构预测不了物体怎么随时间运动。3D点云轨迹把空间结构和时间演化都装下了模型在真实三维空间里建模天然满足几何约束轨迹还能直接作为下游操作模型的输入。把表征单元定下来后面的事就有了支点怎么采数据模型从哪学学完能不能迁移全都围绕同一根轨迹展开。用3D点云打开物理认知具身世界模型是Visics大模型的前半段负责理解物理世界、预演未来轨迹。它接收自然语言指令和视觉图像作为输入可以处理单视角或多视角图像在复杂场景中精准定位目标物体及其未来运动状态。输出就是3D点云轨迹。和传统方法预测下一帧像素的做法不同它关注的是物体状态的语义变化位置、姿态、形变、与周围环境的交互关系。它把场景分解为一个个物体分别预测其未来的运动路径。模型内部先把RGB观测、3D点云先验与任务指令编码为语义与空间表征再送入世界因果Transformer对未来世界演化建模形成统一的潜在世界表征最后解码输出场景与目标物体的3D flow把看见当下、理解指令、预测未来连成一条链路。这套架构给了模型三个关键能力。跨物体泛化。光滑的洗发水瓶、透明的棉签盒、不同样式颜色的饮料盒与包装材质形状尺寸各异模型都能精准预测运动轨迹。它知道硬质物体怎么被抓取软质物体会怎么形变不同材质需要怎样的接近角度把对物理世界的通用理解迁移到未见过的物体上就行。动态过程建模。给它一张第一人称视角的第一帧图像它能想象出后续倒水的完整过程水壶怎么倾斜水流怎么注入杯子杯中水位怎么上升。倒水涉及液体动态和精细操作模型依然能生成符合物理规律的3D点云轨迹。指令跟随与个体区分。模型不仅能识别物体更能理解指令中的语义差异对象是谁动作是什么意图有何不同。支撑这三种能力的是四项底层技术特性。物理约束满足。所有轨迹严格满足动力学、碰撞、稳定性等真实世界物理约束。倒水案例中水壶倾斜角度与水流轨迹的匹配水面的平稳上升都体现模型对重力、流体行为的精准把握。2D视频生成做不到这件事2D世界里没有重力方向。原生支持物理多解性建模。真实世界充满不确定性。方案利用扩散模型的生成特性在潜在空间内构建物理演化的概率分布能推演出同一任务下多种合理的轨迹方案。长时序空间一致性。多步骤任务中模型能保持预测状态在时间和空间上的全局连续。倒水视频长达数秒的预测里物体相对位置始终合理没有幻觉。硬件解耦。模型核心与具体机器人结构解耦生成的规划可无损迁移至任何形态机器人本体机械臂、人形机器人还是灵巧手都能理解同样的物体轨迹。投喂的数据越多模型对物理世界的理解就越精准。Content Alignment、Subjective Quality、Photometric Consistency和Motion Smoothness在微调过程中均持续提升最终checkpoint的各项分数相对初始模型都有明显增益。具身智能领域的Scaling Law正在显形模型的成长性可预测、可持续。具身世界模型扮演认知大脑的角色理解物理世界预测物体状态生成可执行的3D点云轨迹再通过Object Trajectory接口传递给通用操作模型。把想象翻译成动作通用操作模型是Visics大模型的后半段参数超10亿1B在所有技能上联合训练形成统一的操作表征。它的输入正是具身世界模型输出的Object Trajectory一串带时间戳的3D物体点云和环境点云描述物体未来的位置、姿态与形变以及抓取环境的变化。推理速度达到3fps以上能基于物体和环境的点云输入实现对机器人关节角度的闭环控制。与传统策略依赖大量成对动作数据不同模型是轨迹条件化的无需重新学习该去哪里只需掌握如何到达那里。世界模型提供的轨迹已经包含了丰富的几何与物理先验操作模型把它翻译成底层控制信号就行跨物体、跨场景时泛化效率惊人。行业内的操作模型多为原子技能库把任务拆解为抓取、放置等独立技能每个技能对应一个专用模型碎片化方案扩展性差难以应对新任务。RoboScience机器科学的做法是统一训练一个模型搞定。模型给出三大核心亮点。任意物体抓取。面对不同几何形状与物理属性的物体模型能实时识别其三维形态和相关物理参数自动选择最优的接触点与夹持力生成适配的抓取策略。桌面上独立摆放的物体收纳箱、碗碟中堆叠拥挤的杂乱环境都能稳定抓取。跨机器人本体灵巧抓取。同一套操作策略无需任何调整就能直接迁移至不同构型的灵巧手2指、3指还是5指都行。精细物体操作。开信封需要毫牛级的切入力度立硬币需要动态平衡控制抓薯片需避免压碎用针管注射液体需精确控制推注速度与剂量对力控精度、接触力感知和实时调整能力要求极高的任务模型都能稳定完成。模型融合视觉、触觉、力觉多模态感知信号执行过程中实时调整。立硬币用动态平衡力将硬币立于桌面。开信封精确控制切入角度与力度沿边缘划开不撕裂纸张。抓薯片轻柔捏取边缘避免压碎。针管注射精准控制推注速度与力度实现液体的定量稳定注入。长程任务与闭环操作。例如家具拼装模型读取说明书自主分解多步骤任务双臂协同完成高精度插接与旋转配合通过实时力反馈动态调整策略即便中途被拆解也能自动恢复并接续完成。模型能规划多步骤的连贯动作还能在动态环境中实时感知、决策与调整通过统一的框架分析不同场景下的物理接触力反馈、变形预测、运动规划都装在一套框架里无需为每种对象或机器人单独开发算法。底层有四项技术特性支撑。全空间物体支持。模型支持刚体、铰链体、1D/2D/3D可形变体等全空间物体的各类操作任务覆盖从刚性抓取到柔性形变的完整谱系。跨机器人本体与闭环操作。同一套策略可无损迁移至机械臂、人形机器人、灵巧手等不同本体。同时支持闭环操作closed-loop执行过程中持续接收视觉、触觉、力觉等多模态感知数据实时调整动作。物理仿真闭环。通过物理引擎、仿真数据、端到端训练的高效闭环模型在虚拟环境中大规模预训练习得丰富的物理交互技能。再经少量真机数据微调就能快速迁移到真实场景大幅降低采集成本。Scaling驱动进化。依托自研多模态物理引擎积累的10B100亿次高质量操作数据模型在任意物体抓取、精细操作、长程任务上的成功率随数据规模扩大呈可预测的幂律提升。团队2026年的目标是构建1T1万亿次操作数据集为持续进化提供不竭燃料。RoboScience什么来头2024年田野与邵林共同创立了RoboScience田野是CEO而邵林是首席科学家。RoboScience目前已是全球领先的通用具身智能企业。团队来自斯坦福、中科大、港大、上交大、新国立、ETH等顶级学府以及苹果、商汤、科沃斯等AI科技领军企业的顶尖人才和资深专家。田野本科毕业于中国科学技术大学物理学院硕士毕业于斯坦福大学人工智能实验室Stanford AI Lab师从人工智能专家吴恩达。田野曾任苹果公司设备端机器学习平台团队技术负责人是苹果总部最年轻的主任工程师之一在苹果任职7年间主导了多项端侧AI技术的落地。邵林是新加坡国立大学助理教授。南京大学地球科学系本科毕业斯坦福大学博士专注机器人操作。曾发表多篇等标杆性研究获RSS 2023最佳系统论文奖提名获ICRA 2025机器人操作与运动最佳论文奖。目前RoboScience机器科学已同多家零售、物流、康养服务企业及机器人、灵巧手公司开展试点合作计划于今年实现面向工业与商业场景的标准化机器人产品量产。参考资料https://www.roboscience.co/news_detail/18.htmlhttps://www.roboscience.co/news_detail/21.html