云平台一键部署【nvidia/LocateAnything-3B】视觉定位推理服务

发布时间：2026/7/3 11:47:25

LocateAnything 是 NVIDIA 推出的视觉-语言定位Vision-Language Grounding模型。核心创新Parallel Box Decoding (PBD)将完整的边界框作为原子单元一步预测打破传统逐token自回归解码的瓶颈实现速度和精度的双重提升。核心创新并行框解码PBD传统的视觉定位模型以自回归方式逐词生成边界框坐标。LocateAnything 引入了并行框解码在并行的结构化单元中预测完整的边界框x1, y1, x2, y2和点采用逐块多令牌预测框架在不牺牲几何一致性的前提下实现2.5 倍吞吐量提升支持三种推理模式快速模式并行解码追求最大速度慢速模式自回归解码追求最高精度混合模式默认并行解码当格式异常时回退到自回归解码使用场景开放集、常见及长尾目标检测在杂乱场景中的密集多目标检测短语和指代表达定位自动化数据集标注与注释如检测、定位、指向用于交互式和智能体系统的 GUI 元素定位机器人与自动驾驶感知文档理解、版面定位和 OCR 定位工业检测、监控和遥感应用基于点的定位和细粒度空间推理【nvidia/LocateAnything-3B】模型已经在趋动云『社区项目』上线无需自己创建环境、下载模型一键即可快速部署快来体验【nvidia/LocateAnything-3B】带来的精彩体验吧项目入口https://open.virtaicloud.com/web/project/detail/721647383146205184视频教程https://www.bilibili.com/video/BV1G4Te6MEwU/?vd_source85d5574e8763d2ef3afdafc50f2b9d43启动开发环境进入【nvidia/LocateAnything-3B】项目主页中点击运行一下将项目一键克隆至工作空间『社区项目』推荐适用的算力规格可以直接立即运行省去个人下载数据、模型和计算算力的大量准备时间。配置完成点击进入开发环境根据主页项目介绍进行部署。使用方法在gemini/code中找到使用说明选中使用方法单元格点击运行。等待生成local URL右侧添加端口7860。项目使用方法示例展示➫温馨提示完成项目后记得及时关闭开发环境以免继续产生费用

文章详情

云平台一键部署【nvidia/LocateAnything-3B】视觉定位推理服务

相关新闻

最新新闻

日新闻

周新闻

月新闻