Meta FAIR 开源 DINOv3：自监督视觉基础模型新王者，双架构 ViT+ConvNeXt，7B 参数 12 个骨干，深度估计/检测/分割/林冠图全线 SOTA！

发布时间：2026/6/24 10:56:58

Meta FAIR 开源 DINOv3自监督视觉基础模型新王者双架构 ViTConvNeXt7B 参数 12 个骨干深度估计/检测/分割/林冠图全线 SOTA Meta FAIR 出品DINOv2 正统续作。双架构ViT ConvNeXt12 个预训练骨干最大 7B 参数两大数据集LVD-1689M 网页图 SAT-493M 卫星图无需微调即超越专业 SOTA。深度估计、目标检测、语义分割、林冠高度图、元数据引导训练FINO全覆盖PyTorch Hub / HuggingFace Transformers / timm 三大生态即插即用。目录1. DINOv3 是什么2. DINOv2 → DINOv3 进化了什么3. 双架构 12 个预训练骨干全览4. 五大下游适配器5. FINO元数据引导训练6. 快速上手7. 竞品对比8. 适用场景与优缺点9. 总结与推荐1. DINOv3 是什么DINOv3是 Meta AI ResearchFAIR出品的自监督视觉基础模型DINOv2 的正统续作。项目地址https://github.com/facebookresearch/dinov3 论文arXiv:2508.10104 官方博客https://ai.meta.com/blog/dinov3-self-supervised-vision-model/ 官方网站https://ai.meta.com/dinov3/ HuggingFacehttps://huggingface.co/collections/facebook/dinov3-68924841bd6b561778e31009一句话总结DINOv3 Meta FAIR 自监督视觉基础模型 DINOv2 正统续作高质量密集特征双架构ViT6档 ConvNeXt4档共 12 个骨干最大 7B 参数最小 21M 参数两大数据集LVD-1689M网页图 SAT-493M卫星图无需微调即超越专业 SOTA 5 大下游适配器分类/深度估计/检测/分割/林冠高度 FINO 元数据引导训练无需标签用已有元数据适配 PyTorch Hub HuggingFace Transformers timm 三大生态 CVPR 级别工作FAIR 视觉基石核心亮点图DINOv3 输出高分辨率密集特征——用红色十字标记某个 patch计算其与所有其他 patch 的余弦相似度地图直观展示模型对图像语义的理解深度。输入图片 → DINOv3 → 密集特征 → 余弦相似度地图 ↓ 同一物体区域高相似度不同物体区域低相似度无需标注自监督学习得到2. DINOv2 → DINOv3 进化了什么对比维度DINOv2DINOv3发布时间20232025架构ViT onlyViT ConvNeXt 双架构最大参数1.1B (ViT-g)7B (ViT-7B)预训练骨干4 个 (S/B/L/g)12 个6 ViT 4 ConvNeXt 2 卫星预训练数据LVD-142MLVD-1689M SAT-493M卫星图预训练❌✅SAT-493MConvNeXt 蒸馏❌✅4 档 ConvNeXt下游适配器分类/分割/深度分类/深度估计/检测/分割/林冠高度目标检测❌✅COCO2017 检测器林冠高度图❌✅CHMv2 (CVPR 级)元数据训练❌✅FINO 分支timm 支持✅✅ (≥1.0.20)HF Transformers✅✅ (≥4.56.0)密集特征质量优秀更强高分辨率无需微调 SOTA✅✅更广范围超越三大进化方向1️⃣ 规模跃升1.1B → 7B数据 142M → 1689M12 倍 2️⃣ 架构扩展ViT-only → ViT ConvNeXt覆盖更多部署场景 3️⃣ 领域拓展通用视觉 → 卫星遥感元数据引导更多下游3. 双架构 12 个预训练骨干全览ViT 系列网页图 LVD-1689M模型参数类型适用场景ViT-S/16 distilled21M蒸馏移动端/嵌入式ViT-S/16 distilled29M蒸馏轻量级应用ViT-B/16 distilled86M蒸馏通用推荐 ⭐ViT-L/16 distilled300M蒸馏高质量特征ViT-H/16 distilled840M蒸馏研究级精度ViT-7B/166,716M全量顶级性能 ConvNeXt 系列网页图 LVD-1689M模型参数适用场景ConvNeXt Tiny29MCNN 偏好/部署友好ConvNeXt Small50M平衡精度与速度ConvNeXt Base89M通用 CNN 方案ConvNeXt Large198M高精度 CNN卫星图系列SAT-493M模型参数预训练数据适用场景ViT-L/16 distilled300MSAT-493M遥感特征提取ViT-7B/166,716MSAT-493M遥感顶级性能 ️骨架选型指南追求极致精度 → ViT-7B/16 (6.7B) ⚖️ 精度与效率平衡 → ViT-L/16 (300M) 或 ConvNeXt-Base (89M) 轻量快速部署 → ViT-S/16 (21M) 或 ConvNeXt-Tiny (29M) ️ 遥感卫星场景 → ViT-7B/16 SAT-493M CNN 架构偏好 → ConvNeXt 系列蒸馏自 ViT 移动端/边缘 → ViT-S/16 (21M)4. 五大下游适配器适配器一图像分类ImageNet骨干ViT-7B/16 (LVD-1689M) 头数据集ImageNet 加载方式 dinov3_vit7b16_lc torch.hub.load(REPO_DIR, dinov3_vit7b16_lc, sourcelocal, weightsPATH, backbone_weightsPATH) 适配器二单目深度估计SYNTHMIX → NYUv2骨干ViT-7B/16 (LVD-1689M) 头数据集SYNTHMIX合成混合数据评估NYUv2-Depth 加载方式 depther torch.hub.load(REPO_DIR, dinov3_vit7b16_dd, sourcelocal, weightsPATH, backbone_weightsPATH) 推理示例 img_size 1024 img get_img() transform make_transform(img_size) with torch.inference_mode(): with torch.autocast(cuda, dtypetorch.bfloat16): batch_img transform(img)[None] depths depther(batch_img) 复现论文结果 PYTHONPATH. python -m dinov3.run.submit dinov3/eval/depth/run.py \ configdinov3/eval/depth/configs/config-nyu-synthmix-dpt-inference.yaml \ datasets.rootPATH/TO/DATASET \ load_fromdinov3_vit7b16_dd \ --output-dir PATH/TO/OUTPUT/DIR 适配器三目标检测COCO2017骨干ViT-7B/16 (LVD-1689M) 头数据集COCO2017 加载方式 detector torch.hub.load(REPO_DIR, dinov3_vit7b16_de, sourcelocal, weightsPATH, backbone_weightsPATH)️ 适配器四语义分割ADE20K骨干ViT-7B/16 (LVD-1689M) 头数据集ADE20K 解码器Mask2Former (M2F) 加载方式 segmentor torch.hub.load(REPO_DIR, dinov3_vit7b16_ms, sourcelocal, weightsPATH, backbone_weightsPATH) 推理示例滑动窗口推理 segmentation_map make_inference( batch_img, segmentor, inference_modeslide, decoder_head_typem2f, rescale_to(img.size[-1], img.size[-2]), n_output_channels150, crop_size(896, 896), stride(896, 896), output_activationpartial(torch.nn.functional.softmax, dim1), ).argmax(dim1, keepdimTrue) 复现论文结果 PYTHONPATH. python -m dinov3.run.submit dinov3/eval/segmentation/run.py \ configdinov3/eval/segmentation/configs/config-ade20k-m2f-inference.yaml \ datasets.rootPATH/TO/DATASET \ load_fromdinov3_vit7b16_ms \ --output-dir PATH/TO/OUTPUT/DIR 适配器五林冠高度图 v2CHMv2骨干ViT-L/16 (DINOv3) 功能全球高分辨率林冠高度估计改进基于 2024 年初版 CHM利用 DINOv3 大幅提升精度/细节/全球一致性论文arXiv:2603.06382 模型权重 HuggingFace: facebook/dinov3-vitl16-chmv2-dpt-head HF Transformers 支持https://huggingface.co/docs/transformers/model_doc/chmv2 应用场景全球森林监测碳汇估算 ️ 遥感分析生态研究5. FINO元数据引导训练 2026-06-12 最新发布FINO 分支https://github.com/facebookresearch/dinov3/tree/FINO 论文Who Needs Labels? Adapting Vision Foundation Models With the Metadata You Already Have (Gardès et al., 2026) arXiv: 2606.05107核心思想传统微调需要标注标签 → 成本高、耗时长 FINO 方法利用已有元数据无需额外标注→ 零标签成本适配已验证场景 ️ FMoW 卫星图像 → 利用地理/时间元数据 HPA-WholeHR 荧光图像 → 利用生物实验元数据为什么重要1. 降低适配门槛无需标注用已有信息即可适配新领域 2. 卫星遥感/生物医学等专业领域标注稀缺 3. 元数据时间、位置、实验条件天然存在 4. 把废数据变成训练信号6. 快速上手方式一PyTorch Hub推荐importtorch REPO_DIR/path/to/dinov3# 克隆到本地的仓库路径# 加载 ViT 骨干dinov3_vits16torch.hub.load(REPO_DIR,dinov3_vits16,sourcelocal,weightsCHECKPOINT_URL_OR_PATH)dinov3_vitb16torch.hub.load(REPO_DIR,dinov3_vitb16,sourcelocal,weightsCHECKPOINT_URL_OR_PATH)dinov3_vitl16torch.hub.load(REPO_DIR,dinov3_vitl16,sourcelocal,weightsCHECKPOINT_URL_OR_PATH)dinov3_vit7b16torch.hub.load(REPO_DIR,dinov3_vit7b16,sourcelocal,weightsCHECKPOINT_URL_OR_PATH)# 加载 ConvNeXt 骨干dinov3_convnext_tinytorch.hub.load(REPO_DIR,dinov3_convnext_tiny,sourcelocal,weightsCHECKPOINT_URL_OR_PATH)dinov3_convnext_basetorch.hub.load(REPO_DIR,dinov3_convnext_base,sourcelocal,weightsCHECKPOINT_URL_OR_PATH)# 加载卫星图骨干dinov3_vit7b16_sattorch.hub.load(REPO_DIR,dinov3_vit7b16,sourcelocal,weightsSAT_CHECKPOINT_URL_OR_PATH)方式二HuggingFace Transformers≥4.56.0# Pipeline 方式fromtransformersimportpipelinefromtransformers.image_utilsimportload_image urlhttps://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpegimageload_image(url)feature_extractorpipeline(modelfacebook/dinov3-convnext-tiny-pretrain-lvd1689m,taskimage-feature-extraction,)featuresfeature_extractor(image)# AutoModel 方式importtorchfromtransformersimportAutoImageProcessor,AutoModelfromtransformers.image_utilsimportload_image urlhttp://images.cocodataset.org/val2017/000000039769.jpgimageload_image(url)pretrained_model_namefacebook/dinov3-vitl16-pretrain-lvd1689mprocessorAutoImageProcessor.from_pretrained(pretrained_model_name)modelAutoModel.from_pretrained(pretrained_model_name,device_mapauto)inputsprocessor(imagesimage,return_tensorspt).to(model.device)withtorch.inference_mode():outputsmodel(**inputs)pooled_outputoutputs.pooler_outputprint(Pooled output shape:,pooled_output.shape)可用 HF 模型名facebook/dinov3-vits16-pretrain-lvd1689m facebook/dinov3-vits16plus-pretrain-lvd1689m facebook/dinov3-vitb16-pretrain-lvd1689m facebook/dinov3-vitl16-pretrain-lvd1689m facebook/dinov3-vith16plus-pretrain-lvd1689m facebook/dinov3-vit7b16-pretrain-lvd1689m facebook/dinov3-convnext-base-pretrain-lvd1689m facebook/dinov3-convnext-large-pretrain-lvd1689m facebook/dinov3-convnext-small-pretrain-lvd1689m facebook/dinov3-convnext-tiny-pretrain-lvd1689m facebook/dinov3-vitl16-pretrain-sat493m facebook/dinov3-vit7b16-pretrain-sat493m方式三timm≥1.0.20importtimm modeltimm.create_model(vit_small_patch16_dinov3.lvd1689m,pretrainedTrue)图像预处理# LVD-1689M 网页图模型标准 ImageNet 变换fromtorchvision.transformsimportv2importtorchdefmake_transform(resize_size:int256):returnv2.Compose([v2.ToImage(),v2.Resize((resize_size,resize_size),antialiasTrue),v2.ToDtype(torch.float32,scaleTrue),v2.Normalize(mean(0.485,0.456,0.406),std(0.229,0.224,0.225)),])# SAT-493M 卫星图模型遥感专用归一化defmake_sat_transform(resize_size:int256):returnv2.Compose([v2.ToImage(),v2.Resize((resize_size,resize_size),antialiasTrue),v2.ToDtype(torch.float32,scaleTrue),v2.Normalize(mean(0.430,0.411,0.296),std(0.213,0.156,0.143)),])深度估计完整示例fromPILimportImageimporttorchfromtorchvision.transformsimportv2importmatplotlib.pyplotaspltfrommatplotlibimportcolormapsdefget_img():importrequests urlhttp://images.cocodataset.org/val2017/000000039769.jpgreturnImage.open(requests.get(url,streamTrue).raw).convert(RGB)defmake_transform(resize_size768):returnv2.Compose([v2.ToImage(),v2.Resize((resize_size,resize_size),antialiasTrue),v2.ToDtype(torch.float32,scaleTrue),v2.Normalize(mean(0.485,0.456,0.406),std(0.229,0.224,0.225)),])# 加载深度估计器depthertorch.hub.load(REPO_DIR,dinov3_vit7b16_dd,sourcelocal,weightsDEPTHER_PATH,backbone_weightsBACKBONE_PATH)img_size1024imgget_img()transformmake_transform(img_size)withtorch.inference_mode():withtorch.autocast(cuda,dtypetorch.bfloat16):batch_imgtransform(img)[None]depthsdepther(batch_img)# 可视化plt.figure(figsize(12,6))plt.subplot(121)plt.imshow(img)plt.axis(off)plt.subplot(122)plt.imshow(depths[0,0].cpu(),cmapcolormaps[Spectral])plt.axis(off)plt.savefig(depth_result.png)7. 竞品对比对比维度DINOv3DINOv2SAM2SigLIP2EVA-CLIP出品方Meta FAIRMeta FAIRMeta FAIRGoogleBAAI最大参数7B1.1B900M878M5B架构ViT ConvNeXtViTHieraViTViT骨干数量12412多个卫星预训练✅SAT-493M❌❌❌❌深度估计✅SYNTHMIX✅❌❌❌目标检测✅COCO❌❌❌❌语义分割✅ADE20K✅✅❌❌林冠高度✅CHMv2❌❌❌❌元数据训练✅FINO❌❌❌❌自监督✅✅✅✅ (对比)✅ (对比)PyTorch Hub✅✅✅❌❌HF Transformers✅ (≥4.56)✅✅✅✅timm✅ (≥1.0.20)✅❌❌❌密集特征✅高分辨率✅❌❌❌最大差异化1. 双架构ViT ConvNeXt 覆盖 Transformer 和 CNN 两种偏好 2. 12 个骨干从 21M 到 7B覆盖所有部署规模 3. 卫星遥感SAT-493M 专属预训练遥感领域独一份 4. FINO 元数据训练零标签适配专业领域利器 5. CHMv2 林冠高度全球环境监测实际应用 6. 无需微调 SOTA冻住骨干直接用 7. 三大生态PyTorch Hub HF Transformers timm 8. 密集特征王者高分辨率密集特征下游任务最强基础8. 适用场景与优缺点✅ 适合场景️ 视觉特征提取通用 → 图像检索/聚类/相似度计算 → 21M~7B 全尺寸覆盖单目深度估计 → 室内/室外场景理解 → 自动驾驶/机器人导航 → SYNTHMIX 训练NYUv2 验证目标检测 → COCO 80 类通用检测 → DINOv3 骨干检测头 ️ 语义分割 → ADE20K 150 类场景解析 → Mask2Former 解码器 ️ 遥感卫星分析 → SAT-493M 专用预训练 → FMoW 功能性地图分类 → CHMv2 林冠高度估计生物医学/专业领域 → FINO 元数据引导适配 → HPA 荧光图像分析环境监测 → 全球森林碳汇估算 → 植被覆盖变化检测⚠️ 注意事项1. 模型权重需申请需通过 Meta 官方链接申请下载 2. 7B 模型显存需求大推理需要高端 GPU 3. ConvNeXt 为蒸馏版本精度略低于 ViT 原版 4. 部分适配器仅 ViT-7B分类/深度/检测/分割头仅 7B 版本 5. 卫星图归一化不同需使用 SAT-493M 专用归一化参数 6. 推理建议用 bfloat16配合 torch.autocast 加速9. 总结与推荐推荐指数⭐⭐⭐⭐⭐维度评分说明性能⭐⭐⭐⭐⭐无需微调即 SOTA密集特征质量顶级灵活⭐⭐⭐⭐⭐12 个骨干 5 个适配器全场景覆盖生态⭐⭐⭐⭐⭐PyTorch Hub HF timm 三大生态创新⭐⭐⭐⭐⭐FINO 元数据训练 SAT 卫星 CHMv2部署⭐⭐⭐⭐从 21M 到 7B 全覆盖但 7B 显存需求大文档⭐⭐⭐⭐README 详细但权重申请略繁琐一句话推荐如果你需要高质量的视觉特征DINOv3 是 2025-2026 年的最佳选择。 12 个骨干21M~7B双架构ViT ConvNeXt 卫星遥感专属预训练FINO 零标签适配深度估计/检测/分割/林冠高度全适配器三大生态即插即用无需微调即超越专业 SOTA。 DINOv2 可以正式退休了。项目地址https://github.com/facebookresearch/dinov3 论文arXiv:2508.10104 博客https://ai.meta.com/blog/dinov3-self-supervised-vision-model/ 网站https://ai.meta.com/dinov3/ HuggingFaceDINOv3 Collection CHMv2arXiv:2603.06382 FINOarXiv:2606.05107相关链接 Canopy Height Maps v2 FINO 分支 HF Transformers DINOv3 文档 HF Transformers CHMv2 文档️ timm DINOv3 支持原文链接https://github.com/facebookresearch/dinov3标签#MetaFAIR #DINOv3 #自监督 #视觉基础模型 #ViT #ConvNeXt #深度估计 #语义分割 #目标检测 #林冠高度 #遥感 #FINO #7B参数 #SOTA分类原创文章

文章详情

Meta FAIR 开源 DINOv3：自监督视觉基础模型新王者，双架构 ViT+ConvNeXt，7B 参数 12 个骨干，深度估计/检测/分割/林冠图全线 SOTA！

相关新闻

最新新闻

日新闻

周新闻

月新闻