DINOv3「學會閱讀沒有注釋的圖片」視覺基本模型

DINOv3是Meta AI的高性能、自我監督視覺模型，涵蓋參數規模高達70億的ViT模型和ConvNeXt模型家族，所有這些都是在17億個網絡或衛星圖像上預先訓練的。您可以通過PyTorch Hub、Hugging Face Transformers（v4.56及以上）或timm（v1.0.20及以上）輕鬆加載這些模型，以及用於特徵提取、深度估計、對象檢測、圖像分割等的代碼樣本。使用此工具，您可以使用這些高性能密集功能，而無需微調模型或注釋數據，從而大大節省圖像分類、對象檢測和零鏡頭分析等任務的開發時間和計算能力成本。

在傳統的計算機視覺中，默認情況下幾乎有一件事： 模特要學會「看圖片」，必須有人告訴它「這是什麼」.
像DINOv3這樣的模型卻恰恰相反。

其目標是：

無需手動注釋，就讓模型自行學習理解圖像結構和語義。

這是第三代 DINO（無標籤自蒸餾） Meta AI（FAIR）推出的視覺自我監督模型，也是最強大的類型 通用視覺特徵提取器（Vision Foundation Model）。

DINOv3在做什麼？

DINOv3 =一個「不會給你答案，但會給你理解」的圖像模型

它不會直接輸出「這是一隻貓」，
相反，它輸出：

這張照片整體看起來是什麼樣子?
什麼每個區該圖表表示
哪些部分是 語義相似/結構相似

可以理解為：

圖像領域的「普遍理解基礎」

您正在進行「自我監督視覺建模」嗎？

現實世界的問題是：

圖像過多（網頁、監控、遙感、產品圖像、設計材料）
標籤太貴了
以及許多任務 不應該從「分類」開始 根本

例如：

圖像相似性搜索
材料重複數據刪除/集群
分割和檢測的預處理
設計資產管理
遙感圖像理解

此類問題需要更多的解決：
「理解結構和關係」，而不是標籤

DINO系列就是為此目的而誕生的。

DINOv3的想法

自蒸餾

DINO的關鍵不是「學習標籤」，而是：

不同的角度 在同一張照片上
通過同一模式（老師/學生）
輸出應該一致

那就是：

如果模型真的理解這個圖，
因此，無論您是裁剪、縮放還是模糊，它「都知道這是同一件事。"

DINOv3使其更穩定、更大。

Vision Transformer +密集功能

DINOv3主要基於 Vision Transformer（ViT）：

圖像被切割成許多補丁
每個補丁都有一個嵌入
不僅具有「全貌」的特點
還有一個「每一小塊」的語義載體。

DINOv3：密集特徵

許多模型僅輸出一個載體：

這個圖形→嵌入

DINOv3不同，它可以輸出：

全局特徵 (full圖表）
局部特徵 (per補丁）

這意味著您可以：

做一個相似性熱圖
進行無監督分割
進行目標區域匹配
做「看起來像/不像的地方」

你甚至可以 訓練任何新模型,
僅使用Cosine相似性您就可以做很多事情。

DINOv3為開發者提供了什麼

從工程角度來看，這個倉庫不是「論文玩具」，而是 基礎設施層面:

預訓練模型（主幹）

ViT-S / B / L / G
高達 7B參數
還提供：
- 通用圖像版本
- 遙感圖像版本

多種使用方法

torch.hub. put（）（最快）
擁抱變形金剛
蒂姆生態學

重量需要申請

以下是一些限制：

需要申請
通過後獲取重量下載地址

DINOv3在哪裡使用？

一句話總結：

如果您不想首先受到「分類標籤」的限制，請使用DINOv3

典型場景包括：

類似搜索圖像/設計材料
產品圖像集群和重複數據刪除
分割/檢測特徵庫
遙感圖像分析
視覺分析人工智慧產品的「第一層」

Github：https://github.com/facebookresearch/dinov3
管材：