繁中

DINOv3「學會閱讀沒有注釋的圖片」視覺基本模型

DINOv3是Meta AI的高性能、自我監督視覺模型,涵蓋參數規模高達70億的ViT模型和ConvNeXt模型家族,所有這些都是在17億個網絡或衛星圖像上預先訓練的。您可以通過PyTorch Hub、Hugging Face Transformers(v4.56及以上)或timm(v1.0.20及以上)輕鬆加載這些模型,以及用於特徵提取、深度估計、對象檢測、圖像分割等的代碼樣本。使用此工具,您可以使用這些高性能密集功能,而無需微調模型或注釋數據,從而大大節省圖像分類、對象檢測和零鏡頭分析等任務的開發時間和計算能力成本。

在傳統的計算機視覺中,默認情況下幾乎有一件事: 模特要學會「看圖片」,必須有人告訴它「這是什麼」.
像DINOv3這樣的模型卻恰恰相反。

其目標是:

無需手動注釋,就讓模型自行學習理解圖像結構和語義。

這是第三代 DINO(無標籤自蒸餾) Meta AI(FAIR)推出的視覺自我監督模型,也是最強大的類型 通用視覺特徵提取器(Vision Foundation Model)。

DINOv3在做什麼?

DINOv3 =一個「不會給你答案,但會給你理解」的圖像模型

它不會直接輸出「這是一隻貓」,
相反,它輸出:

  • 這張照片整體看起來是什麼樣子?
  • 什麼每個 該圖表表示
  • 哪些部分是 語義相似/結構相似

可以理解為:

圖像領域的「普遍理解基礎」

您正在進行「自我監督視覺建模」嗎?

現實世界的問題是:

  • 圖像過多(網頁、監控、遙感、產品圖像、設計材料)
  • 標籤太貴了
  • 以及許多任務 不應該從「分類」開始 根本

例如:

  • 圖像相似性搜索
  • 材料重複數據刪除/集群
  • 分割和檢測的預處理
  • 設計資產管理
  • 遙感圖像理解

此類問題需要更多的解決:
「理解結構和關係」,而不是標籤

DINO系列就是為此目的而誕生的。

DINOv3的想法

自蒸餾

DINO的關鍵不是「學習標籤」,而是:

  • 不同的角度 在同一張照片上
  • 通過同一模式(老師/學生)
  • 輸出應該一致

那就是:

如果模型真的理解這個圖,
因此,無論您是裁剪、縮放還是模糊,它「都知道這是同一件事。"

DINOv3使其更穩定、更大。

Vision Transformer +密集功能

DINOv3主要基於 Vision Transformer(ViT):

  • 圖像被切割成許多補丁
  • 每個補丁都有一個嵌入
  • 不僅具有「全貌」的特點
  • 還有一個「每一小塊」的語義載體。

DINOv3:密集特徵

許多模型僅輸出一個載體:

這個圖形→嵌入

DINOv3不同,它可以輸出:

  • 全局特徵 (full圖表)
  • 局部特徵 (per補丁)

這意味著您可以:

  • 做一個相似性熱圖
  • 進行無監督分割
  • 進行目標區域匹配
  • 做「看起來像/不像的地方」

你甚至可以 訓練任何新模型,
僅使用Cosine相似性您就可以做很多事情。

DINOv3為開發者提供了什麼

從工程角度來看,這個倉庫不是「論文玩具」,而是 基礎設施層面:

預訓練模型(主幹)

  • ViT-S / B / L / G
  • 高達 7B參數
  • 還提供:
    • 通用圖像版本
    • 遙感圖像版本

多種使用方法

  • torch.hub. put()(最快)
  • 擁抱變形金剛
  • 蒂姆生態學

重量需要申請

以下是一些限制:

  • 需要申請
  • 通過後獲取重量下載地址

DINOv3在哪裡使用?

一句話總結:

如果您不想首先受到「分類標籤」的限制,請使用DINOv3

典型場景包括:

  • 類似搜索圖像/設計材料
  • 產品圖像集群和重複數據刪除
  • 分割/檢測特徵庫
  • 遙感圖像分析
  • 視覺分析人工智慧產品的「第一層」

Github:https://github.com/facebookresearch/dinov3
管材:

返回頂端