DINOv3「不用标注也能学会看图」视觉基础模型
DINOv3 是 Meta AI 推出的一套高性能自监督视觉模型,涵盖参数规模达 70 亿的 ViT 模型及 ConvNeXt 模型系列,所有模型均基于 17 亿张网络图像或卫星图像完成预训练。你可通过 PyTorch Hub、Hugging Face Transformers(v4.56 及以上版本)或 timm(v1.0.20 及以上版本)便捷加载这些模型,同时配套提供特征提取、深度估计、目标检测、图像分割等任务的代码示例。
油管:https://youtu.be/hdLNjRgFNFk











