DINOv3 demo

本文将介绍如何使用 ModelScope(魔搭) 平台提供的 DINOv3 预训练模型,在本地进行批量图像特征提取,并输出可用于后续融合或蒸馏的特征向量。全程无需 Hugging Face 账号验证,直接加载本地或魔搭模型即可。

一、🛠️ 环境依赖

确保已安装以下库:

复制代码
bash
pip install torch modelscope pillow
注意:本文使用的是 ModelScope(魔搭) 的 AutoModel 和 AutoImageProcessor,不依赖 Hugging Face Transformers 的模型下载权限。

二、📦 代码实现:批量特征提取器

python 复制代码
# huggingface还要验证,先使用魔塔的模型

import torch
from modelscope import AutoImageProcessor, AutoModel
from transformers.image_utils import load_image
from PIL import Image
from typing import List, Union

class DINOv3FeatureExtractor:
    def __init__(self, pretrained_model_name: str):
        """
        初始化DINOv3模型和处理器。
        
        参数:
            pretrained_model_name (str): 预训练模型的路径或名称。
        """
        # 加载预处理工具和模型
        self.processor = AutoImageProcessor.from_pretrained(pretrained_model_name)
        self.model = AutoModel.from_pretrained(pretrained_model_name, device_map="auto")
        self.model.eval()  # 设置为评估模式
        
    def infer_batch_features(self, image_inputs: List[Union[str, Image.Image]]) -> torch.Tensor:
        """
        对给定的一批图像进行推理,返回提取的特征。
        
        参数:
            image_inputs (List[Union[str, Image.Image]]): 包含图像的本地路径、URL 或已加载的 PIL 图像列表。
            
        返回:
            torch.Tensor: 模型输出的 pooled 特征,形状为 [batch_size, hidden_size]。
        """
        images = []
        for image_input in image_inputs:
            if isinstance(image_input, str):
                image = load_image(image_input)
            else:
                image = image_input  # 假设已经是 PIL.Image.Image
            images.append(image)

        # 预处理所有图像并移至模型设备
        inputs = self.processor(images=images, return_tensors="pt").to(self.model.device)

        # 推理
        with torch.inference_mode():
            outputs = self.model(**inputs)

        # 返回 pooled 输出
        return outputs.pooler_output
    
# 示例用法
if __name__ == "__main__":
    model_path = "G:/code/Project_FM_Distill/RTdetrv2_FM_Distill/dinov3-vits16-pretrain-lvd1689m"
    extractor = DINOv3FeatureExtractor(model_path)
    
    urls = [
        "http://images.cocodataset.org/val2017/000000039769.jpg",
        "http://images.cocodataset.org/val2017/000000039769.jpg"
    ]
    features = extractor.infer_batch_features(urls)
    print("Pooled output shape:", features.shape)

"""

后面不多说了,主要是给一个demo作为参考。

我放了一个完整包,包含权重文件:https://download.csdn.net/download/weixin_38252409/92493650

你也可以快速在魔塔社区下载:https://www.modelscope.cn/models/facebook/dinov3-vits16-pretrain-lvd1689m/files

相关推荐
财经资讯数据_灵砚智能几秒前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年5月2日
人工智能·python·信息可视化·自然语言处理·ai编程
一水鉴天2 分钟前
同构异质三表总装体系确立与入表机制闭环验证 20260502(腾讯元宝)
人工智能·算法·机器学习
AI科技星4 分钟前
《全域数学》第一部:数术本源·第二卷《算术原本》之十四附录(二)全域数学体系下三大数论猜想的本源推演与哲学阐释【乖乖数学】
人工智能·线性代数·机器学习·量子计算·agi
qyzm10 分钟前
Codeforces Round 1073 (Div. 2)
数据结构·python·算法
JK Chen17 分钟前
faster_whisper,视频转文字,并生成字幕文件
python·whisper·音视频
做怪小疯子8 小时前
华为笔试0429
python·numpy
Warson_L8 小时前
Dictionary
python
淡海水8 小时前
【AI模型】常见问题与解决方案
人工智能·深度学习·机器学习
ZhengEnCi10 小时前
02a-什么是矩阵
机器学习
β添砖java10 小时前
深度学习(13)PyTorch神经网络基础
人工智能·深度学习