目前(2025年2月)计算机视觉(CV)领域一些表现优异的深度学习模型

按任务类型分类介绍:

图像分类

CoCa :结合对比学习和生成学习,通过对比损失对齐图像和文本嵌入,并使用标题生成损失预测文本标记。它在图像分类、跨模态检索和图像描述等任务中表现出色,且仅需极少的任务特定微调。
PaLI :这是一个多模态模型,结合了40亿参数的视觉Transformer(ViT)和多种大型语言模型(LLM),并在包含100多种语言的100亿图像和文本数据集上进行训练。PaLI在图像描述、视觉问答和场景文本理解等任务中达到了最佳性能。
CoAtNet-7 :该模型融合了卷积层和注意力层,平衡了模型的泛化能力和容量。它利用卷积的归纳偏差和注意力机制的可扩展性,在ImageNet基准测试中取得了90.88%的Top-1准确率。
DaViT :通过结合空间和通道自注意力机制,平衡了全局上下文捕获和计算效率。该模型在ImageNet-1K数据集上达到了90.4%的Top-1准确率。

FixEfficientNet:改进了EfficientNet分类器,解决了训练和测试之间的差异,并采用了更新的训练程序。其L2版本在3亿无标签图像上进行弱监督训练,达到了88.5%的准确率。

目标检测

Co-DETR :引入了协作混合分配方案,改进了基于DETR的目标检测器。它通过辅助头和一对多标签分配提升检测精度,同时减少了GPU内存使用,COCO测试集上的平均精度(AP)达到了66.0%。
InternImage :这是一个基于CNN的大规模基础模型,利用可变形卷积进行自适应空间聚合,并拥有较大的有效感受野。它在COCO测试集上达到了65.4%的mAP。
Focal-Stable-DINO :结合了强大的FocalNet-Huge骨干网络和改进的DINO检测器,解决了多优化路径问题。该模型在COCO测试集上达到了64.8%的AP。
YOLOv7:作为最新的实时目标检测系统,它在速度和精度之间取得了最佳平衡。通过扩展免费技术、模型缩放和创新的重参数化卷积,YOLOv7在COCO数据集上达到了56.8%的AP。

图像分割

语义分割

ONE-PEACE :这是一个40亿参数的可扩展模型,能够无缝整合视觉、音频和语言模态。其灵活的架构结合了模态适配器和基于Transformer的模态融合编码器,在ADE20K数据集上达到了63%的mIoU。
Mask2Former:该模型统一了全景、实例和语义分割任务,使用掩码注意力提取预测掩码区域内的局部特征。它在ADE20K数据集上达到了57.7%的mIoU。

实例分割

Mask Frozen-DETR :将基于DETR的目标检测器转化为强大的分割器,通过在冻结的DETR输出上训练轻量级掩码网络来预测实例掩码。该模型在COCO基准测试中超过了Mask DINO。
DiffusionInst-SwinL:这是一种新型的实例分割框架,将实例视为实例感知滤波器,并将分割视为去噪过程。它在COCO和LVIS数据集上表现出色。

全景分割

Panoptic SegFormer :基于Transformer的框架,具有高效的掩码解码器、查询解耦策略和改进的后处理。它在COCO测试集上达到了56.2%的全景质量(PQ)。
K-Net :这是一个统一的语义、实例和全景分割框架,使用可学习的核生成实例和背景类别的掩码。它在全景和语义分割任务中超过了最佳结果。

这些模型在各自的任务中都取得了优异的性能,但需要注意的是,随着研究的不断进展,新的模型和技术可能会不断涌现。

相关推荐
财迅通Ai几秒前
智迪科技斥资1.52亿元收购越南工厂:当“租赁出海”走向“资产出海”
人工智能·科技·智迪科技
lqqjuly2 分钟前
推荐系统技术解析(Recommendation Systems)
深度学习·推荐算法
RD_daoyi4 分钟前
Google SEO第三周:网站站内基础优化——决定排名快慢的核心基建
大数据·人工智能·学习·搜索引擎·百度·googlecloud
zhangfeng11337 分钟前
超算中心 高性能计算 slurm的linux版本 centos7,如何安装docker,如何安装torch2.4
linux·运维·服务器·开发语言·人工智能·机器学习·docker
xiami_world8 分钟前
Multi-Agent架构选型实战:5个主流平台工具深度横评
人工智能·ui·ai·agi·用户界面
weixin_407443878 分钟前
OCR材料信息提取工具(附件中含代码和数据)
人工智能·python·计算机视觉·ocr
YOLO数据集集合9 分钟前
无人机低空安防巡检AI落地方案|航拍小目标人员入侵检测、多场景跨领域目标检测数据集与YOLO算法工程实战
人工智能·yolo·目标检测·无人机
搞科研的小刘选手12 分钟前
【重庆大学主办】第三届智能感知与模式识别国际学术会议(IPPR 2026)
物联网·机器学习·计算机视觉·机器人·人机交互·感知·传感
拓研C13 分钟前
EM-Core-Agent:AI Agent 具身认知核心系统——架构白皮书 V1.0
人工智能·架构·车载系统·机器人·github
katttt_17 分钟前
从被动投流到被动获客,GEO 重构中小企业盈利模式
人工智能