SCOLD 模型最终正确率总结

SCOLD 模型最终正确率总结

以下是论文中最关键的最终结果总结(包括 Zero-shot、Few-shot、Fine-tune、Retrieval):


一、Zero-shot Classification(零样本分类准确率)

零样本是你最关心的指标,直接体现模型无需训练即可分类叶片病害的能力。

论文 Table 4 中,SCOLD 在 10 个 OOD 数据集上的平均准确率是:

📌 SCOLD Zero-shot 平均准确率:34.80%(最高)

对比:

模型 平均 Zero-shot Acc (%)
SCOLD(Ours) 34.80
SigLIP2 33.92
CLIP-L 31.70
BioCLIP 29.66

SCOLD 在 10 个数据集里有 6 个拿到第一名

数据集 SCOLD Zero-shot (%) 备注
Wheat 42.26(最高)
Chili 17.22(最高)
Onion 20.39(最高)
Eggplant 36.64(最高)
Guava 59.24(最高)
Spinach 48.39(最高)

➡️ 整体结果:SCOLD 是所有模型中零样本表现最好的。


二、Few-shot Classification(少样本)

论文给出了 1-shot、4-shot、16-shot 准确率。

📌 最重要结论:

  • SCOLD 在 16-shot 时几乎所有数据集达到 95%--98% accuracy
  • 明显强于 BioCLIP / SigLIP2 / CLIP

例如 16-shot:

数据集 SCOLD (%)
Black gram 97.22
Durian 97.09
Eggplant 54.55(最难数据集之一)
Guava 84.22
Radish 95.82
Soursop 98.61

三、Fine-tuning(全微调)

论文 Figure 8:

  • 多数数据集 SCOLD 达到 90〜100% accuracy

  • 在最难的 Eggplant / Guava / Spinach 上优势特别明显:

    • Eggplant:65.62%(CLIP 只有 53.51%)
    • Guava:82.55%(CLIP 55.66%)
    • Spinach:74.34%(CLIP 42.76%)

四、Image-Text Retrieval(图文检索)

SCOLD 在 LeafNet 测试集上:

Image→Text

  • R@1:95.49%(比 CLIP 高 0.48%)
  • R@5:98.85%(+0.96%)

Text→Image

  • R@1:95.46%(+0.15%)
  • R@5:99.70%(+1.52%)

➡️ SCOLD 在检索任务中全面超过原版 CLIP。


🎯 最终总体结论(最简版)

项目 最终表现
Zero-shot 34.80%(10 个 OOD 集群平均,最高)
Few-shot (16-shot) 多数数据集达到 95%--98%+
Fine-tune 多数数据集达到 90%--100%
Retrieval R@1 ≈ 95.5%,显著超过 CLIP

➡️ Zero-shot:SCOLD 是当前农业领域最强的开放词汇病害分类基础模型。

➡️ Few-shot / Fine-tune 也保持优势,说明特征泛化能力强。


SCOLD 的训练方式

论文中的 SCOLD 使用 对比学习(Contrastive Learning)+ Soft Target + 图文对齐 进行训练,本质上是一个类似 CLIP 的图文模型,但做了农业领域的增强。


🔧 训练组成

(1)训练数据:LeafNet(作者构建)

  • 超过 186,000 张叶片图像
  • 搭配 97 个类别对应的长文本描述(疾病症状描述)

图像 + 文本 = 一对训练样本

用于图文对齐。


🔧 (2)训练模型结构

模块 使用的架构
视觉编码器 Swin-T(Swin Transformer Tiny)
文本编码器 RoBERTa-base
图文对齐方式 类似 CLIP 的双塔模型(Dual Encoder)

两者输出 512 维 embedding,通过对比学习对齐。


🔧 (3)训练方式(核心)

a)CLIP-style 对比学习 Loss(Image--Text Contrastive Loss)

每个 batch 内:

  • 图像 embedding 和文本 embedding 做 cosine similarity
  • 正样本(图像与其对应文本)相似度应最高
  • 其余文本是负样本

b)Context-aware Soft Target(CST 软标签)← 论文的创新点

不同于 CLIP 的 one-hot:

  • 相同作物但不同病害 → 给一点权重
  • 同病害不同作物 → 给另一点权重
  • 完全无关的类别 → 权重 0

这让模型在农业领域更鲁棒,因为:
同一类作物的病害往往视觉上很相似


🔧 (4)训练参数

  • 从零训练(no ImageNet 初始化)
  • Batch size = 16
  • Epoch = 20
  • Optimizer = AdamW
  • Warmup + Cosine Annealing
  • GPU:RTX 3060 Ti

(说明该模型可落地,资源需求不高)


🧪 ② 零样本(Zero-shot)是怎么验证的?

零样本验证 不需要再训练模型

它的流程完全等同于 CLIP 的 zero-shot 测试方式:


Zero-shot Evaluation 流程

步骤 1:为每个类别生成文本描述(Prompt)

论文使用了长文本模板,例如:

复制代码
An image of [crop name] leaves diseased by [disease name] with symptoms of [detailed symptom description].

例如:

复制代码
An image of tomato leaves diseased by Late Blight with symptoms of brown irregular lesions...

每个类别都会生成对应的文本向量(text embedding)。


步骤 2:将 OOD 图像输入视觉编码器 → 得到 image embedding

例如:

  • 你把一张从未见过的 "Guava Anthracnose" 叶片图片传进去
  • 模型提取其向量

步骤 3:图像向量与所有类别文本向量做相似度比较

算一个图像与所有类别文本的 cosine similarity:

复制代码
sim(image, text_class_1)
sim(image, text_class_2)
...
sim(image, text_class_K)

最大值对应的类别即模型预测。


步骤 4:与 ground truth 对比 → 得到 zero-shot accuracy

所有数据集的预测结果和标签比对即可。

这就是论文 Table 4 的来源。


🎯 为什么这叫 Zero-shot?

因为:

  • 测试数据(如 Chili、Durian、Guava)从没出现在训练中
  • 甚至作物类别都完全是新作物
  • 不需要微调,直接用预训练模型分类

体现模型的真实泛化能力。


📌 总结(一句话版本,可直接写入论文)

SCOLD 通过图文对比学习在 LeafNet 上进行预训练,并采用 Swin-T 与 RoBERTa 作为双编码器结构。训练后,通过将 OOD 测试图像 embedding 与各类别的文本描述 embedding 做相似度匹配,实现零样本分类评估,无需额外训练。


相关推荐
AI浩几秒前
约束模型下的目标检测置信学习
学习·目标检测·目标跟踪
m0_7482299937 分钟前
ThinkPHP快速入门:从零到实战
c语言·开发语言·数据库·学习
風清掦42 分钟前
【江科大STM32学习笔记-04】0.96寸OLED显示屏
笔记·stm32·学习
胡西风_foxww1 小时前
ObsidianAI_学习一个陌生知识领域_建立学习路径和知识库框架_写一本书
人工智能·笔记·学习·知识库·obsidian·notebooklm·写一本书
Haooog1 小时前
AI应用代码生成平台
java·学习·大模型·langchain4j
非凡ghost1 小时前
ShareX(免费截图录屏软件)
windows·学习·软件需求
天天睡大觉1 小时前
Python学习12
网络·python·学习
好奇龙猫1 小时前
【人工智能学习-AI入试相关题目练习-第十二次】
人工智能·学习
爱吃泡芙的小白白2 小时前
神经网络压缩实战指南:让大模型“瘦身”跑得更快
人工智能·深度学习·神经网络·模型压缩
近津薪荼2 小时前
优选算法——双指针5(单调性)
c++·学习·算法