【深度学习: Encord Active平台】Encord 中的数据、标签和模型质量指标

【深度学习: Encord Active平台】Encord 中的数据、标签和模型质量指标

在使用数据集或开发机器学习模型时,经常会发现自己在查找或假设具有某些属性的数据子集、标签或模型预测。

质量指标是查找此类数据和检验假设的基础。

什么是质量指标?

核心概念是使用质量指标以结构化方式对相关主题进行索引、切片和分析,以便在不断启动主动学习周期时执行明智的行动。

具体示例:您假设对象"红色"会影响对象检测模型的 mAP 分数。为了测试这个假设,您定义一个质量指标来捕获数据集中每个对象的红色度。根据质量指标,您可以对数据进行切片,以比较红色和非红色对象上的模型性能。

定义质量指标

考虑计算机视觉质量指标的最佳方法是:

为数据集中的各个数据点、标签或模型预测分配值的任何函数。

根据设计,质量度量是一类非常抽象的函数,因为随附的方法对于质量度量所表达的特定属性是不可知的。无论具体的质量指标如何,您都可以:

  • 根据指标对数据进行排序
  • 对数据进行切片以检查特定子集
  • 找出异常值
  • 将训练数据与生产数据进行比较以检测数据漂移
  • 根据指标评估模型性能
  • 定义模型测试用例
  • 以及更多

专业提示:尝试阅读本文的其余部分,并考虑根据质量指标对数据、标签和模型预测进行"索引"。下面提到的指标只是质量指标可以捕获的冰山一角。每个项目都有自己的具体指标需要考虑和考虑。

数据质量指标

数据质量指标是那些仅需要有关数据本身的信息的指标。在计算机视觉领域中,这意味着没有任何标签的原始图像或视频帧。这个质量指标子集通常在机器学习项目开始时经常使用,其中标签很少甚至可能不存在。

以下是数据质量指标的一些示例,从简单到复杂:

图像亮度作为 Encord 上 MS COCO 验证数据集的数据质量指标。

图像奇异性作为 Encord 上 MS COCO 验证数据集的数据质量指标。

标签质量指标

标签质量指标适用于标签。一些指标使用图像内容,而另一些指标仅适用于标签信息。标签质量指标有多种用途,但一些更常见的用途是显示标签错误、模型故障模式和评估注释器性能。

以下是标签质量指标的一些具体示例,从简单到复杂:

Encord 上的 MS COCO 验证数据集上的对象计数作为标签质量指标。

注释重复作为 Encord 上 MS COCO 验证数据集的标签质量指标。

模型质量指标

模型质量指标还考虑模型预测。这些指标最明显的用例是获取函数,回答"接下来我应该标记什么?"的问题。有许多智能方法可以利用模型预测来回答这个问题。以下是一些最常见的列表:

使用模型置信度作为 Encord 上 MS COCO 验证数据集的模型质量指标。它显示置信度在 50% 到 80% 之间的预测。

使用多边形形状相似度作为 Encord 上 MS COCO 验证数据集的模型质量指标。它根据 Hu 矩,根据对象与前一帧中的实例的相似程度对对象进行排名。物体的形状变化越多,其得分就越低。

💡 提示:要利用 Encord Active 的采集功能,请查看此处。

自定义质量指标

我们现在已经回顾了 Encord Active 中已有的一些常见质量指标示例。

然而,每个机器学习项目都是不同的,而且很可能,您只是知道要计算什么来呈现您想要评估或分析的数据。

使用 Encord Active,您只需定义每个数据点的计算。该工具将处理从执行计算到根据新指标可视化数据的所有事务。

您可能想知道您的骨架预测何时被遮挡或者视频特定注释的哪些帧丢失。

您还可以变得更加聪明,将您的标签与 SAM 等基础模型的结果进行比较。

这些不同的用例是您构建自定义指标的情况。

您可以在此处找到用于编写自定义指标的文档,也可以按照上面提供的任何链接找到特定的质量指标,并在 GitHub 上找到其实现。

结论

质量指标构成了系统地探索、评估和迭代机器学习数据集和模型的基础。

借助 Encord Active,可以轻松定义、执行和利用质量指标,以充分利用您的数据、模型和注释器。我们使用它们来切片数据、比较数据、标记数据、查找标签错误等等。这些指标的真正力量在于它们可以任意特定于手头的问题。

相关推荐
强盛小灵通专卖员7 分钟前
DL00291-联邦学习以去中心化锂离子电池健康预测模型完整实现
人工智能·机器学习·深度强化学习·核心期刊·导师·小论文·大论文
Hello123网站16 分钟前
多墨智能-AI一键生成工作文档/流程图/思维导图
人工智能·流程图·ai工具
有Li1 小时前
CLIK-Diffusion:用于牙齿矫正的临床知识感知扩散模型|文献速递-深度学习人工智能医疗图像
人工智能·深度学习·文献·医学生
大唐荣华1 小时前
视觉语言模型(VLA)分类方法体系
人工智能·分类·机器人·具身智能
即兴小索奇1 小时前
AI应用商业化加速落地 2025智能体爆发与端侧创新成增长引擎
人工智能·搜索引擎·ai·商业·ai商业洞察·即兴小索奇
NeilNiu1 小时前
开源AI工具Midscene.js
javascript·人工智能·开源
nju_spy2 小时前
机器学习 - Kaggle项目实践(4)Toxic Comment Classification Challenge 垃圾评论分类问题
人工智能·深度学习·自然语言处理·tf-idf·南京大学·glove词嵌入·双头gru
计算机sci论文精选2 小时前
CVPR 2025 | 具身智能 | HOLODECK:一句话召唤3D世界,智能体的“元宇宙练功房”来了
人工智能·深度学习·机器学习·计算机视觉·机器人·cvpr·具身智能
ezl1fe2 小时前
RAG 每日一技(十八):手写SQL-RAG太累?LangChain的SQL智能体(Agent)前来救驾!
数据库·人工智能·后端
我星期八休息2 小时前
大模型 + 垂直场景:搜索/推荐/营销/客服领域开发新范式与技术实践
大数据·人工智能·python