【机器学习：训练数据集】机器学习训练数据集的完整指南

【机器学习：训练数据集】机器学习训练数据集的完整指南

训练数据是用于教授机器学习或计算机视觉算法或模型处理信息的初始训练数据集。

计算机视觉和 AI 模型（人工智能）等算法模型使用带标签的图像或视频（原始数据）来学习和理解所显示的信息。

这些模型在遇到新数据并以从之前的数据中学到的知识为基础时，会继续完善其性能⏤，提高决策能力和信心⏤。

高质量的训练数据是成功机器学习的基础，因为训练数据的质量对任何模型的开发、性能和准确性都有深远的影响。训练数据对于生产就绪模型的成功与算法本身一样至关重要，因为标记训练数据的质量和数量直接影响模型学习识别其设计检测结果的准确性。

训练数据指导模型：它是模型从中获取基础知识的教科书和原材料。它显示模型模式并告诉它要寻找什么。数据科学家训练模型后，它应该能够根据从训练数据中学到的模式来识别从未见过的数据集中的模式。

机器学习和基于人工智能的模型是学生。在这种情况下，教师是人类数据科学家、数据操作团队和注释者。他们使用数据标记工具将原始数据转换为标记数据。与人类学生一样，当机器有精心策划的相关示例可供练习和学习时，它们会表现得更好。

如果计算机视觉模型是根据不可靠或不相关的数据进行训练的，那么设计良好的模型可能会变得毫无用处。正如古老的人工智能格言所说："垃圾进来，垃圾出去"。

我们如何使用训练数据集来训练计算机视觉模型？

两种常见类型的机器学习模型是有监督的和无监督的。

无监督学习是指注释和数据科学团队将数据输入到模型中，而不向其提供有关其进度的具体说明或反馈。训练数据是原始数据，这意味着提供的图像和视频中没有注释或识别标签。因此，计算机视觉模型无需人工指导即可进行训练并独立发现模式。无监督模型可以聚类和识别数据中的模式，但它们无法执行具有期望结果的任务。例如，数据科学家无法提供无监督的动物模型图像并期望模型按物种对它们进行分组：模型可能会识别不同的模式并按颜色对它们进行分组。

当预期结果预先确定时，例如识别肿瘤或天气模式的变化，机器学习工程师会构建监督学习模型。在监督学习中，人类为模型提供标记数据，然后监督机器学习过程，提供有关模型性能的反馈。

人机交互 (HILT) 是人类持续与机器合作并帮助提高其性能的过程。第一步是整理和标记训练数据。实现这一目标的最佳方法之一是使用数据标记工具、主动学习管道和人工智能辅助工具将原材料转化为标记数据集。

标记数据允许数据科学和运营团队以模型可读的方式构建数据。在训练数据中，专家确定机器学习模型旨在预测的目标 ⏤ 结果 ⏤ ，并通过给图像和视频中的对象提供标签来注释它们。

通过标记数据，人类可以指出图像和视频（或任何类型的数据）中的重要特征，并确保模型专注于这些特征，而不是对数据得出错误的结论。应用精心选择的标签对于指导模型的学习至关重要。例如，如果人类希望计算机视觉模型学习识别不同类型的鸟类，那么图像训练数据中出现的每只鸟类都需要用描述性标签进行适当标记。

在数据科学家开始通过向模型提供标记数据来训练模型以预测所需结果后，"人在环"检查其输出以确定模型是否成功且准确地运行。主动学习管道采用类似的方法，尽管更加自动化。就像教师帮助学生准备考试一样，注释者和数据科学家会进行更正并将数据反馈给模型，以便模型可以从任何不准确的地方进行学习。

通过不断验证模型的预测，人类可以确保其学习朝着正确的方向发展。该模型通过这种持续的反馈和实践循环来提高其性能。

一旦机器经过充分的训练，数据科学家将通过向模型提供前所未见的"测试数据"来测试模型返回现实世界预测的性能。测试数据未标记，因为数据科学家不使用它来调整模型：他们使用它来确认模型是否准确运行。如果模型无法从测试数据中产生正确的输出，那么数据科学家就知道它需要更多的训练才能预测所需的结果。

什么是好的机器学习训练数据集？

由于机器学习是一个交互式过程，因此训练数据适用于用例并对其进行适当标记至关重要。

整理的数据必须与模型试图解决的问题相关。例如，如果计算机视觉模型尝试识别自行车，则数据必须包含自行车的图像，最好包含各种类型的自行车。数据的清洁度也会影响模型的性能。如果使用损坏或损坏的数据或具有重复图像的数据集进行训练，该模型将做出错误的预测。最后，正如已经讨论的那样，注释的质量对训练数据的质量有巨大的影响。这是标记图像如此耗时的原因之一，当注释团队能够使用正确的工具（例如 Encord）时，他们的效率会更高。

为机器学习创建基于图像或视频的数据集的最佳方法是什么？

创建、评估和管理培训数据取决于是否拥有正确的工具。

Encord 的计算机视觉优先工具包让客户可以在一个平台上标记任何计算机视觉模式。我们提供快速、直观的协作工具来丰富您的数据，以便您可以构建尖端的人工智能应用程序。我们的平台自动对图像和视频中的对象进行分类、检测片段并跟踪对象。

计算机视觉模型必须学会区分图片和视频的不同方面，这需要它们处理标记数据。他们需要学习的注释类型根据他们正在执行的任务而变化。

让我们看一下计算机视觉任务的一些常见注释工具。

图像分类：对于单标签分类，数据集中的每张图像都有一个标签，模型会为其遇到的每张图像输出一个预测。在多标签分类中，每个图像都有多个互不排斥的标签。

边界框：执行对象检测时，计算机视觉模型会检测对象及其位置，并且不需要详细说明对象的形状即可实现此结果，这使得边界框成为此任务的理想工具。使用边界框，图像中的目标对象包含在一个带有描述性标签的小矩形框中。

多边形/线段：执行图像分割时，计算机视觉模型使用算法将图像中的对象与其背景和其他对象分开。将标签映射到属于同一图像的像素元素有助于模型将数字图像分解为称为片段的子组。这些片段的形状很重要，因此注释者需要一种不将它们限制为矩形的工具。使用多边形，注释者可以通过在图像顶点上绘制点来在目标对象周围创建紧密的轮廓。

Encord 的平台为各种计算机视觉任务提供了注释工具，并且我们的工具嵌入在该平台中，因此用户在访问模型辅助标记之前无需经历任何麻烦。

由于该平台支持各种数据格式，包括图像、视频、SAR、卫星、热成像和 DICOM 图像（X 射线、CT、MRI 等），因此适用于广泛的计算机视觉应用。

在 Encord 中标记机器学习的训练数据

如何为机器学习和计算机视觉模型创建更好的训练数据集

虽然世界上不乏数据，但其中大部分是未标记的，因此实际上不能用于监督机器学习模型。计算机视觉模型，例如为医学成像或自动驾驶汽车设计的模型，需要对其预测非常有信心，因此需要对大量数据进行训练。获取大量标记数据仍然是人工智能进步的严重障碍。

市面上有数十个开源数据集：以下是 10 个最适合计算机视觉项目的精选列表。

由于每个不正确的标签都会对模型的性能产生负面影响，因此数据注释器在创建高质量训练数据的过程中发挥着至关重要的作用。因此，质量保证在数据标记流程中非常重要。

理想情况下，数据注释者应该是模型回答问题领域的主题专家。在这种情况下，数据注释者 ⏤ 由于其领域专业知识，⏤ 了解数据与机器试图解决的问题之间的联系，因此他们的标签信息更丰富且更准确。

数据标记是一个耗时且乏味的过程。从长远来看，一小时的视频数据可能需要人类长达 800 小时的时间来注释。这给有其他时间需求的行业专家带来了问题。医生是否应该花费数百小时对肿瘤扫描进行标记来教机器如何识别它们？或者医生是否应该优先考虑医患互动，并花这些时间为扫描结果明确显示恶性肿瘤的患者提供护理？

数据标记可以外包，但这样做意味着失去主题专家的输入，如果标记需要任何特定于行业的知识，则可能会导致培训数据质量低下。外包的另一个问题是，数据标记工作通常发生在发展中经济体，这种情况对于任何重视数据安全和隐私的领域都不可行。当无法外包时，团队通常会构建内部工具并使用内部员工手动标记数据，这会导致数据基础设施和注释工具变得繁琐，维护成本高昂且难以扩展。

当前手动标记训练数据的做法是不够的或可持续的。 Encord 使用一种称为微模型的独特技术解决了这个问题，并通过减轻手动注释和标签审查的负担使计算机视觉变得实用。我们的平台可自动进行数据标记，在不牺牲质量的情况下提高效率。

使用微模型自动标记机器学习的数据

Encord 使用一种称为微模型的创新技术解决方案来构建其自动化功能。微模型允许以"半监督方式"快速注释。在半监督学习中，数据科学家在训练期间向机器提供少量标记数据和大量未标记数据。

微模型方法源于这样的想法：当对一小组有目的地选择且标记良好的数据进行训练时，模型可以产生强大的结果。微模型在架构或参数方面与传统模型没有区别，但它们具有不同的应用领域和用例。

许多数据科学家的本能反应可能是，这违背了"好的"数据科学，因为微模型是一个过度拟合的模型。在过度拟合模型中，算法无法将"信号"（数据科学家希望从数据中学习的真正潜在模式）与"噪声"（数据集中的不相关信息或随机性）分开。过拟合模型会无意中记住噪声而不是找到信号，这意味着它在遇到看不见的数据时通常会做出糟糕的预测。

过度拟合生产模型是有问题的，因为如果生产模型没有使用大量类似于现实世界场景的数据进行训练，那么它就无法泛化。例如，如果数据科学家仅根据轿车图像训练计算机视觉模型，那么该模型可能无法将卡车识别为车辆。

然而，Encord 的微模型故意过度拟合。它们是特定于注释的模型，旨在查看一项数据、识别一件事并过度训练该特定任务。它们在一般问题上表现不佳，但我们并没有将它们设计为应用于现实世界的生产用例。我们设计它们只是为了自动化数据注释的特定目的。微模型可以解决很多不同的问题，但这些问题必须与模型开发的训练数据层相关。

比较用于创建机器学习训练数据的传统模型和微观模型

由于微模型不需要太多时间来构建，需要大量数据集，或者需要数周的时间来训练，因此循环中的人员只需注释少数示例即可开始训练微模型。然后，微模型使注释过程自动化。该模型开始在一小部分标签上进行自我训练，并将人类从大部分验证过程中剔除。人类会审查一些示例，提供轻微的监督，但大多数情况下，模型每次重新训练时都会验证自身，从而获得越来越好的结果。

通过自动数据标记，需要人工注释的标签数量会随着时间的推移而减少，因为每次模型运行时系统都会变得更加智能。

在自动化综合注释过程时，Encord 将多个微模型串在一起。它将每个标记任务分解为一个单独的微观模型，然后组合这些模型。例如，为了对数据集中的飞机和云进行分类，人类将训练一个微模型来识别飞机，创建并训练另一个微模型来识别云，然后将它们链接在一起以在训练数据中标记云和飞机。

生产模型需要大量标记数据，而对人类注释的依赖限制了它们投入生产和"野外运行"的能力。

微模型可以改变这一点。

通过微模型，用户可以快速创建训练数据以输入下游计算机视觉模型。