以数据为中心 的AI v.s. 以模型为中心的AI

原文:Data-Centric AI vs. Model-Centric AI · Introduction to Data-Centric AI

当你学习关于机器学习相关的课程时,通常是给你一个清洁好的数据,你的任务是利用这个数据集训练出一个最好的模型。所有在机器学习课程教的技巧都是为了这个目标:模型(神经网络,决策树等等),训练技巧(正则化,优化算法,损失函数等等),以及模型/超参数选择(还有模型融合,集成学习)。这种方式我们称为以模型为中心的AI

当我们从事现实世界的机器学习相关工作时,你的公司或者你的用户并不关心你是如何应用一些聪明的模型技巧在质量很好的数据上去训练出一个预测效果很好的模型。跟课堂上不同,现实世界的应用中数据是没有处理好的。你可以随意改变数据集甚至付费收集更多数据使得你的模型表现更好。现实世界的数据通常质量不好一团糟,所以提高数据质量是构造准确模型的前提。老练的数据科学家懂得比起鼓捣模型,探索和处理好数据集更加值得投入精力,但是这个过程对于大型数据集会有点繁复。提高数据质量可以通过人工去做,凭借人们的直觉或专业知识。

与人工处理数据集的方式相比,以数据为中心的AI是使用AI技术更加系统地诊断和处理现实世界中数据集的问题。以数据为中心的AI的形式有:

1.使用AI算法理解数据,然后用这些信息提高模型表现。Curriculum learning是一种这样的算法。

2.AI算法改变数据以提高模型表现。Confident learning是一种这样的算法,这种算法中机器学习模型在一个去除糟糕样本的过滤好的数据集上训练。

在以上例子中,通过把算法应用在训练好的AI模型的输出上,算法自动评估那个样本是糟糕。

适用于监督型机器学习的方法

以数据为中心的AI的工作流程大概是这样:

1.探索数据,处理基本的数据问题,然后转换数据使得数据可以用于机器学习。

2.在整理好的数据集上训练一个机器学习基线模型。

3.使用这个模型帮助你提升数据的质量。(用本教程的技巧)

4.在提升质量之后的数据集上使用不同的模型技巧提高模型的表现,最后得到最好的模型。

以数据为中心的AI例子

这个领域的方法论包括:

--离群检测以及去除离群点(处理数据集中的异常值)

--错误检测以及纠正(处理数据集中不正确的数据/标签)

--达成共识(从多个来源的注释者的决定中得到一个真正的决定,比如决定一个样本的标签的时候,可以综合多个打标签的注释者的意见)

--数据增量(给数据集增加样本)

--特征工程和特征选择(对数据的表达的处理)

--积极学习active learning(下一个打标签的样本要选择信息量最大的样本)

--知识表示curriculum learning(把样本从最简单到最复杂排序)

Tesla的自动驾驶系统对比竞争者的更加先进。他们指出数据工程是关键:(图片来源 https://vimeo.com/274274744

为什么我们需要以数据为中心的AI

质量差的数据每年花费美国3万亿美金。数据质量问题是每个行业都要面对的问题而且花费巨大。随着数据集增大,如果没有算法的帮助,处理大型数据集是不可能的。在大量数据上训练的机器学习模型比如ChatGPT很大程度依赖人力(人类的反馈)去处理低质量的数据的缺陷。但是全靠人力也不能处理所有的数据缺陷。我们需要自动化的方法和系统化的工程法则去确保机器学习模型能够在清洁的数据上训练。机器学习已经深入到我们生活的方方面面,医疗保健、金融、交通等等,系统以一种可靠的方式得到训练是很有必要的。

近年的研究强调了以数据为中心的AI在各种应用中的价值。对于使用含有有噪声标签的数据训练的图片分类,最近有一项基准研究在逐渐增加著名的Cifar-10数据集噪声率的情况下,使用不同的方法训练模型。研究显示对数据集做一些适应性的改变,然后使用简单的模型训练比起使用噪声数据集训练的复杂模型的准确率更高。

本课程所讲的技巧适用于大部分监督刑机器学习模型以及训练模型的方法。

一些参考:(扩展阅读)

G21\] Press, G. [Andrew Ng Launches A Campaign For Data-Centric AI](https://www.forbes.com/sites/gilpress/2021/06/16/andrew-ng-launches-a-campaign-for-data-centric-ai/?sh=664bf56374f5 "Andrew Ng Launches A Campaign For Data-Centric AI"). *Forbes*, 2021. \[B09\] Bengio, Y., et al. [Curriculum Learning](https://ronan.collobert.com/pub/2009_curriculum_icml.pdf "Curriculum Learning"). *ICML*, 2009. \[NJC21\] Northcutt, C., Jiang, L., Chuang, I.L. [Confident Learning: Estimating Uncertainty in Dataset Labels](https://arxiv.org/abs/1911.00068 "Confident Learning: Estimating Uncertainty in Dataset Labels"). *Journal of Artifical Intelligence Research*, 2021. \[R16\] Redman, T. [Bad Data Costs the U.S. $3 Trillion Per Year](https://hbr.org/2016/09/bad-data-costs-the-u-s-3-trillion-per-year "Bad Data Costs the U.S. $3 Trillion Per Year"). *Harvard Business Review*, 2016. \[S22\] Strickland, E. [Andrew Ng: Unbiggen AI](https://spectrum.ieee.org/andrew-ng-data-centric-ai "Andrew Ng: Unbiggen AI"). *IEEE Spectrum*, 2022. \[C23\] Chiang, T. [ChatGPT is a Blurry JPEG of the Web](https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web "ChatGPT is a Blurry JPEG of the Web"). *New Yorker*, 2023.

相关推荐
qq_416276422 小时前
LOFAR物理频谱特征提取及实现
人工智能
余俊晖3 小时前
如何构造一个文档解析的多模态大模型?MinerU2.5架构、数据、训练方法
人工智能·文档解析
Akamai中国4 小时前
Linebreak赋能实时化企业转型:专业系统集成商携手Akamai以实时智能革新企业运营
人工智能·云计算·云服务
LiJieNiub5 小时前
读懂目标检测:从基础概念到主流算法
人工智能·计算机视觉·目标跟踪
weixin_519535776 小时前
从ChatGPT到新质生产力:一份数据驱动的AI研究方向指南
人工智能·深度学习·机器学习·ai·chatgpt·数据分析·aigc
爱喝白开水a6 小时前
LangChain 基础系列之 Prompt 工程详解:从设计原理到实战模板_langchain prompt
开发语言·数据库·人工智能·python·langchain·prompt·知识图谱
takashi_void6 小时前
如何在本地部署大语言模型(Windows,Mac,Linux)三系统教程
linux·人工智能·windows·macos·语言模型·nlp
OpenCSG6 小时前
【活动预告】2025斗拱开发者大会,共探支付与AI未来
人工智能·ai·开源·大模型·支付安全
生命是有光的6 小时前
【深度学习】神经网络基础
人工智能·深度学习·神经网络
数字供应链安全产品选型6 小时前
国家级!悬镜安全入选两项“网络安全国家标准应用实践案例”
人工智能·安全·web安全