基于学习的人工智能（5）机器学习基本框架

陈天伟教授2025-11-25 23:01

**数据是机器学习的"粮食"，是知识的原始载体。**机器学习的目的就是将分散在数据中的知识提取来并保存在模型中。要训练一个优秀的机器学习模型，必须对数据进行精心选择。一般来说，数据需要具备以下几个条件：

质量：数据必须具备较高质量，特别是经过人工标注的数据，其标注准确率应足够高。

数量：数据量必须充足，否则难以训练出合理的模型。

场景覆盖度：数据应涵盖各种场景。例如，一个人脸识别数据库应包含不同光照、角度下的人脸图片，否则训练出来的模型可能难以实用。

近年来，随着大语言模型的发展，对数据的要求越来越高。例如，GPT-3.5 的训练使用了 45TB 的文本语料。如此庞大的数据量，如何清除劣质数据、平衡各数据源，以及如何让模型高效地学习，都是亟待解决的问题。此外，有科学家预测，人工智能可能会很快用尽人类的所有数据，如何应对"数据枯竭"也十分重要。