AI核心知识47——大语言模型之Data Cleaning（简洁且通俗易懂版）

数据清洗 (Data Cleaning) ，在大语言模型（LLM）的开发流程中，属于预训练之前的准备工作。

如果说预训练是 AI 的"正餐"，那么数据清洗 就是**"备菜"**------把买回来的菜里的烂叶子摘掉、泥土洗净、切好分类，确保 AI 吃到肚子里的是营养而不是垃圾。

在 AI 界有一句至理名言，完美解释了数据清洗的重要性：

"Garbage In, Garbage Out" (垃圾进，垃圾出)。如果你喂给模型的是垃圾数据，那么无论你的模型架构多先进，它吐出来的也只能是垃圾。

大模型的训练数据主要来自互联网（Common Crawl）。但原始的互联网数据是极度混乱、肮脏和低质的。

如果不清洗，直接把互联网数据喂给 AI，会出现什么问题？

学坏了（有害内容）：互联网上充斥着色情、暴力、仇恨言论、种族歧视。如果不删掉，AI 就会变成一个满嘴脏话的"键盘侠"。
变笨了（低质内容） ：到处都是广告弹窗（"澳门首家线上..."）、乱码、HTML 标签（<div>...</div>）、毫无意义的流水账。这些噪音会浪费 AI 的脑容量。
复读机（重复数据） ：互联网上有很多复制粘贴的内容（比如同一篇新闻被 100 个网站转载）。如果 AI 反复看同一句话 100 遍，它就会死记硬背 （过拟合），而不是理解规律。
泄密（隐私问题）：网页里可能包含真实的人名、电话、邮箱、身份证号。如果不擦除，AI 可能会在聊天时把别人的隐私背出来。

数据清洗通常是一个自动化的流水线（Pipeline），包含以下几个核心步骤：

目标：只保留"教科书级"的高质量文本。
操作：
- 基于规则：删掉太短的句子、删掉标点符号过多的句子、删掉非目标语言（比如训练英文模型时删掉中文）。
- 基于模型：用一个小模型先读一遍，给文本打分。像"美女荷官在线发牌"这种广告文本，打低分直接扔掉；像"维基百科"这种，打高分保留。

为了让你直观感受到区别：

🚫 清洗前（Raw Data）：

<div> 2023-10-01 </div> <p> 大家好！！！今天心情不错。。。买了个表⌚️。点击这里领取优惠券：http://spam.com/ads。联系电话：13800138000。联系电话：13800138000。（重复） </p>
✅ 清洗后（Clean Data）：

大家好，今天心情不错，买了一块手表。

区别： 后者是人类正常的语言，前者是噪音。模型学后者能学会写作，学前者只能学会发小广告。

由于互联网上的高质量数据（书、论文、代码）快被 AI "吃光"了，而且清洗起来很累。

现在 AI 界的一个新趋势是：用最聪明的 AI（如 GPT-4）来生成高质量的教科书数据，然后喂给小模型（如 Llama 3）吃。

数据清洗是 AI 工程师的"淘金"过程。

他们从互联网这条充满了泥沙（垃圾数据）的大河里，通过层层筛网（清洗算法），筛选出最后那一点点金沙（高质量 Token）。

正是这些纯净的"金沙"，铸就了 ChatGPT 们惊人的智慧。