AI大模型入门篇 | 完全0基础也能看得懂！轻松入坑AI大模型！

人工神经网络的生物学基础

人脑存在两个系统，"快系统"与"慢系统":

"慢系统"是我们能够有意识觉察的思维过程，依靠逻辑推理与分析；

"快系统"则是无意识地运作，以惊人的速度处理信息，能够瞬间形成直觉判断。

人类具备快速且无意识的感知能力，是因为人类的大脑有 1000 亿个神经元。

文章篇幅有限，不便展示AI大模型全部资源。更多AI大模型学习视频及资源，都在智泊AI。

神经生物学家们已对斑胸草雀、果蝇的大脑进行3D重建，即使只有一立方毫米的脑组织，也可以产生超过 1000TB 的数据。

模仿人脑中神经元的工作方式，计算机科学家构建了感知机。

正如神经元处理信号并选择传递或抑制它们一样，感知机的目标是通过数学运算来复制这种行为。

生物神经元从其他神经元接收强度各异的电脉冲形式的"消息"，这些脉冲可以是兴奋性的也可以是抑制性的。

神经元整合这些脉冲，如果总和超过某个特定的阈值，神经元就会向其他连接的神经元发送一个称为动作电位的信号。

为了模拟神经元的不同连接强度，感知机的每个输入会被分配一个权重。神经元的处理过程本质上是一个函数计算过程。

在这个算式中，x代表输入信号，y代表输出结果。预训练过程就是通过已知的输入x和期望输出y来求解最优权重W。

感知机的阈值可人为设置，也可以由感知机通过自身学习获得。

大模型，是包含超大规模参数（通常在十亿个以上）的人工神经网络模型。感知机与大模型的关系类似于第一台计算机与现代超级计算机的关系------前者是后者的理论基础和原始雏形。

这是一个全连接神经网络（每层神经元与下一层的所有神经元都有连接），包括1个输入层，N个隐藏层，1个输出层。

大模型的参数数量和神经元节点数有一定的关系。简单来说，神经元节点数越多，参数也就越多。例如，GPT-3的参数数量，大约是1750亿。

核心参数类型

1.权重(Weights)

决定了输入特征对模型输出的影响程度

通过反复训练迭代优化，这正是训练的核心价值

2.偏置(Biases)

可理解为神经元的"容忍度"或激活阈值

调节神经元对输入信号的敏感程度

提高模型拟合数据的灵活性和准确性

涌现能力

当模型的训练数据和参数规模不断扩大，会表现出一些事先无法预测的复杂能力和特性------模型能自动学习并发现原始训练数据中更高层次的特征和模式。

换言之，涌现能力代表大模型不再只是简单复述知识，而是能够理解知识并进行发散思维，就像突然"开窍"一样。

泛化能力

泛化（Generalisation）可以理解为一种迁移学习的能力，大致可以理解为把从过去的经验中学习到的表示、知识和策略应用到新的领域，是大模型最被需要的能力。

这类似于博学多识的人即使面对未学过的领域，也能基于已有知识框架给出合理的推断。

规模与风险平衡

参数规模增大虽然能增强模型能力，但也带来挑战。

资源消耗剧增：计算成本和存储需求呈指数级增长。

过拟合风险：模型可能过度记忆训练数据中的噪声和细节，而非把握数据的总体规律，变成只会"死记硬背"而不善于"融会贯通"的"书呆子"。

Grokking

如图所示，在处理训练数据较少的数学任务（常为数字求和取余问题）时，谷歌研究人员观察到一种奇特现象------Grokking，也被称为延迟泛化。

将数据集均分为训练集（红线）和验证集（绿线），训练动态呈现三个阶段：首先是记忆期，模型训练指标飙升，记住约半数训练数据结果，但验证集指标接近0，毫无泛化能力，仅在机械记忆。

接着是平台期，验证集效果持续低迷，模型仍未掌握规律；最后是泛化期，验证集效果突然提升，表明模型顿悟，学会任务规律，实现从记忆到泛化的转变。

提示词工程（Prompt Engineering）

直接问（Zero-shot）、举一个例子示范（One-shot）和举多个例子（Few-shot）

直接和模型 API 或 Vertex AI 这样的平台打交道（而不是简单的聊天机器人），可以调整很多参数。

这些参数就像是你控制 LLM 输出行为的旋钮：

输出长度 (Max Tokens): 这决定了模型最多生成多少内容。注意，它不是让模型变得更简洁，而是到字数上限就强行停止。

设太短可能话没说完，设太长又可能增加成本和响应时间，甚至导致模型在完成任务后继续输出无意义的"填充词"。

温度 (Temperature): 控制输出的随机性。低 T 值（比如接近 0） ，模型倾向于选择最可能的词，输出更稳定、确定，适合需要事实性、固定答案的任务。

高 T 值（比如接近 1） ，模型会考虑更多可能性，输出更多样、更"创意"，但也可能更离谱。T 值过高或过低都可能导致"重复循环"的 bug。

Top-K & Top- P : 这俩都是用来限制模型从概率最高的词中进行选择。Top-K 是只考虑概率排名前 K 的词。

Top-P (Nucleus Sampling) 则是选择累积概率达到 P 的那些词。它们都能调整输出的多样性和随机性。通常可以一起用，比如先按 Top-K 和 Top-P 筛选候选词，再用 Temperature 从中采样。

关键在于，这些参数是相互影响的。极端设置一个参数可能会让其他参数失效（比如 Temperature=0 时，Top-K/P 就无关紧要了）。

没有万能的设置，需要根据具体任务去实验和调整。想让结果稳定？试试低 T。想要创意？调高 T、K、P。

何为大模型？

大模型，英文名叫Large Model，也被称为基础模型（Foundation Model）。

我们通常说的大模型，主要指的是其中最常用的一类------大语言模型（Large Language Model，简称LLM）。

除此之外，还有视觉大模型、多模态大模型等。所有这些类别合在一起，被称为广义的大模型；而狭义的大模型则特指「大语言模型」。

大模型的本质

从本质上来讲，大模型是包含超大规模参数（通常在十亿个以上）的神经网络模型。这些参数使得大模型能够处理和理解复杂的任务，如自然语言处理、图像识别等。

神经网络的基础

神经网络是AI领域目前最基础的计算模型。它通过模拟大脑中神经元的连接方式，能够从输入数据中学习并生成有用的输出。

如下图所示，一个典型的神经网络结构包括：

输入层：接收外部输入数据。

隐藏层：多个中间层，每层神经元与下一层的所有神经元都有连接(即全连接神经网络)，负责数据的特征提取和转换。

输出层：生成最终的输出结果。

常见的神经网络架构有：

卷积神经网络（CNN）：主要用于图像处理。

循环神经网络（RNN）：适用于序列数据处理，如时间序列分析。

长短时记忆网络（LSTM）：改进版的RNN，能更好地处理长期依赖问题。

Transformer架构：目前业界大部分大模型都采用了这种架构，尤其擅长处理自然语言任务。

大模型的"大"体现在哪些方面？

大模型的"大"，不仅仅是参数规模大，还包括以下几个方面：

1.参数规模大：大模型包含数十亿甚至数千亿个参数，使其能够捕捉更复杂的模式和关系。

2.架构规模大：大模型通常具有非常深的网络结构，层数可达几十层甚至上百层。

3.训练数据大：大模型需要海量的数据进行预训练，以确保其具备广泛的知识和能力。

4.算力需求大：训练大模型需要强大的计算资源，如高性能GPU集群或TPU，以支持大规模的并行计算。

以OpenAI公司的GPT-3为例，共有96层隐藏层，每层包含2048个神经元，其架构规模非常庞大。

大模型的参数数量和神经元节点数之间存在一定的关系。简单来说，神经元节点数越多，参数也就越多。GPT-3整个模型的参数数量约为1750亿个。

GPT-3的训练数据也非常庞大，采用了多种高质量的数据集进行预训练：

CC数据集：4千亿词

WebText2：190亿词

BookCorpus：670亿词

维基百科：30亿词

这些数据集加起来，原始数据总量达到了45TB，即使经过清洗后也有570GB。如此海量的数据确保了GPT-3具备广泛的知识和能力，能够在各种自然语言任务上表现优异。

还有算力需求。很具公开数据显示，训练GPT-3大约需要3640PFLOP·天。如果使用512张NVIDIA A100 GPU（单卡算力195 TFLOPS），大约需要1个月的时间。实际上，由于训练过程中可能会出现中断或其它问题，实际所需时间可能会更长。

总而言之，大模型就是一个虚拟的庞然大物，具有复杂的架构、庞大的参数量、依赖海量数据，并且训练过程非常烧钱。

而参数较少（一般在百万级以下）、层数较浅的小模型，具有轻量级、高效率和易于部署的特点，适用于数据量较小、计算资源有限的垂直领域场景，如简单的文本分类、情感分析等任务。

大模型是如何训练出来的？

众所周知，大模型可以通过学习海量数据，吸收数据里面的"知识"。然后再对知识进行运用，例如回答问题、生成内容等。

而学习知识的过程，就是训练过程。运用知识的过程，即为推理。

大模型的训练，又分为两个主要环节：预训练（Pre-training）和微调（Fine-tuning）。

预训练

在预训练时，首先需要选择一个合适的模型框架，例如Transformer。然后，通过"投喂"前面提到的海量数据，让大模型学习到通用的特征表示。

为什么大模型具有强大的学习能力？

大模型之所以具备如此强大的学习能力，主要归功于其庞大的参数规模和复杂的神经网络结构。我们可以从以下几个方面来理解这一点：

1. 神经元与权重的关系

如上图，深度学习模型中的每个神经元可以看做是一个函数计算单元。输入x经过一系列线性变换和非线性激活函数后，产生输出y。这个过程可以用以下公式表示：

其中，

W是权重（weights），决定了输入特征对模型输出的影响程度。

b是偏置（bias），影响神经元的激活阈值，即神经元对输入信号的敏感程度。

f是激活函数，如ReLU、Sigmoid等，用于引入非线性特性。

权重是最主要的参数之一。通过反复训练，模型不断调整权重，使其能够更好地拟合训练数据。这也就是训练的核心意义------找到最合理的权重和偏置组合，使得模型能够在新数据上表现良好。

2.参数与学习能力的关系

参数越多，模型通常能够学习到更复杂的模式和特征，从而在各种任务上表现出更强的性能。

我们通常会说大模型具有两个特征能力------涌现能力和泛化能力。

当模型的训练数据和参数不断扩大，直到达到一定的临界规模后，会表现出一些未能预测的、更复杂的能力和特性。模型能够从原始训练数据中，自动学习并发现新的、更高层次的特征和模式。这种能力，被称为"涌现能力"。

"涌现能力"，可以理解为大模型的脑子突然"开窍"了，不再仅仅是复述知识，而是能够理解知识，并且能够发散思维。

泛化能力，是指大模型通过"投喂"海量数据，可以学习复杂的模式和特征，可以对未见过的数据做出准确的预测。就像董宇辉一样，书读得多了，有些书虽然没读过，他也能说几句。

3. 过拟合的风险

然而，参数规模越来越大，虽然能让大模型变得更强，但是也会带来更庞大的资源消耗，甚至可能增加"过拟合"的风险。

过拟合，即是指模型对训练数据学习得过于精确，以至于它开始捕捉并反映训练数据中的噪声和细节，而不是数据的总体趋势或规律。换句话说，模型变成了"书呆子"，只会死记硬背，不愿意融会贯通。

预训练使用的数据

预训练使用的数据是海量的未标注数据（几十TB）。之所以使用未标注数据，是因为互联网上存在大量的此类数据，很容易获取。而标注数据（基本上靠人工标注）需要消耗大量的时间和金钱，成本太高。

数据预处理

为了确保数据的质量和适用性，整个数据需要经过以下预处理步骤：

收集：从多个来源收集原始数据。

清洗：去除异常数据和错误数据。

脱敏：删除隐私信息，确保数据安全。

分类：对数据进行分类，使其更标准化，有利于后续训练。

获取数据的方式

获取数据的方式也是多样化的：

个人和学术研究：可以通过官方论坛、开源数据库或研究机构获取。

企业：既可以自行收集和处理，也可以直接通过外部渠道（市场上有专门的数据提供商）购买。

无监督学习方法

预训练模型通过无监督学习从未标注数据中学习到通用特征和表示。常见的无监督学习方法包括：

自编码器（Autoencoder）：通过学习数据的压缩表示来进行重构。

生成对抗网络（GAN）：通过生成器和判别器之间的对抗训练来学习数据分布。

掩码语言建模（Masked Language Modeling, MLM）：随机遮蔽部分输入文本，让模型预测被遮蔽的部分。

对比学习（Contrastive Learning）：通过对比相似和不相似的数据样本，学习数据的表示。

微调

预训练学习之后，我们得到了一个通用大模型，这种模型虽然具备广泛的知识和能力，但在完成特定任务时往往表现不佳。因此，我们需要对模型进行微调。

什么是微调？

微调（Fine-tuning） 是给大模型提供特定领域的标注数据集，对预训练的模型参数进行微小的调整，使其更好地完成特定任务。通过微调，可以显著提升模型在特定任务上的性能。

微调之后的大模型可以根据应用场景分为不同层次：

通用大模型：类似于中小学生，具有广泛的基础知识，但缺乏专业性。

行业大模型：基于特定行业的数据集进行微调。如金融证券大模型通过基于金融证券数据集的微调，可以得到一个专门用于金融分析和预测的大模型。这相当于大学本科生，具备了更专业的知识和技能。

专业大模型（或垂直大模型）：进一步细分到更具体的领域，如金融领域的股票预测等。这相当于研究生，具备高度专业化的能力。

如下图所示。

微调的优势

减少计算资源需求

微调阶段使用的数据量远小于预训练阶段，因此对算力的需求也小很多。通常只需要少量的GPU或TPU即可完成微调过程。

提高任务特定性能

预训练模型在广泛的数据上学习到了通用特征，但这些特征不一定能很好地适用于特定任务。通过微调，模型可以在特定任务上表现出更高的准确性和效率。

避免重复投入

对于大部分大模型厂商来说，他们一般只做预训练，不做微调。而对于行业客户来说，他们一般只做微调，不做预训练。

"预训练+微调"这种分阶段的大模型训练方式，可以避免重复的投入，节省大量的计算资源，显著提升大模型的训练效率和效果。

微调的具体步骤

选择合适的标注数据集：标注数据集是微调的关键。需要根据具体任务选择高质量的标注数据，确保数据的多样性和代表性。

调整模型参数：在微调过程中，通过对少量标注数据的训练，对预训练模型的参数进行微小的调整，使其更适合特定任务。常见的微调方法包括：

全层微调：调整所有层的参数。

部分层微调：仅调整部分层的参数，保留其他层的参数不变。

冻结部分层：冻结某些层的参数，仅调整新添加的层或特定层的参数。

评估模型性能：微调完成后，需要对大模型进行全面评估。评估内容包括性能、稳定性和准确性等，以确认模型是否符合设计要求。常用的评估方法包括：

使用实际数据或模拟场景进行测试。

比较模型在不同任务上的表现。

分析模型的推理速度和资源消耗。

部署与推理：评估和验证完成后，大模型就可以部署到生产环境中，用于推理任务。此时，模型的参数已经定型，不再变化，可以真正开始工作。推理过程就是用户通过提问或提供提示词（Prompt），让大模型回答问题或生成内容。

完整的流程图如下图所示：

总之，大模型在伦理、法律、社会和经济层面带来的挑战是多方面的，需要社会各界共同努力来解决。

通过完善法律法规、加强技术研发、提高公众意识等手段，可以在充分发挥大模型优势的同时，有效应对这些挑战，推动人工智能的健康发展。