001大模型基础知识

LLM背景知识介绍:大语言模型

大语言模型 Large Language Model 是一种基于深度学习的自然语言处理的人工智能模型,旨在理解和生成人类语言,通常使用Transformer架构,通过大规模的数据训练,具备文本理解,生成,推理,对话等能力。大语言模型可以处理多种自然语言任务,如文本分类,问答,翻译,对话等。

通常,大语言模型LLM是指包含数千亿(或更多)参数的语言模型(目前定义参数量超过10B的模型为大语言模型),这些参数是在大量文本数据上训练的,例如模型GPT-3,ChatGPT,GLM,BLOOM 和LLaMa等

1 开源 2闭源 开源模型与闭源模型哪个好?

理论上是 闭源模型好。

闭源模型: claude gemini 2.5 gpt o3 o3 pro

开源好的原因好:

1 开源 2 效果好 接近在某些场景超过闭源模型 3 便宜 训练工程化

国内开源模型:

qwen,deepseek

大语言模型发展的几个阶段:三个阶段:

闭源模型的缺点:

1.token 费用

2.数据不安全,有些闭源模型也可以微调

MVP阶段:最小功能验证版本

项目验证阶段初期:可以先选择闭源API来做,如果用了闭源模型,效果不好,那么开源的效果会好吗?肯定不会的

数据不出域,只能用开源模型,自己部署

高性能闭源模型MVP 换成开源,效果不太好,训练,微调;一边开发一边等开源模型升级,等更好的开源模型,一般3个月左右升级了。

闭源试错,快速出mvp版本,逐渐替换成性价比高的

大语言模型发展的四个阶段:

1.基于 规则和统计的语言模型


在实践中,用的最多的就是bigram 域 trigram。

OOV out of vector 超出词表

Cursor 需要花钱

Claude code

通义灵码

claude code 国内可以用的, 据说套deepseek

talk is cheap show me your code!

code is cheap, show me your talk!
https://blog.csdn.net/loongggdroid/article/details/148937133

2.神经网络语言模型

word Embedding 词嵌入

长序列建模能力只能缓解,LSTM

串行训练

梯度消失

梯度爆炸

越往前的Token,模型越记不住。

输入门,输出门,遗忘门

最大的问题是不能并行计算,不能充分使用GPU

3.预训练语言模型
4.大语言模型

长距离 窗口

泛华能力

OOV解决了

各种语言模型对比:

什么是大语言模型?

指包含数千亿(或更多)参数的语言模型

语言模型的主要类别是什么?

N-Gram

神经网络

预训练模型

大语言模型

常用的G-Gram语言模型是什么?

bigram

trigram

语言模型的评估指标

常用指标

Accuracy:准确率 模型预测正确的样本数量占总样本量的比例。

Precision 精确率 在被识别为正类别的样本中,为正类别的比例

Recall 召回率 在所有正类别样本中,被正确识别为正类别的比例

F1-Score 精确率 和 召回率的调和平均数

混淆矩阵



评估方法:

关于大语言模型的评估主要用什么评估? 人工

BLEU:

BLEU代码验证:

复制代码
from 
ROUGE:

ROUGE代码验证:

从统计学角度进行计算,没有考虑语义,ROUGE 与 BLEU;

复制代码
from rouge import  Rouge
困惑度PPL

perplexity

PPL代码验证:

复制代码
from
总结:

BLEU,ROUGE,PPL 是评估语言模型常用的几个指标。

1.语言模型的评估指标是什么?

Accuracy

Precision

Recall

BLEU

ROUGE

PPL

2.怎么理解BLEU指标?

评估一种语言翻译成另一种语言的文本质量的指标,取值范围为【0,1】,越接近1,表面翻译质量越好。

3.怎么理解ROUGE指标?

ROUGE 指标用来衡量生产结果 和 标准结果的匹配程度,不同的是ROUGE基于召回率,BLEU更看重准确率。

4.怎么理解PPL指标?

PPL用来度量一个概率分布或概率模型预测样本的好坏程度。

总结: 大模型的两大阵营:

从模型开闭来分:

开源模型 llama qwen,deepseek,ChatGLM ,

闭源模型 ChatGPT claude gemini

从技术路线来分: 基于Transformer

Encoder

Decoder only 大部分模型的路线

Encoder - Decoder

scaling law 涌现能力:

大模型的发展阶段:

(1)规则统计大模型: 上下文窗口,数据稀疏,泛化能力差

(2)神经网络语言模型 RNN

(3)Transformer 预训练语言模型

(4)LLM 大模型语言模型

评估指标:

准确率

精准,召回

F1-Score

BLEU,ROUGE 从统计的角度去评估模型的效果,对语义没有理解,计算比较快

文章摘要任务 BLEU,ROUGE 用哪个更好? ROUGE

PPL 困惑度


LLM 主要的架构

自编码模型:Encoder-Only模型