LLM背景知识介绍:大语言模型
大语言模型 Large Language Model 是一种基于深度学习的自然语言处理的人工智能模型,旨在理解和生成人类语言,通常使用Transformer架构,通过大规模的数据训练,具备文本理解,生成,推理,对话等能力。大语言模型可以处理多种自然语言任务,如文本分类,问答,翻译,对话等。
通常,大语言模型LLM是指包含数千亿(或更多)参数的语言模型(目前定义参数量超过10B的模型为大语言模型),这些参数是在大量文本数据上训练的,例如模型GPT-3,ChatGPT,GLM,BLOOM 和LLaMa等
1 开源 2闭源 开源模型与闭源模型哪个好?
理论上是 闭源模型好。
闭源模型: claude gemini 2.5 gpt o3 o3 pro
开源好的原因好:
1 开源 2 效果好 接近在某些场景超过闭源模型 3 便宜 训练工程化
国内开源模型:
qwen,deepseek
大语言模型发展的几个阶段:三个阶段:
闭源模型的缺点:
1.token 费用
2.数据不安全,有些闭源模型也可以微调
MVP阶段:最小功能验证版本
项目验证阶段初期:可以先选择闭源API来做,如果用了闭源模型,效果不好,那么开源的效果会好吗?肯定不会的
数据不出域,只能用开源模型,自己部署
高性能闭源模型MVP 换成开源,效果不太好,训练,微调;一边开发一边等开源模型升级,等更好的开源模型,一般3个月左右升级了。
闭源试错,快速出mvp版本,逐渐替换成性价比高的
大语言模型发展的四个阶段:
1.基于 规则和统计的语言模型
在实践中,用的最多的就是bigram 域 trigram。
OOV out of vector 超出词表
Cursor 需要花钱
Claude code
通义灵码
claude code 国内可以用的, 据说套deepseek
talk is cheap show me your code!
code is cheap, show me your talk!
https://blog.csdn.net/loongggdroid/article/details/148937133
2.神经网络语言模型

word Embedding 词嵌入

长序列建模能力只能缓解,LSTM
串行训练
梯度消失
梯度爆炸
越往前的Token,模型越记不住。
输入门,输出门,遗忘门
最大的问题是不能并行计算,不能充分使用GPU
3.预训练语言模型

4.大语言模型

长距离 窗口
泛华能力
OOV解决了
各种语言模型对比:

什么是大语言模型?
指包含数千亿(或更多)参数的语言模型
语言模型的主要类别是什么?
N-Gram
神经网络
预训练模型
大语言模型
常用的G-Gram语言模型是什么?
bigram
trigram
语言模型的评估指标
常用指标
Accuracy:准确率 模型预测正确的样本数量占总样本量的比例。
Precision 精确率 在被识别为正类别的样本中,为正类别的比例
Recall 召回率 在所有正类别样本中,被正确识别为正类别的比例
F1-Score 精确率 和 召回率的调和平均数
混淆矩阵
评估方法:
关于大语言模型的评估主要用什么评估? 人工
BLEU:

BLEU代码验证:
from
ROUGE:

ROUGE代码验证:
从统计学角度进行计算,没有考虑语义,ROUGE 与 BLEU;
from rouge import Rouge
困惑度PPL
perplexity
PPL代码验证:
from
总结:
BLEU,ROUGE,PPL 是评估语言模型常用的几个指标。
1.语言模型的评估指标是什么?
Accuracy
Precision
Recall
BLEU
ROUGE
PPL
2.怎么理解BLEU指标?
评估一种语言翻译成另一种语言的文本质量的指标,取值范围为【0,1】,越接近1,表面翻译质量越好。
3.怎么理解ROUGE指标?
ROUGE 指标用来衡量生产结果 和 标准结果的匹配程度,不同的是ROUGE基于召回率,BLEU更看重准确率。
4.怎么理解PPL指标?
PPL用来度量一个概率分布或概率模型预测样本的好坏程度。
总结: 大模型的两大阵营:
从模型开闭来分:
开源模型 llama qwen,deepseek,ChatGLM ,
闭源模型 ChatGPT claude gemini
从技术路线来分: 基于Transformer
Encoder
Decoder only 大部分模型的路线
Encoder - Decoder
scaling law 涌现能力:
大模型的发展阶段:
(1)规则统计大模型: 上下文窗口,数据稀疏,泛化能力差
(2)神经网络语言模型 RNN
(3)Transformer 预训练语言模型
(4)LLM 大模型语言模型
评估指标:
准确率
精准,召回
F1-Score
BLEU,ROUGE 从统计的角度去评估模型的效果,对语义没有理解,计算比较快
文章摘要任务 BLEU,ROUGE 用哪个更好? ROUGE
PPL 困惑度
LLM 主要的架构

自编码模型:Encoder-Only模型