什么是大语言模型?
大语言模型就是基于深度学习技术,通过大量的文本数据上训的参数量模型,学习人类语言的结构、规则和语义知识,从而实现自然语言的理解、处理与生成。简单来说,它就像一个"超级语言学霸"------通过阅读互联网上几乎所有公开文本,掌握了人类语言的底层逻辑,进而能完成问答、创作、翻译等多种任务。
大语言模型的发展
大模型的爆发并非偶然,而是近十年技术迭代的必然结果。从参数规模的增长曲线(单位:B),能清晰看到其进化轨迹:
| 时间 | 关键突破 | 参数规模 | 核心贡献 |
|---|---|---|---|
| 2017年 | Transformer架构提出 | - | Attention机制问世,解决了传统RNN/CNN的序列依赖问题,为大模型奠定基础 |
| 2018年 | GPT-1 | 0.117B | 采用解码器架构,开启预训练大模型时代 |
| 2019年 | GPT-2/T5 | 1.5B/11B | T5首次将所有任务统一为Text2Text,简化模型适用场景 |
| 2020年 | GPT-3 | 175B | 提出In-Context Learning(上下文学习),无需微调即可完成新任务 |
| 2022-2023年 | ChatGPT/GPT-4 | 175B/1800B | ChatGPT实现自然对话交互;GPT-4成为首个多模态大模型,支持32K长文本 |
| 2024年至今 | GPT-4o/Deepseek-r1 | 未公布/671B | 性能与推理速度大幅优化;中国大模型开源生态初步建立 |
大模型适用场景
适用场景
- 语义理解:能精准处理长文本、消解歧义、完成多轮交互。比如面对"银行对面有一家苹果的专卖店",能准确判断"苹果"指品牌而非水果。
- 内容生成:可基于提示生成文本、代码、诗歌等多种内容。例如输入"生成大模型相关的藏头诗",能快速联想生成符合要求的内容。
- 逻辑推理:具备基础的逻辑推断能力。比如回答"荷花和菊花哪个生长环境湿度大",能准确分析两者生长习性并给出结论。
- 知识应用:如果能够提供较为合理的知识给大模型,那么大模型可以根据这些知识回答一些比较靠谱的知识的总结和回复。
存在的问题
- 易产生幻觉:大模型在总结时,由于具有一定的随机性,因此可能会产生一些错误,称之为幻觉。
- 专业运算能力弱:对数学运算、精准推理不擅长。比如会错误判断"9.11比9.8大",或误将"numbers"拆分为6个字母(实际为7个)。这是由于大模型的生成是基于文本出现的概率来生成的,因此它并不具备数学计算的能力。
- 复读机问题:在上下文不足时,会重复单词、短语或已表达的观点,影响输出质量。
大模型使用基础
前文提到的幻觉、复读机问题,是落地的核心障碍。以下是经过实践验证的解决方案,按"难度+效果"分级:
幻觉问题解决
| 策略 | 具体措施 |
|---|---|
| 提示词工程 | 设计精准指令,引导模型生成符合事实的内容 |
| 少样本学习 | 提供1-5个"输入-输出"示例,让模型理解任务模式 |
| 自我反思 | 通过"生成-反馈-细化"迭代优化输出 |
| RAG(检索增强生成) | 生成答案前先检索外部知识库,弥补模型知识不足 |
| 指令微调 | 用高质量标注数据进行微调训练 |
复读机问题解决
| 策略 | 具体措施 |
|---|---|
| 提示词工程 | 提供丰富上下文,明确要求避免重复 |
| 工程化处理 | 生成后通过后处理检测并删除重复内容 |
| 策略参数优化 | 调整frequency_penalty等参数,鼓励词汇多样化 |
| 指令微调 | 用无重复的高质量数据微调模型 |
常用参数
temperature(温度)
- 核心逻辑 :相当于「给模型的随机性调音量」。数值越高(0→2),模型越不"较真"概率高低,低概率的词也可能被选;数值越低(趋近0),模型越只选概率最高的词,输出越固定。
可以理解为:温度=0 是"按标准答案念",温度=2 是"放飞自我瞎聊"。 - 示例 :
问模型:"早餐吃什么?"- temperature=0.1(极低):每次都只输出"建议吃鸡蛋、牛奶、全麦面包,营养均衡"(唯一答案);
- temperature=1.5(较高):可能输出"可以吃豆浆油条,或者小笼包配粥,甚至偶尔试试三明治也不错""早上吃点馄饨吧,暖和又管饱"(每次答案都不一样)。
- 适用场景 :
- 低温度(0.1-0.5):需要精准、固定答案的场景(如:API接口返回固定格式、知识问答的标准答案、代码生成);
- 高温度(0.8-1.5):需要创意、多样输出的场景(如:写文案、编故事、头脑风暴)。
top_k(前K个候选)
- 核心逻辑 :先给所有可能的下一个词按概率排序,只从「概率最高的前K个词」里选。K越大,候选池越大,多样性越高;K=1时,只选概率最高的词(和temperature=0效果接近)。
可以理解为:top_k=5 是"从最靠谱的5个答案里挑一个",top_k=100 是"从100个答案里挑一个"。 - 示例 :
问模型:"周末去哪玩?"- top_k=3(极小):候选词只有"公园、商场、电影院",输出只能从这三个里组合("周末可以去公园散步,或者去商场逛街");
- top_k=20(较大):候选词包括"公园、商场、电影院、爬山、露营、探店、看展...",输出会更丰富("周末可以去郊区爬山,或者约朋友露营,小众展馆也值得逛逛")。
- 适用场景 :
- 低top_k(1-10):需要可控、不跑偏的场景(如:客服话术、固定流程的回复);
- 高top_k(50-100):需要更多可能性的场景(如:旅游攻略推荐、创意写作)。
top_p(核采样/累积概率)
- 核心逻辑 :先把所有候选词按概率从高到低排,然后累加概率,直到总和≥top_p,只从这些词里选。top_p越小,候选池越窄(只选概率极高的词);top_p=1时,相当于不限制(选所有词)。
区别于top_k的"固定数量",top_p是"动态数量(按概率阈值)"------比如top_p=0.7,可能前5个词的概率和就到0.7,也可能前10个才到。 - 示例 :
问模型:"送朋友生日礼物选什么?"- top_p=0.5(极低):只选概率前50%的词("口红、香水、杯子、笔记本"),输出很保守("送口红或香水都不错,实用的杯子也可以");
- top_p=0.9(较高):选概率前90%的词(包含小众礼物),输出更多样("可以送手工相册、小众香薰,或者定制的钥匙扣,甚至体验类的DIY券也很好")。
- 适用场景 :
- 低top_p(0.5-0.7):需要输出"主流、不出错"的场景(如:大众商品推荐、通用问答);
- 高top_p(0.8-0.95):需要兼顾主流+少量小众的场景(如:个性化礼物推荐、创意点子)。
frequency_penalty(频率惩罚)
- 核心逻辑 :和前三个完全不同------它不限制候选词范围,而是"惩罚已经出现过的词/句子"。数值越高(0→2),模型越不愿意重复使用之前说过的词/内容,从而避免重复啰嗦 ,间接提升多样性。
可以理解为:frequency_penalty=0 是"想到啥说啥,重复也没关系";frequency_penalty=1.5 是"说过的词尽量别再用,换个说法"。 - 示例 :
让模型写一段"介绍苹果手机的文案":- frequency_penalty=0(无惩罚):可能重复啰嗦("苹果手机的拍照很好,苹果手机的续航也不错,苹果手机的系统很流畅");
- frequency_penalty=1.2(高惩罚):会替换重复词,更多样("这款苹果机型的拍照表现出色,续航能力也有提升,搭载的iOS系统更是流畅丝滑")。
- 适用场景 :
- 低frequency_penalty(0-0.3):短文本、无需避免重复的场景(如:短句问答、关键词提取);
- 高frequency_penalty(0.8-1.5):长文本、容易重复的场景(如:写文章、写文案、多轮对话)。
二、关键补充:参数组合使用
实际使用中,很少单独用一个参数,常见组合:
- 精准输出:temperature=0.2 + top_k=5 + top_p=0.6 + frequency_penalty=0.1(比如:代码生成、知识问答);
- 创意输出:temperature=1.0 + top_k=50 + top_p=0.9 + frequency_penalty=0.8(比如:写故事、头脑风暴)。
核心术语
| 术语 | 核心解释 |
|---|---|
| 提示词 | 提给大模型的问题,根据提示词设计的方式,可分为系统提示词和用户提示词。设计合理的系统提示词和用户提示词,可提高大模型的输出效果 |
| One-Shot/Few-Shot | One-Shot:提供1个示例引导模型;Few-Shot:提供多个示例,适配复杂任务 |
| RAG | 生成答案前先检索外部知识库,提升输出准确性和时效性 |
| AI智能体 | 以大模型为"大脑",能感知环境、规划决策、调用工具实现目标的系统 |
| 思维链 | 要求模型输出最终答案前,先展示一步步的推理过程,提升结果可信度 |
| 幻觉 | 模型生成看似合理但与事实不符的虚假信息 |
| MaaS | 模型即服务,通过云端API提供大模型调用,开发者无需关心底层基础设施 |