1.引言
技术的发展,往往都是在技术人圈子里盛行。但是今天的技术,不仅仅是技术人才关注,它其实跟我们所有人都是相辅相成,给我们的日常生活带来了便利,增加了效率,让生活更美好!这才是技术发展真正的价值所在!
远的不说,单说当下,作为普罗大众的我们日常生活中的一天,出门在外是不是一个手机就解决了全部问题,不再像以前出门必备四要素:伸手要钱(身份证,手机,钥匙,钱包)。你看,这不就是技术发展带来的好处?要不说知识是第一生产力呢,用经济学的话术来说:生产力决定了生活水平。
眼下,大家都在玩大模型,有技术背景的朋友,有非技术背景的朋友,虽然每天都在玩比如DeepSeek,但是偶然听到或看到一些大模型领域的词语,总是不好理解,不知道什么意思。
今天我就通过一篇文章,从非技术人的视角力求帮助大家认知大模型,不仅要跟大模型玩,还要能玩的亲密。
2.概念解读
2.1.大模型
关于大模型,当下更多意义上指的是大语言模型LLM(Large Language Model)。之所以说"大",是从几个层面去考量:
- 参数规模大,上亿量级,比如DeepSeek 6710亿,GPT-3 1750亿,GPT-4 1.8万亿
- 架构规模大
- 训练数据集大
- 算力需求大
你看,大我们有了一定的具象化。但还是没有通俗意义上解释清楚大模型。从两个角度去看大模型
技术维度:
技术维度去看,大模型是一个应用程序,直白一些可以当作一个数学函数,比如(y = wx + b)。这里w是权重,b是偏置,w和b即指的是大模型的参数。x和y指数据样本,x是输入,y是输出。
如此一来,大模型的本质上是基于数学统计的一个函数,通过大量的数据训练学习世界规律,认知本质,基于学习到的知识做统计预测,完成任务。这也是我们为什么说大模型存在固有的缺陷:幻觉。毕竟是统计概率,讲概率那就有出错的可能。关于幻觉,一是胡说八道与事实不符的事实幻觉;一是讲的对,但与问题不相符词不达意的忠诚幻觉。
文字解释欠点意思,截图附一个我在本地训练模型的案例


如上图,你看到了,这不就是一个程序吗? 打比方:
从技术维度去看大模型,做技术的朋友应该没有什么问题了。非技术类的朋友可能还是不明所以。那我们来打个比方:你可以把大模型看成一个学生,然后相关的几个概念可以这么去类比
- 大模型:学生
- 训练的数据集:课本
- 预训练:学生学习的过程
- 算法:教学方法
- 模型评估:学生期中期末考试
- 推理:模型在实际应用中,解题的过程
- 泛化能力:模型处理训练数据以外新数据的预测能力
- 神经网络:模拟人脑认知的分层学习系统,比如CNN卷积神经网络(类似于视觉系统),RNN循环神经网络,当下主流模型的神经网络,是基于transformer架构
- 过拟合:书呆子,只是把课本内容和习题背下来了,稍微变换一下就不行
- 欠拟合:学渣,连课本内容是什么都不知道
- 蒸馏:知识迁移,通过学识渊博的老师,教会小学生。具体过程通过能力强大的教师模型,生成软标签(高质量问答数据集),用得到的高质量数据集对小模型进行全参数有监督训练,让学生模型拥有老师模型的超能力。这也是你看到的DeepSeek系列出了不少蒸馏模型(模型名称中包含distill)
- 剪枝:消除冗余,去掉大模型部分参数或层结构。目的是给大模型瘦身,让大模型保持一定能力的前提下减小体积
- 量化:量化即压缩,大模型本质由不同结构组成,这些结构本质上是浮点数矩阵,大模型的计算其实就是浮点数矩阵的运算。这样讲你差不多就懂了,浮点数运算要更消耗内存和计算资源,如果把精度降低一下,比如极端点通过整数运算,是不是能更省资源?你看这就是量化
- 微调:在基座模型的基础上,通过行业知识(Know-how)投喂,让大模型成为专业领域的专家,比如针对具体的行业(金融,医疗,法律,教育),即我们常说的行业大模型的由来
- 词嵌入:将文本转换成一系列数字(向量),形成一个数字空间,既包含词自身含义也包含上下文关系。比如
shell
国王--->[1.2,0.5,3.1,...]
皇帝--->[1.3,0.6,2.9,...]
苹果--->[0.9,-1.2,0.3,...]
之所以要数值化,是因为计算机的本质智能理解和处理数字。
2.2.提示词
提示词(Prompt)是我们与大模型交流的语言,大模型能不能懂你,顺利完成你给它的任务,取决于你的表达能力和表达方式。你看,你得把大模型当人看!
在提示词工程中,提示词有四个基本要素:
- 指令:任务描述说明,要清晰,明确。避免含糊不清
- 上下文:提供背景信息,比如角色扮演
- 输入:具体要大模型完成的问题或任务(输入数据)
- 输出:目标要求,比如输出格式,语气,字数限制等
有人还总结了提示词一般意义上的框架:
- 立角色:比如我是一个电商设计师/数学老师...
- 述问题(大致需求):画面以一对xx为主,场景在xx,展示xx分为...
- 定目标(主题,应用场景):需要为情人节/双11/24节气/...;设计一款运营/促销/宣传海报/...
- 提要求:必须要有.../不能出现.../给出xx组不同的建议
你看到了,该框架和四要素基本一一对应:
- 指令:定目标
- 上下文:立角色
- 输入:述问题
- 输出:提要求
吴恩达老师在他的提示词工程课程中,给了我们两条基本原则:
- 写出清晰而具体的指示
- 给模型思考的时间
同样OpenAI官方给出的提示词工程原则:
- 写清晰的指示
- 给模型提供参考
- 将复杂任务拆分成子任务
- 给GPT时间思考
- 使用外部工具
- 反复迭代问题
不管从哪个角度,综合来看以上大意一致:清晰,具体,一步一步来,把模型当人看!
在具体使用过程中,我们针对不同类型的大模型要区分对待一下,比如DeepSeek-V3通用模型,相当于文科生;DeepSeek-R1推理模型,相当于理科生。文科生和理科生的区别,在于逻辑思维推导能力上。
针对文科生模型,要有感性的认识,给它思考的时间,一步一步来,甚至于可以考虑给一些示例,比如Few-shot少样本提示,COT思维链,下面是一个通用模板:
shell
#1.给大模型赋予角色和能力
#2.说明用户的角色和处境
#3.简单语言指示大模型要完成的任务
#4.指定输入内容
#5.指定输出格式
#6.指定大模型回复语言风格(也可以通过一定参考范例代替)
示例:简单提示词。虽然模型给了一份计划,但不尽如人意。

友情提示,使用DeepSeek,默认情况下使用DeepSeek-V3模型。即我们说的文科生模型,如果选中:深度思考,即我们说的理科生模型。
示例:优化一下提示词。


我们看到,优化提示词后,大模型给出的计划,可执行度高了很多。 针对理科生模型,我们要把它当专家看待,问问题要直截了当,直观达意,万能提示词模板:
shell
#1.先提问推理模型获得结果(这一步可以多重复几次,选取出现次数最多的结果作为大模型的回答)
#2.上述方法无效,加入样本提示,尝试1-5个样本
#3.样本方式无效,尝试零样本思维链
#4.零样本思维链无效,尝试加入思维链中间过程
示例: 我去市场买了10个苹果,我给了邻居2个苹果和修理工2个苹果,然后我去买了5个苹果并吃了1个,我还剩下多少苹果?让我们逐步思考



我们看到这就是推理模型强大的地方,它可以自己一步一步推导逻辑分析,得出正确结果。
2.3.智能体
业界对AI的发展大体有一个共识:通用人工智能(AGI)。大模型是最初被认为通往AGI的发展路径,但是随着进一步发展,大模型基因中存在固有的问题,比如说:
- 没有记忆能力,上下文窗口有限制
- 知识更新不及时,新旧知识分不清楚
- 难以与外部现有系统打通交互
- 针对专业领域问题,不能保证给出可靠的答案
这一切的根源之所以说是基因中固有,都源于大模型通过预训练,以及概率统计驱动的事实。也因此,要通往AGI需要另一条路径,即智能体。
那什么是智能体Agent呢?
Agent是能够感知环境,自主决策,执行动作完成目标任务的智能系统,具有自主性,适应性,交互性,学习能力等特征。
你看,这不就是人类自身吗?能够感知环境,做出决策,拆解并完成目标任务。
我们看一下Agent框架拆解:LLM + 规划 + 记忆 + 工具,示例图如下:

LLM是大脑,保障下限,Agent提高上限,终极发展目标实现AGI!
再看一个图,可以更好的理解当下我们与AI的交互方式:

三种模式描述:
- 嵌入式Embedding模式:比如你手机上的Siri,可以给你提供一些建议性质的辅助信息,除此之外任务要我们自己完成
- 副驾驶Copilot模式:可以初步替代完成部分任务,最终我们自己要修改确认
- Agent模式:我们只需要提出目标,提供资源,任务由AI全权自主完成,最终我们监督执行结果就好。你看,这不等价于以后我们每个人不管是不是做老板,但都能有一个"小秘"了吗
文章到这里基本上让大家能够理解当下大模型领域的一些热门概念了,后续文章出一些智能体开发框架,和模型训练微调的文章,会偏技术一些。