
🔥承渊政道: 个人主页
❄️个人专栏: 《C语言基础语法知识》 《数据结构与算法》 《C++知识内容》 《Linux系统知识》 《算法刷题指南》 《测评文章活动推广》 《大模型语言路线学习》 《MySQL数据库学习》
✨逆境不吐心中苦,顺境不忘来时路!✨ 🎬 博主简介:

在人工智能快速演进的今天,大语言模型已经从前沿研究逐渐走向真实业务场景,成为智能问答、内容生成、代码辅助、知识库检索等应用的核心能力.然而,对于许多开发者而言,大模型依然像一个"黑箱":我们知道它强大,却不一定清楚它是如何构建、如何训练,又该如何针对具体任务进行高效微调.本文将以"从零开始"为主线,围绕大模型开发与微调的完整流程展开,结合 PyTorch 的灵活深度学习能力与 ChatGLM 的中文大模型实践基础,带你一步步理解大模型背后的关键技术.从模型结构、数据处理、训练流程,到参数高效微调、推理部署与应用落地,我们将尽量用清晰的思路拆解复杂概念,让大模型开发不再停留在理论层面,而是成为可以动手实践、持续优化的工程能力.新时代的人工智能浪潮已经到来.掌握大模型的开发与微调,不仅意味着理解当下最重要的技术趋势,也意味着拥有构建下一代智能应用的入场券.希望通过本文,你能够建立起对大模型开发体系的整体认知,并迈出从使用大模型到改造大模型、再到构建专属智能系统的第一步.随着深度学习、大模型等关键技术的深入发展,以ChatGPT诞生和更强的ChatGLM爆发为新起点,人工智能将快速迈入下一个"未知"的阶段."废话不多说,下面跟着小编的节奏🎵一起去疯狂的学习吧!

目录
- [1. 为什么大语言模型值得被认真讨论](#1. 为什么大语言模型值得被认真讨论)
-
- 1.1人工智能:思维与实践的融合
- 1.2大模型开启人工智能的新时代
-
- 1.2.1大模型带来的变革
- [1.2.2最强的中文大模型------清华大学 ChatGLM 介绍](#1.2.2最强的中文大模型——清华大学 ChatGLM 介绍)
- 1.2.3近在咫尺的未来------大模型的应用前景
- [2. LLM 的基本能力来自哪里](#2. LLM 的基本能力来自哪里)
-
- [2.1最大的争议:LLM 到底有没有"理解"或"意识"](#2.1最大的争议:LLM 到底有没有“理解”或“意识”)
- 2.2"中文房间"与落地问题:只会操作符号够不够
- [2.3世界模型:LLM 是表面统计,还是学到了世界结构](#2.3世界模型:LLM 是表面统计,还是学到了世界结构)
- 2.4沟通意图:会回答不等于有目的地交流
- 2.5系统性与泛化:模型能不能真正组合概念
- 3.未来方向:从会说话的模型到会行动的智能体
- 4.对开发者和研究者的启发
- 5.总结
1. 为什么大语言模型值得被认真讨论
过去十年里,大语言模型(Large Language Model, LLM)几乎是机器学习领域最具影响力的技术突破之一.它们不再只是实验室里的文本补全器,而是逐渐变成了能对话、写作、推理、编程、解释问题、辅助决策的通用型智能接口.
一个重要背景:自然语言理解长期被视为人工智能的高峰,因为语言不仅是信息传递工具,也是人类思维、社会协作和知识积累的核心媒介.能够稳定处理语言,意味着机器开始触及人类智能中非常关键的一层.
人工智能(Artificial Intelligence, AI),起源于对人类自身智慧的深入挖掘,对人的意识、思维的信息过程的模拟.今时今日,人工智能不但是科幻电影中快速发展的"遐想景象",它已成为深刻广泛的"客观现实",在减轻人类体力负担和脑力负担方面已拥有迅猛发展趋势,比肩甚至超越人类的某些智能活动.
随着深度学习、大模型等关键技术持续深入发展,以 ChatGPT 诞生和更强的 ChatGLM 释放为标志,人工智能将继续迈入下一个"爆发期"的阶段.
大语言模型的应用场景已经远远超过"聊天"本身:
- 在医疗中,它们可以帮助分析病例、医学文献和诊疗信息.
- 在金融中,它们可以辅助分析市场、新闻和风险信号.
- 在教育中,它们可以根据学生情况生成个性化讲解与练习.
- 在营销和内容生产中,它们能快速生成文案、创意和用户沟通材料.
- 在生命科学中,类似语言建模思想还可以用于蛋白质、DNA、化学结构等序列或结构数据.
- 在机器人和智能体系统中,语言模型可以成为任务规划、环境理解和人机交互的一部分.
也就是说,LLM 的真正意义不只是"能写一段像人写的文字",而是它们正在成为连接知识、工具、任务和行动的中间层.
#mermaid-svg-ecy8OTVhssQBf9jz{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-ecy8OTVhssQBf9jz .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-ecy8OTVhssQBf9jz .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-ecy8OTVhssQBf9jz .error-icon{fill:#552222;}#mermaid-svg-ecy8OTVhssQBf9jz .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-ecy8OTVhssQBf9jz .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-ecy8OTVhssQBf9jz .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-ecy8OTVhssQBf9jz .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-ecy8OTVhssQBf9jz .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-ecy8OTVhssQBf9jz .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-ecy8OTVhssQBf9jz .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-ecy8OTVhssQBf9jz .marker{fill:#333333;stroke:#333333;}#mermaid-svg-ecy8OTVhssQBf9jz .marker.cross{stroke:#333333;}#mermaid-svg-ecy8OTVhssQBf9jz svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-ecy8OTVhssQBf9jz p{margin:0;}#mermaid-svg-ecy8OTVhssQBf9jz .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-ecy8OTVhssQBf9jz .cluster-label text{fill:#333;}#mermaid-svg-ecy8OTVhssQBf9jz .cluster-label span{color:#333;}#mermaid-svg-ecy8OTVhssQBf9jz .cluster-label span p{background-color:transparent;}#mermaid-svg-ecy8OTVhssQBf9jz .label text,#mermaid-svg-ecy8OTVhssQBf9jz span{fill:#333;color:#333;}#mermaid-svg-ecy8OTVhssQBf9jz .node rect,#mermaid-svg-ecy8OTVhssQBf9jz .node circle,#mermaid-svg-ecy8OTVhssQBf9jz .node ellipse,#mermaid-svg-ecy8OTVhssQBf9jz .node polygon,#mermaid-svg-ecy8OTVhssQBf9jz .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-ecy8OTVhssQBf9jz .rough-node .label text,#mermaid-svg-ecy8OTVhssQBf9jz .node .label text,#mermaid-svg-ecy8OTVhssQBf9jz .image-shape .label,#mermaid-svg-ecy8OTVhssQBf9jz .icon-shape .label{text-anchor:middle;}#mermaid-svg-ecy8OTVhssQBf9jz .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-ecy8OTVhssQBf9jz .rough-node .label,#mermaid-svg-ecy8OTVhssQBf9jz .node .label,#mermaid-svg-ecy8OTVhssQBf9jz .image-shape .label,#mermaid-svg-ecy8OTVhssQBf9jz .icon-shape .label{text-align:center;}#mermaid-svg-ecy8OTVhssQBf9jz .node.clickable{cursor:pointer;}#mermaid-svg-ecy8OTVhssQBf9jz .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-ecy8OTVhssQBf9jz .arrowheadPath{fill:#333333;}#mermaid-svg-ecy8OTVhssQBf9jz .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-ecy8OTVhssQBf9jz .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-ecy8OTVhssQBf9jz .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-ecy8OTVhssQBf9jz .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-ecy8OTVhssQBf9jz .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-ecy8OTVhssQBf9jz .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-ecy8OTVhssQBf9jz .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-ecy8OTVhssQBf9jz .cluster text{fill:#333;}#mermaid-svg-ecy8OTVhssQBf9jz .cluster span{color:#333;}#mermaid-svg-ecy8OTVhssQBf9jz div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-ecy8OTVhssQBf9jz .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-ecy8OTVhssQBf9jz rect.text{fill:none;stroke-width:0;}#mermaid-svg-ecy8OTVhssQBf9jz .icon-shape,#mermaid-svg-ecy8OTVhssQBf9jz .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-ecy8OTVhssQBf9jz .icon-shape p,#mermaid-svg-ecy8OTVhssQBf9jz .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-ecy8OTVhssQBf9jz .icon-shape .label rect,#mermaid-svg-ecy8OTVhssQBf9jz .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-ecy8OTVhssQBf9jz .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-ecy8OTVhssQBf9jz .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-ecy8OTVhssQBf9jz :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 海量文本与多模态数据
预训练大语言模型
对话与写作
推理与问答
编程与工具调用
医疗/金融/教育/科研
机器人与智能体
1.1人工智能:思维与实践的融合
人工智能作为当今科技领域长足可期的研究领域之一,这种学科有着越来越多的关注.然而,人工智能并不是一蹴而就的产物,而是在不断发展、演变的过程中逐渐形成的.从最初的人工智能,是一个漫长而又不断迭代的进程.
人工智能从标准的定义来看,是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统.
在大多数人的理解中,人工智能是一位聪明的助手,可以实现对工作过程的信息化,提升工作效率.比如执行与人类智能有关的行为,如判断、推理、证明、识别、感知、预测、设计、思考、规划、学习和问题求解等思维活动.
单与其工具属性相对,能力被赋予;人工智能更重要的是一种思想和工具,运用将连接桥接人与其他人类现实知识之间的"认知"沟通与智慧,如"学习"和"解决问题".
而其中最引人注目的当属生成式人工智能(Generative Artificial Intelligence),这是一种基于机器学习技术的人工智能系统,其目的是通过学习大量数据和模式,生成新的、原创的内容.这些内容可以是文本、图像、音频或者视频等多种形式.生成式人工智能通常采用深度学习模型,如循环神经网络(Recurrent Neural Network, RNN)、变分自编码器(Variational Auto Encoder, VAE)等.生成式人工智能的应用包括文本生成、图像生成、语音合成、自动绘制和虚拟现实等领域,具有广泛的应用前景.
1.1.1人工智能的历史与未来
人工智能作为一门跨学科的研究领域,经历了多年的发展和起落.自 20 世纪 50 年代起,人工智能研究已成为计算机科学、数学、哲学、心理学等多个学科的交叉领域.随着技术的不断发展和应用场景的不断拓展,人工智能也逐渐成为一种强大的工具和智能化的基础设施.
早期的人工智能主要集中在专家系统、规则引擎和逻辑推理等领域.其中,专家系统是一种基于知识和规则的系统,能够模拟人类专家的思维和决策过程,用于解决各种复杂的问题.随着信息数字环境的泛化,人工智能进入了一个新的发展阶段.深度学习是一种基于神经网络的机器学习方法,能够自动地学习和发现数据中的特征,实现对复杂模式的识别和分类,适用于图像识别、语音识别、自然语言处理等领域.
人工智能产业在 20 世纪 50 年代提出后,囿于当时的技术实现能力,只局限于理论为主的讨论,而真正开始爆发是在 2012 年的 AlexNet 模型问世.
1.人工智能 1.0 时代(2012---2015 年)
人工智能概念于 1956 年提出,AI 产业的第一轮爆发源自2012 年.2012 年,AlexNet 模型开启了卷积神经网络(Convolutional Neural Network, CNN)在图像识别领域的应用;2013年前后,图像识别网络的准确率开始接近人类水平,开启了计算机视觉技术在各行各业的应用,带来了人工智能应用时代的创新周期.AI 开始赋能各行各业,推动效率提升.因此,人工智能 1.0 时代需结合物联网等泛化,AI 泛化能力仍不足够成熟.
2.人工智能 2.0 时代(2017 年)
2017 年,Google Brain 团队提出 Transformer 架构,奠定了大模型发展的主要理论基础.从 2018 年开始,大模型加速迭代.2018年,谷歌团队的模型参数量在百万级别,至 2022 年模型参数达到千亿级别,模型参数呈指数级增长."预训练+微调"的大模型有望突破传统 AI 泛化能力不足的困境,新一代 AI 技术有望开启全新一轮的技术创新周期.
当前,人工智能的应用场景已经涵盖了生活的各个领域.在医疗领域,人工智能可以帮助医生进行诊断和治疗决策,提高医疗服务效率和质量.在金融领域,人工智能可以进行风险管理和投资分析,提高金融服务的质量和效率.在交通领域,人工智能可以进行交通管控和路线规划,提高交通安全和效率.在智能家居领域,人工智能可以进行智能家居控制和环境监测,提高家庭生活品质和安全性.此外,人工智能还可以应用于教育、娱乐、军事等多个领域,为人类社会的发展带来了无限的可能性.
总之,从思想的人工智能是一个漫长而又不断演化的过程.人工智能会继续发展,成为推动人类社会进步的重要力量.
1.1.2深度学习与人工智能
深度学习是人工智能的方法和技术体系,属于机器学习的一种.它通过构建多层神经网络实现对复杂数据的自动识别和分类,进而实现对图像、语音、自然语言等数据的深层次处理和分析.深度学习的出现标志着人工智能研究的一个新阶段.
传统的机器学习算法(如决策树、支持向量机等)主要依赖于人工选择和提取特征,然后将这些特征输入模型中进行训练和分类.深度学习通过构建多层神经网络来模仿人类的自适应学习,大大提高了数据的特征表示和建模能力.因此,深度学习已成为当前人工智能研究中最重要的方向之一.
深度学习的核心是神经网络,它可以被看作是由许多简单的神经元组成的网络.这些神经元可以接收输入并产生输出,通过学习不同的权重来实现不同的任务.深度学习的"深度"指的是神经网络的层数,即多层神经元的堆叠.在多层神经网络中,每一层的输出都是下一层的输入,每一层都有其独立的特征层次,从而完成更具复杂性的任务.
深度学习在人工智能领域的优势体现在强大的表征学习能力.深度学习能捕获输入数据中学习到的抽象特征表示和层次结构.深度学习可以自动学习到数据的特征表示,并从中提取出具有区分性的特征,从而实现对复杂任务分类、识别等任务.
深度学习的应用场景非常广泛.在图像识别方面,深度学习已经实现了人类水平的表现,并被广泛应用于人脸识别、图像分类、目标检测等领域.在自然语言处理方面,深度学习可以进行文本分类、情感分析、机器翻译等任务,并且已经在聊天机器人、智能客服等应用中得到了广泛运用.在语音识别方面,深度学习可以实现对语音的准确识别和转换,成为语音助手和智能家居的重要技术.
1.1.3选择PyTorch2.0实战框架
工欲善其事,必先利其器.接下来的文字选用 PyTorch 2.0 作为讲解的实战框架.
PyTorch 是一个 Python 开源机器学习库,它可以处理类似 NumPy 的张量运算,并使用 GPU 进行加速计算,方便用户进行快速实验和研究.PyTorch 由 Facebook 的人工智能研究小组于 2016 年发布,当时它是 Torch 的 Python 版本,目的是解决 Torch 在 Python 中使用不便之处.
Torch 是另一个开源机器学习库,它于 2002 年由 Ronan Collobert 创建,主要基于 Lua 编程语言.Torch 最初是为了研究自动学习的模型构建和实验而创建的,围绕神经网络构建,Torch 开始被广泛应用于计算机视觉、自然语言处理、强化学习等领域.
虽然 Torch 在机器学习领域得到了广泛应用,但是它在 Python 中的使用相对复杂.这也使得 Facebook 的人工智能研究小组开始着手开发 PyTorch.
在2016年,PyTorch 首次发布了 Alpha 版本,但是该版本的使用范围比较有限.直到 2017 年,PyTorch 正式发布 Beta 版本,这使得更多的用户可以使用 PyTorch 进行机器学习实验和研究.在 2018 年,PyTorch 1.0 版本正式发布,标志着 PyTorch 开始成为机器学习领域中最受欢迎的开源机器学习库之一.
在PyTorch Conference 2022上,PyTorch 官方正式发布了 PyTorch 2.0.PyTorch 2.0 引入了 Compiler 等技术,架构和此前相比,2.0 版本有了质的变化.
PyTorch 2.0 中改造了大量底层以改变 PyTorch 使用方式的舒适度.它提供了相同的 Eager Mode 和用户体验,同时通过 torch.compile 增加了一个编译化模式,在训练和推理过程中可以对模型进行加速,从而提升模型性能,并整合 Dynamic Shapes 以及 Distributed 的支持.
自发布以来,PyTorch 一直都深受学术界与人工智能领域中许多实践团队的欢迎.它在国际学术界和工业界得到了广泛认可,得到了许多优秀的成果和实践.同时,PyTorch 也为深度模型的优化、轻量化应用以及在不断发展中获得更好的使用体验提供了支撑.
1.2大模型开启人工智能的新时代
大模型是指具备特别多参数数量的人工神经网络模型.在深度学习领域,大模型通常指具有数亿到数万亿参数的模型.这些模型通常需要在大规模数据集上进行训练,并且需要使用大量的计算资源进行优化和训练.
大模型常用于解决复杂的自然语言处理、计算机视觉和语音识别等任务.这些任务通常需要处理大量的输入数据,并从中提取复杂的特征和模式.通过使用大模型,深度学习系统可以更好地处理这些任务,提高模型的准确性和性能.
大模型的训练和使用通常需要大量的计算资源,包括高性能计算机、图形处理器(Graphics Processing Unit, GPU)和云计算资源等.为了高效和优化大模型,研究人员需要合理地分配和使用这些计算资源.
1.2.1大模型带来的变革
人工智能正处于从"能用"到"好用"的战略质变阶段,但仍处于初级阶段,主要面临实际落地不够智能化、人力密集及成果难以再生产等技术问题,以及长尾场景数据稀缺、场景适应性与实时性不足等挑战.相关问题的出现和发展,说明人工智能应用落地门槛仍然较高.
近 10 年来,受益于"深度学习+大算力"使得传统人工智能的工业落地逐渐成熟.由于深度学习、数据和算力这三个要素逐渐具备,间接促发了"大模型思想"的新浪潮,也带来了一大批人工智能公司.
然而,在深度学习技术出现的近 10 年间,应用基本上都基于针对特定应用场景进行训练,更多是模型的小规模化和局部化.传统式的模型开发方式,使人工智能做很多功能只是一种辅助化、流程化的方式,例如语义理解、数据挖掘、绘制算法设计、训练调试、应用部署和运营维护等.这些中间环节削弱了智能任务与产品应用之间的连接,限制了人工智能开发人员和业务专家的协同效率,只有深度关注业务的工作者,才能完成更复杂的工作.
在传统模型中,研发积累变成了满足各种需求的需求池.人工智能研发人员通常需要设计大量过程化的、专用的辅助模块和模型,交由设计人员根据具体任务不断调整,并最终形成可用的方法体系和对应的成本.
一种降低专业人员设计门槛的思路,是通过对话和自动化能力来提升模型使用效率.但这种方式需要具备更高的算力,不同的场景需要大量定制化和自动化流程配置.封闭式的系统风格,一个项目往往需要专门团队在短时间内完成密集建设.其背后,为了满足目标需求,技术模式和模型训练往往需要多次迭代,从而增加了劳动成本.
因此,这种通过"一板一眼"的不同模块开发使用系统的模型,并不适用于复杂多样的任务.在无人驾驶、智能客服、智能推荐等领域,往往需要多行业数据、场景知识分类、软硬件协同处理等多个复杂模块共同工作.与 IT 协议系统和分布式处理问题类似,在数字智能领域建模系统和人工智能模型分离,不能直接复用于实际业务中已有的人手和流程的动态协同.这也导致了人工智能落地的门槛、资源成本和复杂性.
大模型是从庞大、多维度的海量数据中学习,总结出不同场景、不同任务的逻辑和能力,学习是一种特征和规律.成为具有泛化能力的模型后,在用于大模型开发或形成对应的业务流程时,可以对大模型进行调优.比如经过大量数据训练以后,大模型可以迅速迁移到不同领域,使得无须针对某类任务对每个具体场景逐一改造,进而表现出多样化、碎片化的人工智能应用需求.大模型的通用能力,可以有效推动多样化、碎片化的人工智能应用需求落地,为实现大规模人工智能落地提供可能.
大模型正在作为一种新型的智能产品和工具,成为整个人工智能技术架构的基础设施.可以将大模型理解为一种有智能的生产力,它可以发挥基础算力和人工智能应用之间的桥接作用.等人工智能的算法开发过程中产生的底层能力逐步发展完善后,通过人工智能应用算法进行进一步训练和扩大化,实现感知和见解类的复杂学习固化领域经验.
1.2.2最强的中文大模型------清华大学 ChatGLM 介绍
大模型 ChatGLM,这是由清华大学和智谱 AI 联合发布的、基于 GLM(General Language Model)架构的、最领先的深度学习大模型之一.
ChatGLM 使用了最先进的深度学习前沿技术,经过约 1TB 标识符的中英双语训练,辅以监督微调、特定任务指令(Prompt)训练、人类反馈强化学习等技术,针对中文问答和对话进行了优化.而其中开源的 ChatGLM-6B 具有 62 亿参数.结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存),并且已经能生成相当符合人类偏好的回答.
ChatGLM 是目前最先进的自然语言处理技术之一,具有强大的智能问答、对话生成和文本生成能力.在 ChatGLM 中,用户可以输入自然语言文本,ChatGLM 会自动理解其含义并作出相应的回应.
ChatGLM 采用了 GLM 系列的生成模型架构,该架构是在 GLM 原有基础上进行改进的,是目前最大的语言模型之一.这使得 ChatGLM 能够处理更复杂的自然语言问题,并生成更加流畅自然的对话.
ChatGLM 能够处理多种类型的自然语言任务.它可以回答问题、生成文本、翻译语言、推理和推断等.因此,它可以应用于许多不同的领域,包括客户服务、在线教育、金融和医疗保健等.
ChatGLM 的问答能力非常强大.它可以回答各种各样的问题,无论是简单的还是复杂的.它可以处理人类语言中的模糊性和歧义,甚至可以理解非正式的对话和口语.此外,ChatGLM 还可以从大量的语言数据中进行学习和自我更新,从而不断提高其回答问题的准确性和可靠性.
除了问答能力外,ChatGLM 还具有出色的对话生成能力.当与 ChatGLM 进行对话时,用户可以感受到与真人进行对话的感觉.ChatGLM 可以根据上下文理解问题,并根据其对话历史和语言数据生成自然的回答.它还能够生成有趣的故事和文章,帮助用户创造更加生动的语言体验.
ChatGLM 的另一个重要特点是其翻译能力.ChatGLM 可以将一种语言翻译成另一种语言,从而帮助用户克服跨语言交流的障碍.由于 ChatGLM 能够理解自然语言的含义,因此它可以生成更加准确和自然的翻译结果.
ChatGLM 还可以进行推理和推断.它可以理解和应用逻辑和常识,从而帮助用户解决一些需要推理和推断的问题.例如,当给 ChatGLM 提供一组信息时,它可以从中推断出一些隐藏的规律和关系.
1.2.3近在咫尺的未来------大模型的应用前景
人工智能模型的广度和深度逐级提升,作为深度学习领域最耀眼的新星,大模型也浮出水面.从技术的角度来看,大模型发端于自然语言处理领域,以谷歌的 BERT 开始,到以清华大学的 ChatGLM 大模型为代表,参数规模逐步提升至千亿、万亿,同时用于训练的数据量级也显著提升,带来了模型能力的提高,也推动了人工智能从感知到认知的发展.
1.赋能制造业
首先,人工智能大模型能够大幅提高制造业从研发、销售到售后各个环节的工作效率.比如,研发环节可利用人工智能生成图像或生成 3D 模型技术赋能产品设计、工艺设计、工厂设计等流程.在销售和售后环节,可利用生成式人工智能技术打造更懂用户需求、更个性化的智能客服及数字人带货主播,大幅提高销售和售后服务能力及效率.
其次,人工智能大模型结合机器人流程自动化(Robotic Process Automation, RPA),有望解决人工智能无法直接指挥工厂机器设备的痛点.RPA 作为"四肢"连接作为"大脑"的人工智能大模型和作为"工具"的机器设备,降低了流程衔接难度,可以实现工厂生产全流程自动化.
最后,人工智能大模型合成数据能够解决制造业缺乏人工智能模型训练数据的痛点.以搬运机器人(Autonomous Mobile Robot, AMR)为例,核心痛点是它对工厂本身的地图识别、干扰情景训练数据积累有限,自动驾驶的算法精度较差,显著影响产品性能.但人工智能大模型合成的数据可作为真实场景数据的廉价替代品,大幅缩短训练模型的周期,提高生产效率.
2.赋能医疗行业
首先,人工智能大模型能够帮助提升医疗通用需求的处理效率,比如呼叫中心自动分诊、常见病问诊辅助、医疗影像解读辅助等.
其次,人工智能大模型通过合成数据支持医学研究.医药研发所需的数据存在法律限制和病人授权等约束,难以规模化;通过合成数据,能够精确复制原始数据集的统计特征,但又与原始数据不存在关联性,赋能医学研究进步.此外,人工智能大模型通过生成 3D 虚拟人像和合成人声,解决了部分辅助医疗设备匮乏的痛点,可以帮助丧失表情、声音等表达能力的病人更好地求医问诊.
3.赋能金融行业
对于银行业,可以在智慧网点、智能服务、智能风控、智能运营、智能营销等场景开展人工智能大模型技术应用;对于保险业,人工智能大模型应用包括智能保险销售助手、智能培训助手等,但在精算、理赔、资管等核心价值链环节赋能仍需根据专业知识进行模型训练和微调;对于证券期货业,人工智能大模型可以运用在智能投研、智能营销、降低自动化交易门槛等领域.
4.赋能乃至颠覆传媒与互联网行业
首先,人工智能大模型将显著提升文娱内容生产效率,降低成本.此前,人工智能只能辅助生产初级重复性或结构化内容,如人工智能自动写新闻稿、人工智能播报天气等.在大模型赋能下,已经可以实现人工智能营销文案撰写、人工智能生成游戏原画(目前国内游戏厂商积极应用人工智能绘画技术)、人工智能撰写剧本(仅凭一段大纲即可自动生成完整剧本)等.后续伴随音乐生成、动画视频生成等 AIGC 技术的持续突破,人工智能大模型将显著缩短内容生产周期、降低制作成本.
其次,人工智能大模型将颠覆互联网已有业态及场景入口.短期来看,传统搜索引擎最容易被类似 ChatGLM 的对话式信息生成服务所取代,因为后者具备更高的信息获取效率和更好的交互体验;同时传统搜索引擎商业模式搜索竞价广告也将迎来一些挑战,未来可能会衍生出付费会员模式或新一代营销科技手段.从中长期来看,其他互联网业态,如内容聚合分发平台、生活服务平台、电商购物平台、社交社区等流量入口,都存在被人工智能大模型重塑或颠覆的可能性.
2. LLM 的基本能力来自哪里
从技术上看,LLM 通常是在大规模语料上训练的深度神经网络.它们通过自监督学习,从上下文中预测被遮蔽或即将出现的词元.这个目标看似简单:预测下一个词、预测缺失部分.但当模型规模、数据规模和计算量达到一定程度后,模型会学到非常复杂的统计结构.
这些结构包括:
- 词语之间的搭配关系;
- 句法结构;
- 语义关联;
- 文体和语域;
- 常识性模式;
- 问题与答案的对应方式;
- 一些形式推理和步骤化推导模式.
因此,LLM 的能力并不是被人工逐条写入的规则,而是在大规模数据中通过优化目标逐渐形成的.ChatGPT 这类系统之所以给人以"会思考"的印象,是因为它们能在数学题、谜题、推理题中给出步骤化解释,也能生成语法正确、语义连贯、风格自然的文本.
不过,这也立刻引出了最核心的问题:如果一个系统能说出像理解一样的话,它是真的理解了吗?
2.1最大的争议:LLM 到底有没有"理解"或"意识"
是围绕 LLM 是否理解语言、是否可能具有意识展开的争论.下面展示了不同立场之间的张力.
可以把相关观点放在一个光谱上:
#mermaid-svg-X50RlPwCVY9T9YQC{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-X50RlPwCVY9T9YQC .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-X50RlPwCVY9T9YQC .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-X50RlPwCVY9T9YQC .error-icon{fill:#552222;}#mermaid-svg-X50RlPwCVY9T9YQC .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-X50RlPwCVY9T9YQC .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-X50RlPwCVY9T9YQC .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-X50RlPwCVY9T9YQC .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-X50RlPwCVY9T9YQC .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-X50RlPwCVY9T9YQC .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-X50RlPwCVY9T9YQC .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-X50RlPwCVY9T9YQC .marker{fill:#333333;stroke:#333333;}#mermaid-svg-X50RlPwCVY9T9YQC .marker.cross{stroke:#333333;}#mermaid-svg-X50RlPwCVY9T9YQC svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-X50RlPwCVY9T9YQC p{margin:0;}#mermaid-svg-X50RlPwCVY9T9YQC .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-X50RlPwCVY9T9YQC .cluster-label text{fill:#333;}#mermaid-svg-X50RlPwCVY9T9YQC .cluster-label span{color:#333;}#mermaid-svg-X50RlPwCVY9T9YQC .cluster-label span p{background-color:transparent;}#mermaid-svg-X50RlPwCVY9T9YQC .label text,#mermaid-svg-X50RlPwCVY9T9YQC span{fill:#333;color:#333;}#mermaid-svg-X50RlPwCVY9T9YQC .node rect,#mermaid-svg-X50RlPwCVY9T9YQC .node circle,#mermaid-svg-X50RlPwCVY9T9YQC .node ellipse,#mermaid-svg-X50RlPwCVY9T9YQC .node polygon,#mermaid-svg-X50RlPwCVY9T9YQC .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-X50RlPwCVY9T9YQC .rough-node .label text,#mermaid-svg-X50RlPwCVY9T9YQC .node .label text,#mermaid-svg-X50RlPwCVY9T9YQC .image-shape .label,#mermaid-svg-X50RlPwCVY9T9YQC .icon-shape .label{text-anchor:middle;}#mermaid-svg-X50RlPwCVY9T9YQC .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-X50RlPwCVY9T9YQC .rough-node .label,#mermaid-svg-X50RlPwCVY9T9YQC .node .label,#mermaid-svg-X50RlPwCVY9T9YQC .image-shape .label,#mermaid-svg-X50RlPwCVY9T9YQC .icon-shape .label{text-align:center;}#mermaid-svg-X50RlPwCVY9T9YQC .node.clickable{cursor:pointer;}#mermaid-svg-X50RlPwCVY9T9YQC .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-X50RlPwCVY9T9YQC .arrowheadPath{fill:#333333;}#mermaid-svg-X50RlPwCVY9T9YQC .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-X50RlPwCVY9T9YQC .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-X50RlPwCVY9T9YQC .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-X50RlPwCVY9T9YQC .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-X50RlPwCVY9T9YQC .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-X50RlPwCVY9T9YQC .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-X50RlPwCVY9T9YQC .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-X50RlPwCVY9T9YQC .cluster text{fill:#333;}#mermaid-svg-X50RlPwCVY9T9YQC .cluster span{color:#333;}#mermaid-svg-X50RlPwCVY9T9YQC div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-X50RlPwCVY9T9YQC .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-X50RlPwCVY9T9YQC rect.text{fill:none;stroke-width:0;}#mermaid-svg-X50RlPwCVY9T9YQC .icon-shape,#mermaid-svg-X50RlPwCVY9T9YQC .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-X50RlPwCVY9T9YQC .icon-shape p,#mermaid-svg-X50RlPwCVY9T9YQC .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-X50RlPwCVY9T9YQC .icon-shape .label rect,#mermaid-svg-X50RlPwCVY9T9YQC .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-X50RlPwCVY9T9YQC .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-X50RlPwCVY9T9YQC .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-X50RlPwCVY9T9YQC :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 还原主义
LLM 只是矩阵计算
能力但无理解
能表现得像理解,但没有真正理解
认真看待涌现
研究模型是否出现新型认知结构
朴素拟人化
因为像人说话,所以像人一样理解
这四种态度各有问题.还原主义容易忽略复杂系统中可能出现的高层能力;朴素拟人化又容易把流畅语言误认为真实心智.更稳妥的做法是:既不轻率宣称模型有意识,也不简单否定它们可能形成某种非人类式的表征能力.
2.2"中文房间"与落地问题:只会操作符号够不够
经典的"中文房间"思想实验.这个实验的核心问题是:一个人即使完全不懂中文,只要按照规则操作汉字符号,也可能产出看似合理的中文回答.那么,外部观察者看到"正确回答"时,是否能说房间里真的发生了"理解"?
这个问题被用来质疑 LLM:模型也许只是根据统计规律组合符号,并没有把语言与真实世界联系起来.
这就是"落地"(grounding)问题.人类学习语言时,并不只看文本.我们通过视觉、听觉、触觉、行动、社会互动来理解"猫""杯子""危险""承诺""误解"等概念.语言的意义与身体经验、环境反馈和他人意图紧密相连.
纯文本 LLM 的限制在于:
- 它们没有身体;
- 没有直接感官经验;
- 没有真实行动后果;
- 没有像人类婴儿那样在物理和社会环境中学习.
落地论不能被理解得太狭窄.很多知识本来就是通过语言获得的.一个人可能没见过某种动物,却能通过文字描述理解它的大致特征.词语的意义不仅来自指向现实对象,也来自它在概念网络中的位置.
所以,更合理的判断是:纯文本模型的意义理解是不完整的,但文本统计并非毫无语义价值.未来的多模态模型、语言动作模型和具身智能体,正是在试图弥补这个缺口.
#mermaid-svg-DijlKVKbwlmcbE8r{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-DijlKVKbwlmcbE8r .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-DijlKVKbwlmcbE8r .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-DijlKVKbwlmcbE8r .error-icon{fill:#552222;}#mermaid-svg-DijlKVKbwlmcbE8r .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-DijlKVKbwlmcbE8r .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-DijlKVKbwlmcbE8r .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-DijlKVKbwlmcbE8r .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-DijlKVKbwlmcbE8r .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-DijlKVKbwlmcbE8r .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-DijlKVKbwlmcbE8r .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-DijlKVKbwlmcbE8r .marker{fill:#333333;stroke:#333333;}#mermaid-svg-DijlKVKbwlmcbE8r .marker.cross{stroke:#333333;}#mermaid-svg-DijlKVKbwlmcbE8r svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-DijlKVKbwlmcbE8r p{margin:0;}#mermaid-svg-DijlKVKbwlmcbE8r .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-DijlKVKbwlmcbE8r .cluster-label text{fill:#333;}#mermaid-svg-DijlKVKbwlmcbE8r .cluster-label span{color:#333;}#mermaid-svg-DijlKVKbwlmcbE8r .cluster-label span p{background-color:transparent;}#mermaid-svg-DijlKVKbwlmcbE8r .label text,#mermaid-svg-DijlKVKbwlmcbE8r span{fill:#333;color:#333;}#mermaid-svg-DijlKVKbwlmcbE8r .node rect,#mermaid-svg-DijlKVKbwlmcbE8r .node circle,#mermaid-svg-DijlKVKbwlmcbE8r .node ellipse,#mermaid-svg-DijlKVKbwlmcbE8r .node polygon,#mermaid-svg-DijlKVKbwlmcbE8r .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-DijlKVKbwlmcbE8r .rough-node .label text,#mermaid-svg-DijlKVKbwlmcbE8r .node .label text,#mermaid-svg-DijlKVKbwlmcbE8r .image-shape .label,#mermaid-svg-DijlKVKbwlmcbE8r .icon-shape .label{text-anchor:middle;}#mermaid-svg-DijlKVKbwlmcbE8r .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-DijlKVKbwlmcbE8r .rough-node .label,#mermaid-svg-DijlKVKbwlmcbE8r .node .label,#mermaid-svg-DijlKVKbwlmcbE8r .image-shape .label,#mermaid-svg-DijlKVKbwlmcbE8r .icon-shape .label{text-align:center;}#mermaid-svg-DijlKVKbwlmcbE8r .node.clickable{cursor:pointer;}#mermaid-svg-DijlKVKbwlmcbE8r .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-DijlKVKbwlmcbE8r .arrowheadPath{fill:#333333;}#mermaid-svg-DijlKVKbwlmcbE8r .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-DijlKVKbwlmcbE8r .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-DijlKVKbwlmcbE8r .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-DijlKVKbwlmcbE8r .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-DijlKVKbwlmcbE8r .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-DijlKVKbwlmcbE8r .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-DijlKVKbwlmcbE8r .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-DijlKVKbwlmcbE8r .cluster text{fill:#333;}#mermaid-svg-DijlKVKbwlmcbE8r .cluster span{color:#333;}#mermaid-svg-DijlKVKbwlmcbE8r div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-DijlKVKbwlmcbE8r .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-DijlKVKbwlmcbE8r rect.text{fill:none;stroke-width:0;}#mermaid-svg-DijlKVKbwlmcbE8r .icon-shape,#mermaid-svg-DijlKVKbwlmcbE8r .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-DijlKVKbwlmcbE8r .icon-shape p,#mermaid-svg-DijlKVKbwlmcbE8r .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-DijlKVKbwlmcbE8r .icon-shape .label rect,#mermaid-svg-DijlKVKbwlmcbE8r .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-DijlKVKbwlmcbE8r .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-DijlKVKbwlmcbE8r .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-DijlKVKbwlmcbE8r :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 文本共现
概念表征
图像/声音
动作与反馈
社会互动
更落地的语言理解
2.3世界模型:LLM 是表面统计,还是学到了世界结构
另一个关键争议是:LLM 是否拥有世界模型.
反对者认为,LLM 本质上是在预测词元序列.它知道"某些词通常跟在某些词后面",并不等于它知道这些句子在世界中是否为真.例如,模型能补全一个地理事实,不代表它真的拥有地理空间理解.
支持更开放观点的人则认为,如果一个模型想长期、稳定、准确地预测文本,仅靠浅层词频是不够的.因为语言承载了大量关于世界的结构:人物、地点、因果、时间、社会关系、物体属性、意图和事件发展.为了更好地预测语言,模型可能被迫形成某种隐式世界表征.
可解释性研究已经出现一些有趣证据.例如,有研究发现模型在学习棋类任务时,内部可能形成了类似棋盘状态的表征.这类现象并不能证明 LLM 已经拥有完整世界模型,但说明"它只是表面统计"这个说法也可能过于粗糙.
更准确的说法是:LLM 可能在某些局部任务中形成了可用的隐式世界模型,但这些模型是否稳定、可解释、可组合、可迁移,仍然是经验研究问题.
2.4沟通意图:会回答不等于有目的地交流
人类语言交流通常包含意图.我们说话是为了解释、请求、说服、安慰、提醒、承诺或协作.语言不只是句子本身,还包括说话者想让听者发生什么变化.
当前 LLM 的一个重要局限是,它们并没有天然的沟通意图.它们会根据提示生成合理文本,但不一定真正理解:
- 谁在问;
- 为什么问;
- 回答会对对方造成什么影响;
- 自己是否应该拒绝、追问、查证或行动;
- 长对话中目标是否已经改变.
这也是为什么 LLM 有时会在长文本生成中逐渐跑偏.它们局部上很流畅,但全局目标和沟通意图不稳定.
"全局工作空间理论".在人类认知中,工作记忆和全局信息广播有助于维持目标、整合信息、抵抗干扰.未来模型如果要更接近通用智能,可能需要类似机制:把文本、图像、声音、工具状态、任务目标等信息放进一个可协调的共享空间.
2.5系统性与泛化:模型能不能真正组合概念
自然语言具有强大的组合性.人类能理解从未见过的表达,比如"会飞的猪",因为我们能把"猪"和"会飞"两个概念组合起来.
系统性批评认为,神经网络尤其是语言模型可能更擅长相似性泛化:遇到和训练数据相似的内容时表现很好,但遇到需要抽象规则、变量替换、跨类别组合的问题时,就不如人类稳定.
这个批评很重要,因为它关系到 LLM 是否只是"见多识广",还是能够掌握更抽象的生成原则.
不过,自然语言本身并不总是完全规则化.人类语言中有大量半规则、例外、上下文敏感和类比式表达.符号系统擅长清晰规则,神经网络的连续表征则擅长处理相似性、梯度和语境变化.未来更强的系统,可能不是纯符号或纯神经网络二选一,而是吸收两者优势.
3.未来方向:从会说话的模型到会行动的智能体
LLM 的发展方向,可以概括为七条主线.
第一,提升功能性语言能力.
模型不能只会语法和文体,还要具备形式推理、世界知识、情景建模和社会推理.真正有用的语言系统,应该能理解任务、场景、对话者和目标.
第二,缓解纯文本训练的局限.
语言数据存在"报告偏差":人们不会把所有显而易见的信息都写出来.例如,很多物体的颜色、形状、质地不会频繁出现在文本中.多模态数据和环境交互可以弥补文本缺失的信息.
第三,建立更好的评测体系.
不能把"语言流畅"直接等同于"思维强大",也不能把"某些推理失败"直接等同于"语言能力差".形式语言能力和功能语言能力需要分开评估.
第四,提高数据效率并探索自我改进.
高质量文本数据并不是无限的.未来模型需要更高的数据效率,也可能通过生成问题、筛选答案、自我反思、合成指令等方式改进自身.
第五,减少幻觉并引入外部检索.
LLM 不能替代搜索引擎的主要原因之一,是它们会生成看似可信但事实错误的内容.检索增强生成、引用来源、工具调用和事实校验会成为关键能力.
第六,使用稀疏专家模型扩展规模.
稀疏专家模型不会在每次推理时激活全部参数,而是根据输入调用相关"专家".这使模型有机会在计算成本可控的情况下继续扩大,并可能带来更好的可解释性.
第七,走向智能体人工智能.
当前 LLM 多数仍停留在"根据提示生成文本".未来模型会越来越多地连接浏览器、数据库、代码执行器、机器人、企业系统和现实世界任务,具备读写、规划、调用工具和采取行动的能力.
#mermaid-svg-m2wHyYYTF1231VrW{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-m2wHyYYTF1231VrW .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-m2wHyYYTF1231VrW .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-m2wHyYYTF1231VrW .error-icon{fill:#552222;}#mermaid-svg-m2wHyYYTF1231VrW .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-m2wHyYYTF1231VrW .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-m2wHyYYTF1231VrW .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-m2wHyYYTF1231VrW .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-m2wHyYYTF1231VrW .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-m2wHyYYTF1231VrW .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-m2wHyYYTF1231VrW .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-m2wHyYYTF1231VrW .marker{fill:#333333;stroke:#333333;}#mermaid-svg-m2wHyYYTF1231VrW .marker.cross{stroke:#333333;}#mermaid-svg-m2wHyYYTF1231VrW svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-m2wHyYYTF1231VrW p{margin:0;}#mermaid-svg-m2wHyYYTF1231VrW .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-m2wHyYYTF1231VrW .cluster-label text{fill:#333;}#mermaid-svg-m2wHyYYTF1231VrW .cluster-label span{color:#333;}#mermaid-svg-m2wHyYYTF1231VrW .cluster-label span p{background-color:transparent;}#mermaid-svg-m2wHyYYTF1231VrW .label text,#mermaid-svg-m2wHyYYTF1231VrW span{fill:#333;color:#333;}#mermaid-svg-m2wHyYYTF1231VrW .node rect,#mermaid-svg-m2wHyYYTF1231VrW .node circle,#mermaid-svg-m2wHyYYTF1231VrW .node ellipse,#mermaid-svg-m2wHyYYTF1231VrW .node polygon,#mermaid-svg-m2wHyYYTF1231VrW .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-m2wHyYYTF1231VrW .rough-node .label text,#mermaid-svg-m2wHyYYTF1231VrW .node .label text,#mermaid-svg-m2wHyYYTF1231VrW .image-shape .label,#mermaid-svg-m2wHyYYTF1231VrW .icon-shape .label{text-anchor:middle;}#mermaid-svg-m2wHyYYTF1231VrW .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-m2wHyYYTF1231VrW .rough-node .label,#mermaid-svg-m2wHyYYTF1231VrW .node .label,#mermaid-svg-m2wHyYYTF1231VrW .image-shape .label,#mermaid-svg-m2wHyYYTF1231VrW .icon-shape .label{text-align:center;}#mermaid-svg-m2wHyYYTF1231VrW .node.clickable{cursor:pointer;}#mermaid-svg-m2wHyYYTF1231VrW .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-m2wHyYYTF1231VrW .arrowheadPath{fill:#333333;}#mermaid-svg-m2wHyYYTF1231VrW .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-m2wHyYYTF1231VrW .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-m2wHyYYTF1231VrW .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-m2wHyYYTF1231VrW .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-m2wHyYYTF1231VrW .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-m2wHyYYTF1231VrW .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-m2wHyYYTF1231VrW .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-m2wHyYYTF1231VrW .cluster text{fill:#333;}#mermaid-svg-m2wHyYYTF1231VrW .cluster span{color:#333;}#mermaid-svg-m2wHyYYTF1231VrW div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-m2wHyYYTF1231VrW .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-m2wHyYYTF1231VrW rect.text{fill:none;stroke-width:0;}#mermaid-svg-m2wHyYYTF1231VrW .icon-shape,#mermaid-svg-m2wHyYYTF1231VrW .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-m2wHyYYTF1231VrW .icon-shape p,#mermaid-svg-m2wHyYYTF1231VrW .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-m2wHyYYTF1231VrW .icon-shape .label rect,#mermaid-svg-m2wHyYYTF1231VrW .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-m2wHyYYTF1231VrW .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-m2wHyYYTF1231VrW .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-m2wHyYYTF1231VrW :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 当前 LLM
文本生成与问答
多模态理解
外部检索与工具调用
长期记忆与个性化
任务规划与行动
智能体人工智能
4.对开发者和研究者的启发
一个很重要的启发是:不要把 LLM 看成单一技术,而要把它看成一个研究和工程交汇的平台.
如果你是开发者,应该关注:
- 如何把 LLM 接入真实工具,而不是只让它聊天;
- 如何通过检索、数据库和引用机制降低幻觉;
- 如何设计评测集,覆盖真实任务而不是只看演示效果;
- 如何处理隐私、偏见、安全和责任边界;
- 如何把模型输出放进可审计、可回滚、可人工介入的流程中.
如果你是研究者,应该关注:
- 模型内部是否形成了世界模型;
- 多模态和具身经验如何改变语言理解;
- 模型能否稳定进行组合式泛化;
- 意图、目标、工作记忆和自我监控机制如何被建模;
- 如何区分表面模式匹配和真正推理.
5.总结
本文最有价值的地方,不是简单告诉我们"大语言模型很强",而是把强能力背后的疑问摆了出来:
- 会说话是否等于理解?
- 能推理是否等于有世界模型?
- 能模仿意图是否等于有意图?
- 纯文本训练是否足以获得意义?
- 多模态、工具和智能体会不会改变这些答案?
我的理解是,LLM 目前最恰当的位置是:它们已经远远超过传统文本处理系统,但还不能被简单等同于人类心智.它们既不是"只是鹦鹉"那么简单,也不是"已经有意识"那么直接.真正重要的是,我们要用可验证的实验、清晰的评测和负责任的工程,把这些问题一步步拆开.
大语言模型的未来,很可能不只是更大的参数和更多的数据,而是更丰富的感知、更可靠的知识组织、更强的工具使用能力、更清晰的目标结构,以及更严肃的伦理治理.生成式人工智能之后,智能体人工智能也许会成为下一阶段的关键词.

🚀真正的勇者不是流泪的人,而是含泪奔跑的人!
敬请期待下一篇文章内容
每日心灵鸡汤: 只要还在前行,就永远有希望!
没有人生来就无所畏惧,在面对未知前路时,大多数都是心怀忐忑地前行.区别在于,有人被恐惧拖慢了步伐,而另一些人即使心怀不安,依然勇敢前行.哪怕前路漫漫,哪怕无人同行,他们也愿意一步二步走向想去的地方.在人生的选择面前,是勇敢带我们走向那个更好的未来;在迷茫时刻,是勇敢为我们点亮前行的微光;在风雨途中,是勇敢让我们守住心底的向往.勇敢,是心怀恐惧却依然前行.它赋予我们这样的一生种信念:只要还在前行,就一定还有希望.
