聊聊ChatGPT的本质

这是鼎叔的第九十八篇原创文章。行业大牛和刚毕业的小白，都可以进来聊聊。

阶段性总结下我对ChatGPT的基础理解，算是一篇学习思考笔记吧。其中难免有很多不准确的，或过于简略的地方，将来再迭代学习。

OpenAI做ChatGPT的底层逻辑

一句话描述，就是大力出奇迹。为什么会产生这种结果呢？

这要从AI发展的两大流派说起，就是符号主义和连接主义。前者基于逻辑推理的智能模拟方式，通过专家对于符号的深入研究来完善逻辑推理。这种方式的最大局限性是在真实场景中要考虑的逻辑推理过于复杂了，想达到用户的高满意度极其困难。

连接主义就是从脑神经的结构受到启发，主要神经元数量足够多，训练的输入量足够庞大，训练出来的神经元连接效果就有可能达到人类思考的水平。人的大脑形成认知，就是某些神经元的链接输出被固化了。

OpenAI在这个方面下的赌注成功了，海量参数、极其庞大的训练文本和巨大算力，最终产生了涌现的进化效果，复杂常识的理解能力急剧提升。垂直小模型的推理难题被轻松解决。

一夜之间很多老AI人觉得以往的研究白干了，但是新模型的前景又让从业人员无比兴奋。

ChatGPT训练成功的要素

个人观点，这是非专业初学者更应该努力理解的：ChatGPT训练成功，主要做对了哪几件事（除了"大"），继承了什么好的遗产。

1 预训练。

ChatGPT对互联网上的海量信息进行了无监督学习，这些庞大的已有信息显然绝大部分都没有被人工标注过，也不可避免夹带了大量低质量的信息，包括网络上常见的阴谋论，偏见等。

ChatGPT从未标注数据中自动推导出预训练数据，使预训练变得更有扩展性。

预训练也是迁移学习在深度学习中实现的主要方法，通过在替代性任务上训练模型，然后将其适配到下游任务中，实现了跨任务的知识迁移。

2 RLHF 基于人类反馈的强化学习

RLHF解决的核心问题是，让大模型生成内容和人类的常识、认知、需求和价值观保持一致。

OpenAI团队首先从海量数据集中，搜集包含有"问题"和"答案"的数据对，然后用它们来训练一个奖励模型，当输入文本的质量越高（即更符合人类评价标准），奖励分数越高。最后让大语言模型能够根据这个奖励模型给出的奖励分数来自我生成更高质量的回答。

这个技术方案依然面对大量伦理监管和局限性挑战，还在不断演进中。

3 模型微调。

多数组织其实是无法满足预训练和微调基础模型的计算要求的，以共生为关联和标准模型训练，会产生虚假关联和东拼西凑的合成结果。

每家公司不可能都从头训练一个自己的大模型，要想在自己服务接口中提供大模型能力，推理成本是必须考虑的要素，微调相对来说就是一个更优的方案。轻量级的微调模型也能够针对每个用户的数据进行训练，同时满足数据安全的需求。

4 Transformer和自注意力机制

ChatGPT的技术基础就是谷歌的Transformer深度学习模型。传统的自然语言处理模型难以进行并行计算，导致长文本处理时性能下降非常明显。

Transformer模型是基于自注意力机制来构建的，包含编码器和解码器两个部分，前者负责将输入序列转换为定长的向量表示，后者将向量解码为输出序列，自注意力机制能够建立长距离的依赖关系，即使经过多轮对话，还能够保持对前文指代的正确理解。Transformer的并行计算能力让它在长序列处理时具有更高的效率。

5 Token机制

Token是ChatGPT这种大语言模型最重要的概念。Token就是文本处理的最小单位，英文中就是一个单词，中文中就是一个分词。输入的每个token都会对应一个唯一的数字ID，以便让模型进行编码和解码。

对于包含了数亿甚至数十亿参数的大模型，要实现高效的训练和推理，模型的输入必须进行限制，长文本就会基于Token进行分割。这种表示形式既有利于大模型的处理，也有利于通过token之间关系的学习来获取更多语义信息。

最近爆火的视频生成大模型Sora，也使用了类似的概念-最小视频单位Patch。当微观学习尺度是统一的，不管什么尺寸、分辨率和帧率的输入视频都可以统一进行学习和输出。

ChatGPT的商业机会

商业机会按产业细分类型，可以分为这几类受益领域：

1 提供AI算力的公司，提供定制化，合理计费的算力服务。

2 提供上游数据服务的公司，包括对数据进行查询、转换、标注和治理。

3 提供中间算法定制模型的公司和研究机构。具备真正基础大模型研发能力的公司非常少，但是提供垂直能力封装的、体验强化的中间模型，还是很有市场的，但这块需要有足够强的垂直行业能力或者客户服务嗅觉，或者建设活跃的AI交流社区。

4 提供热门应用拓展能力的公司。这样的公司有两类，一类是在某类应用上已经有先发优势，有大量的忠实用户，然后把大模型能力引入到特定的用户场景，成功地形成口碑效应，增加了付费意愿。

还有一类创业型公司，快速利用大模型的能力提供尝鲜产品，利用自己的"快"赶在大公司的前面，在应用场景上截胡用户。这类公司的员工非常少，非常精，容易获得高估值，对同类"老"公司带来不少威胁。这类公司的核心灵活打法就是疯狂地采集免费训练数据，趁平台大公司反击之前训练好基础模型，拉到初期的用户群，因为员工极少，发展惊人，能进一步扩大估值和融资。

ChatGPT目前的局限

实时性不足，肯定是现阶段ChatGPT的主要问题。大模型是基于已有海量内容的预训练来升级的，时效性暂时还有很大的短板。

创造力有限。ChatGPT能够自我优化内容质量，根据用户兴趣进行调整，但生成内容依然缺乏原创性，也缺乏可控制的个性化内容。长此以往会降低使用者的热情和工作能力，部分使用者会依赖大模型工具，自身能力会退化。

全新任务的迁移能力不佳。ChatGPT能够连贯地输出有逻辑性的文本，但它在理解语境和情感时可能会受到数据偏差和模型偏移的影响，导致在新的场景任务中表现不佳。大模型学习掌握了一定的语言规律和人类的思维方式，但在创造文本时存在语法逻辑瑕疵，需要后期纠正。

人类文明的思维复杂性是在多维度的，体现了其多样性，这远不是让计算机求解问题这么单纯直接。

ChatGPT重塑沟通效率

ChatGPT带来的自然语言表达效率空前提升，给我们的启发是，可以利用ChatGPT把需要大量沟通的业务重做一遍。

对于沟通表达可能比较弱的工程师，ChatGPT可能是帮助工程师对外沟通的利器，工程师可以按心目中的标准训练特定产品，让非技术人员和该产品先行互动，节约自己的人工沟通时间。

这也是鼎叔在团队敏捷实践中引入大模型解决手段的初衷。技术人员和非技术人员不一定都能不厌其烦地面对面交流，理解对方意图的初级AI可能是不错的预沟通桥梁。

还有一类沟通困难场景，是因为某一方（客户或者员工）比较羞涩，尴尬。借助ChatGPT问答，不用操心自己的隐私暴露，比如心理/生理问题的咨询服务。

此外，教育界对于ChatGPT在学校的使用会严防死守，但它确实可以大幅提高老师的日常效率，节约大量批改作业和教学杂活的时间，同时为学生的个性化教育带来了可能性。

ChatGPT的进化方向

一和搜索技术更好的整合，比如RAG技术。搜索技术和ChatGPT看起来有相似性，但也有很多本质的不同。

搜索引擎由搜索器，索引器，检索器，用户接口组成，搜索产品对于结果的实时性要求高。但搜索产品的结果体验始终不佳，满屏的搜索结果还夹杂着大量广告，让普通用户无从选择。

ChatGPT的体验是革命性的，让用户眼前一亮，并且能够顺利地聊下去，得益于长效的注意力机制，前后连贯的推理和互动，让用户活跃度暴涨。

两者互相印证，互为补充，可以大幅提升大模型答案的实时性，还可以降低回答的幻觉率。

二和知识图谱更好的结合。这点有待更多学习。

三多模态的发展。四大模态（文本，音频，图片，视频）的商业机会在互相渗透，虎视眈眈，对用户而言分界线并不明显，多模态提供了更多强者通吃的机会。

四 AI伦理有关的技术管理体系。

大模型的数据标注训练，本身就存在人为错误可能，如果被恶意标注，会产生极大偏离主流价值观的结果。

恶意引入大量的"特殊语料"或者加大其权重，也可以起到扭曲价值观的目的。

不怕一眼假的幻觉，就怕看不出真假的幻觉，把产品快速被调教成"坏人"。

可以想见，AI伦理的破坏者手段更加隐蔽，难以追查，这也对管理制度和体系化能力提出了更高要求。

因为大模型本身的不可解释性，黑产团伙也可能操纵训练数据集，生成他们想要的对抗样本。

五具身智能。就像最近OpenAI和机器人公司合作，在短短时间就给机器人进行了认知赋能，机器人本身精准的控制力，又能把AI指令和行动近乎完美的融合在一起。

六 AI Agents群体智能，ChatGPT是其中当仁不让的大脑。

大模型实体是由不同公司，不同资源和不同技能团队负责的，在AGI（通用人工智能）真正成熟之前，每个大模型产品都有自己擅长的垂直能力和不擅长的短板。

当我们要输出一个用户满意的智能方案，完全可以调用多个不同的大模型实体来完成，它们就叫Agents。

比如一个自动生成的金融报告平台，会需要擅长写报告的agent，擅长分析商业数据的agent，擅长绘制金融图片的agent，以及擅长做风险和收益分析的agent，这四个agent在后台共同协作，前台由ChatGPT直接和用户对话和反馈。