写在前面的话

在前面几个章节，我们在熟悉了大模型的一些概念，学习了大模型的提示工程，体验了Chat的使用。

今天这个章节是为了接下来我们使用大模型做应用开发做准备。

大家陆续在很多文章中可能已经看到过了很多概念，比如plugins、GPTs、Agent，这里面自ChatGPT3.5爆火以来，有众多的AI创业公司从不同的切入点在做，OpenAI公司也在不断推进自家产品的核心能力和生态的迭代更新，比如去年最引人瞩目的GPT-4 turbo的发布。

接下来我们就以OpenAI的产品来介绍下这些概念，以及在GPT-4 turbo中出现的GPTs等的解读和应用。

OpenAI的plugins与GPTs(Actions)

ChatGPT的"Actions"与"Plugins"是OpenAI在GPT模型中引入的两种不同的功能扩展机制。这两种机制的目的是增强模型的功能，使其能够处理更多样化的任务和请求。

plugins的始末

plugins的推出

2023年（北京时间）3月24凌晨，OpenAI宣布，ChatGPT中初步实现对插件的支持。 （Plugins are tools designed specifically for language models with safety as a core principle, and help ChatGPT access up-to-date information, run computations, or use third-party services.）

推出以来，开发者们已经构建了数千个ChatGPT插件，包括来自Expedia、Instacart和Kayak等公司的插件。

简单点说，插件能够使ChatGPT参与开发者定义的API互动，增强ChatGPT的能力。有点类似于苹果的appstore。

引入插件Plugin标志ChatGPT走在创建生态系统的伟大道路上，统一平台+插件的模式有望构建与苹果+App Store相似的繁荣生态。

同时，Plugin的推出给了广大的开发者更多的参与大模型的机会。

再见，ChatGPT插件，Hello，GPTs

自2024年3月19日起，将不再允许创建带插件的新对话，这一变化意味着，用户和开发者将无法安装新插件或利用现有插件创建新的对话。

为什么要结束插件测试版？

官方的回答是：

"With the launch of GPTs and the GPT store, we were able to make many improvements that plugin users had asked for. GPTs now have full feature parity (in addition to many new features) with plugins."

即"随着 GPTs 和 GPT 商店的推出，我们能够根据插件用户的要求进行许多改进。GPTs 现在具有与插件相同的完整功能（除了许多新功能之外）。"

GPTs的推出，使得普通人也能在GPT的辅助下自己创建智能体（尽管因每个人的能力不同，创建的智能体的能力强弱也各有差异）。

如果你在微博上搜索 ChatGPT Plugins，热门内容还是一年前的那场发布会演示和评论，所有人都在感叹向第三方开放 ChatGPT 的能力有多逆天，结果 OpenAI 自己就用 GPTs 把 ChatGPT Plugins 给干掉了。

具体为什么OpenAI会在一年以后关闭Plugins，网上有很多推论，可能和OpenAI的布局有关，也可能和目前的安全有关。但是这都不妨碍原本的很多插件也都开发了GPTs，很多GPTs已经可以替代绝大部分插件的功能了 。GPT商店已经拥有数十万个GPTs，涵盖写作、生产力、编程、教育等类别。

GPTs的推出使得非开发者的普通人，也可以投入到大模型的浪潮。

二者的对比

ChatGPT Plugins 是需要本地开发的，API 权限卡得特别严格，但大多数 GPTs 却都是直接基于 Web 端创建的，甚至不需要编程。

Plugins

定义与用途：Plugins（插件）是一种用于扩展ChatGPT功能的机制，允许模型与外部系统交互。例如，可以与数据库、API或其他软件服务进行交互。

工作方式：当ChatGPT需要获取外部信息或执行某些不仅仅依赖文本生成的任务时，会通过这些插件与外部系统通信。

应用实例：例如，ChatGPT可以通过一个天气插件来获取实时天气信息，或者通过搜索引擎插件来提供最新的搜索结果。

Actions

定义与用途：Actions（动作）是ChatGPT的一种新功能，旨在允许模型在对话中直接执行特定的动作，这些动作可能涉及模型的内部功能或特定的任务执行。

新特性：直接交互：Actions可以让模型在对话中直接触发和执行特定任务，如生成图像、执行代码等，无需外部插件介入。任务多样性：支持多种不同的任务类型，如文本生成、图像处理、数据分析等。

更流畅的用户体验：通过Actions，用户体验更加直接和流畅，不需要离开对话界面即可完成多种任务。

自定义动作：支持创建自定义动作，以适应特定的用例或需求。

集成内部工具：与内置的工具和功能（如Python环境、DALL-E图像生成等）紧密集成。

总结

Plugins：侧重于与外部系统的交互和集成。 Actions：侧重于在对话中直接执行特定任务，提供了更多样化的内部功能。

GPT4.0 turbo升级上线

提到GPTs就不得不提GPT4.0 turbo，它的出现，是使得众多AI创业者一夜无眠的版本。

借用一个图来说明下它的强大：

这里面有几个爆点：
更长。支持128K上下文输入，标准GPT-4是8K版本，之前升级出了32K版本
更可控。JSON格式输出，增加seed控制模型回复可复现
更新的知识。GPT-4 Trubo的知识更新至2023年4月
开放多模态能力，整合了文生图模型DALL·E 3和声音合成模型（TTS）以及语音识别模型Whisper V3等
开放 Fine-Tuning功能，支持在GPT-4基础上微调进行模型定制
输出速度更快，每分钟输出翻倍
GPTs
Assistant API

基于大模型（LLM）的Agent

目前，业界一般认为基于大模型的应用集中在两个方向上：RAG 和 Agent，无论哪一种应用，设计、实现和优化能够充分利用大模型(LLM)潜力的应用都需要大量的努力和专业知识。

Agent广义的定义

这里的Agent 指的是智能体，可以追溯到明斯基的《society of mind》一书。在那本书中，明斯基对Agent的定义有点抽象------"社会中某个个体经过协商后可求得问题的解,这个个体就是agent"。在计算机领域，agent是一种通过传感器感知其环境，并通过执行器作用于该环境的实体，因此，可以把实体定义为一种从感知序列到实体动作的映射。一般认为，Agent是指驻留在某一环境下，能持续自主地发挥作用，具备自主性、反应性、社会性、主动性等特征的计算实体。

智能，是Agent 与环境相互作用的涌现属性。

大模型中的Agent

在大模型领域，大模型替代了传统agent 中的规则引擎以及知识库，Agent提供了并寻求推理、观察、批评和验证的对话通道。特别是当配置了正确的提示和推理设置时，单个LLM就可以显示出广泛的功能，不同配置的Agent之间的对话可以帮助以模块化并以互补的方式将这些广泛的LLM功能结合起来。

开发人员可以轻松、快速地创建具有不同角色的Agent，例如，使用Agent来编写代码、执行代码、连接人工反馈、验证输出等。通过选择和配置内置功能的子集，Agent的后端也可以很容易地进行扩展，以允许更多的自定义行为。

基于大模型的常见Agent 和 Multi-Agent 系统

小结

开头我们讲了，Agent是一个目前大模型领域重要的应用方向，接下来我们也会再细分专题分别进行讨论。不在这里过多展开。

OpenAI推出的Assistants API

Assistant全名Assistant API，所以它本身不是一个APP，而是API工具箱，可以嵌入到APP中那种，所以Assistant API的应用层级应该是介于Fine-tuned Models和LLM-based APP之间，它看起来不是一个完全体应用，但也不需要像模型finetune一样需要掌握原理、数据集、方法等。

这里后面我们也单独开个专题来分享对于Assistants API的使用。

总结

本文章讲了很多在大模型应用层的很多概念，有ChatGPT的功能：plugins、GPTs、Assistant API；也有大模型的应用：agent，RAG，提示词工程的应用，finetune，训练垂直领域大模型，自己造轮子等等。

在真正聚焦于我们找到自己感兴趣和合适的深入方向之前，我们要了解现在基于大模型的应用都有些什么，才能知道我们在什么场景下，能做些什么。

大模型06-大模型应用开发之准备篇（OpenAI的plugins、GPTs、与Agent）