LLM Drift(漂移), Prompt Drift & Cascading(级联)

原文地址:LLM Drift, Prompt Drift & Cascading

提示链接可以手动或自动执行;手动需要通过 GUI 链构建工具手工制作链。自治代理在执行时利用可用的工具动态创建链。这两种方法都容易受到级联、LLM 和即时漂移的影响。

2024 年 2 月 23 日

在讨论大型语言模型(LLM)时,术语"LLM漂移"、"提示漂移"和"级联漂移"通常指的是模型性能随时间或条件变化的情况。这些术语涉及不同的概念,但都与模型的稳定性和可靠性有关。

  1. **LLM漂移**:
    这指的是大型语言模型的性能随着时间的推移而逐渐变化的现象。这种漂移可能是由于模型的训练数据随时间而变化、模型的权重调整、外部信息的影响或其他因素造成的。LLM漂移可能会导致模型的行为和输出发生变化,有时这些变化可能是不希望发生的。
  2. **提示漂移**:
    提示漂移是指在给定相同提示的情况下,模型输出随时间变化的现象。这可能是由于模型的内部变化或提示本身的微小变化导致的。提示漂移可能会影响模型的可靠性和一致性。
  3. **级联漂移**:
    级联漂移是指在多阶段或层次的任务中,一个阶段的输出影响下一个阶段的输入,从而导致整个任务链的性能下降。例如,在一个级联的问答系统中,如果第一个阶段(问题生成)的输出存在漂移,那么第二个阶段(答案生成)的性能可能会受到影响。
    为了解决这些问题,研究人员和开发者可能会采取一系列措施,如定期评估模型的性能、使用更稳定的训练数据、改进模型架构或实施更严格的质量控制措施。通过这些方法,可以减少漂移现象,提高模型的稳定性和可靠性。

LLMs漂移

LLM 漂移是指 LLM 反应在相对较短的时间内发生的明确变化。这与LLMs本质上是不确定的或与轻微的即时工程措辞变化无关;而是对LLMs的根本性改变。

最近的一项研究发现,在四个月 的时间里,GPT-4 和 GPT-3.5 的反应准确性在积极方面波动很大,但更令人担忧的是......消极方面

研究发现,GPT-3.5 和 GPT-4 差异显着,并且在某些任务上存在性能下降。

我们的研究结果强调了持续监控LLMs行为的必要性。- 来源

下图显示了四个月内模型准确性的波动。在某些情况下,弃用是相当明显的,准确率损失超过 60%。

来源

迅速漂移

LLMs的输出是不确定的,这意味着同一LLMs在不同时间的精确输入很可能会随着时间的推移产生不同的响应。

从本质上讲,这不是问题,措辞可以不同,但基本事实保持不变。

然而,在某些情况下,LLMs的反应会出现偏差。例如,LLMs已被弃用,并且通常需要迁移,正如我们最近在 OpenAI 中看到的,弃用了许多模型。因此,提示保持不变,但底层模型引用发生了变化。

推理时注入提示的数据有时也可能不同。可以说,所有这些因素都会导致一种称为即时漂移的现象。

提示漂移是指由于模型更改、模型迁移或推理时提示注入数据的变化,提示随着时间的推移会产生不同响应的现象。

引起快速漂移的原因

  • 受模型启发的切线
  • 问题提取不正确
  • LLM 的随机性和创造性的惊喜

出现了提示管理和测试接口,例如ChainForge,最近 LangChain 推出了LangSmith ,以及Vellum等商业产品。

确保在大型语言模型迁移/弃用之前可以测试生成应用程序(Gen-Apps)有明确的市场需求。

如果一个模型在很大程度上与底层的LLMs无关,那就更好了。实现这一目标的一个途径是利用大型语言模型的上下文学习 (ICL) 功能。

级联

级联是指链中的一个节点引入异常或偏差,并且这种意外异常被转移到下一个节点,在下一个节点,异常很可能会加剧。

每个节点的输出都越来越偏离预期结果。

这种现象通常称为级联。

考虑下图:

  1. 在链式应用程序中,用户输入可能是意外的或未计划的,因此从节点产生不可预见的输出。
  2. 前一个节点的输出可能不准确或产生一定程度的偏差,这种偏差在当前节点中会加剧。
  3. 由于 LLM 具有不确定性,因此 LLM 响应也可能是意外的。第三点是可以引入即时漂移或 LLM 漂移的地方。
  4. 然后节点2的输出被结转并导致偏差的级联。

结束语

不应孤立地看待即时链接,而应将即时工程视为由多个分支组成的学科。

提示 LLM 时遵循的措辞或技术也很重要,并且对输出的质量有明显的影响。

即时工程是链接的基础,即时工程的学科非常简单且易于理解。

然而,随着 LLM 领域的发展,提示正在变得可编程(通过 RAG 进行模板和上下文注入),并纳入日益复杂的结构中。

因此,链接受到代理管道思想链推理等元素的支持。

相关推荐
飞哥数智坊3 小时前
实测阿里 Qoder,但我还是失望了
人工智能·ai编程
飞凌嵌入式3 小时前
当门禁系统遇上边缘计算,RK3568核心板如何带来智能化变革
人工智能·嵌入式硬件·嵌入式·边缘计算·飞凌嵌入式
霍格沃兹软件测试开发4 小时前
Dify平台:Agent开发初学者指南
大数据·人工智能·深度学习
IAM四十二4 小时前
基于 Embedding 的本地图像搜索
人工智能·llm·openai
说私域5 小时前
数字经济时代企业营销转型:基于定制开发开源AI智能名片S2B2C商城小程序的探索
人工智能·小程序
你是个什么橙6 小时前
自然语言处理NLP:嵌入层Embedding中input_dim的计算——Tokenizer文本分词和编码
人工智能·自然语言处理·embedding
盏灯7 小时前
🔥手动干预时间不超过5分钟,Trae帮你做重复工作
人工智能·trae
我叫黑大帅7 小时前
从奶奶挑菜开始:手把手教你搞懂“TF-IDF”
人工智能·python·算法
深度学习入门7 小时前
如何使用PyTorch搭建一个基础的神经网络并进行训练?
人工智能·pytorch·python·深度学习·神经网络·ai
肥仔哥哥19307 小时前
基于OpenCv做照片分析应用一(Java)
java·人工智能·opencv·基于图片关键点分析截图