day 2 promote工程

LLM的智能和人的智能区别(非技术视角): LLM的智能是怎么来的:

1 - 什么是next token prediction:根据上文猜测下一个文字是啥

2 - QKV怎么影响next token prediction,简单来说是收到query后(希望llm输出什么字符),LLM会去看一遍key&value(在这之前都有啥字符),把其中关系(考虑距离和相关性)比较高的内容结合在一起,然后猜下一个字符是啥

3 - 所以transfomer的基本逻辑是,完形填空,永远只填最后一个字(conversation也是人为构建的,没有真正意义的conversation存在,每次都是全量上下文一起进,一轮对话只是一个在末尾的段落)

4 - 简单粗暴的概括,LLM智能是因为预训练阶段见过足够多的完形填空,所以比较能猜,这也是scaling law的本质,假设见过足够多的数据,是不是就总是能猜对。但实际上LLM并没有建立自己的逻辑体系(最近ilya的一篇访谈"scaling的时代已经结束"很值得看一下mp.weixin.qq.com/s/fGlYeGC79... 10,000 小时题目的学生,虽然能解题但缺乏真正的智能;而人类(有天赋的学生)即使练习很少,也能展现出更好的泛化能力。)

因此,对于当前的LLM来说,写prompt的本质是构建一个让ta能够更容易猜到答案的完形填空的环境 进一步的,可以把这个原则拆解成下列几个子原则:

1 - 说明当前任务所处的环境至关重要,不说明环境就提要求相当于不给说明书就开始要求组装乐高

2 - 如果不是和任务息息相关,尽可能不要提及太多特殊/个性化的黑话,这些数据在llm训练时很可能也没见过

3 - 确保每条规则都独立存在不互相影响,以及尽可能减少规则式(if else)的要求,规则越多,模型越容易错误参考,让模型自身的填空机制做出更符合预测的选择

4 - 尽量减少对任务无意义的context和减少重复的context,前者会增加填空参考错误信息的风险,后者会增加填空复读的风险

5 - 按照逻辑顺序,越基础、全局、重要的放在前面,因为模型是按顺序读信息的------前面的内容应该是"基础",后面的内容才是"在这个基础上要做什么"。顺序乱了,模型就更容易猜错。

6 - 相关性强的内容不要分散的放在模型的各处,会分散模型的注意力,尽量都聚合在距离比较近的地方

进一步的,Context工程到底是啥,其实就干四件事:

1 - 怎么帮助模型减少冗余的、可能会干扰填空的上下文

2 - 怎么从一堆数据里找到需要增加给模型的重要的上下文(<=100%一堆数据),强化模型填空的偏向

3 - 怎么定义不同类型的上下文的结构(包括模型自己输出的数据),提高模型填空的稳定性

4 - 怎么排序上下文,更符合模型常见的数据结构

如何判断要不要上工程:

1 - 不是模型做不好就立刻上工程,先检查prompt是不是符合原则,prompt问题大,上了工程也未必解决问题

2 - 超关键场景,需要追求成功率的,别犹豫,直接上工程,从业务逻辑追加的规则也会有幻觉(越特别的、越黑话的 规则,幻觉的概率越大) 3 - 剩下的,商量着来吧,毕竟模型就是个概率学的玩意儿,看看资源优先级,多调调prompt,80%-85%也是提升不是

特别重要的放最后: 都是猜了,要习惯稳定性和准确性的概率风险,也要习惯假设逻辑可能是错的,实验是检验llm的唯一真理

相关推荐
竹林81812 分钟前
Solana DApp 开发踩坑实录:从零用 @solana/web3.js 实现链上数据查询与交易签名
前端·javascript
梯度不陡33 分钟前
Signal #17:Agent 开始进入组织系统
前端·javascript
胡萝卜术1 小时前
从暴力到Z字形消元:力扣240「搜索二维矩阵II」的降维打击之路
前端·javascript·面试
云浪2 小时前
前端二进制数组完全指南:ArrayBuffer、TypedArray、DataView 一次讲透
前端·javascript
铁皮饭盒2 小时前
26年bunjs, elysia+pg一把梭, redis都省了
前端·javascript·后端
kyriewen15 小时前
别再对着 TypeScript 报错发呆了:我把 10 个最常见的红色波浪线翻译成了人话
前端·javascript·typescript
free3516 小时前
从 0 实现一个 Tiny JavaScript VM:项目架构拆解
javascript
徐小夕18 小时前
我们开源了一款“框架无关”的思维导图编辑器,3分钟集成到任意系统
前端·javascript·github
PBitW18 小时前
GPT训练我的第三天,明白了应该咋说满分回答!😕😕😕
前端·javascript·面试
像我这样帅的人丶你还18 小时前
Java 后端详解(四):分页与搜索
java·javascript·后端