浅窥Claude-Prompting for Agents的Talk

Prompting for Agents

先说一句:颜值这么高,你俩要出道啊。

此图基本就是claude倡导的agent prompt结构了,可以看到经过一年时间的演变,基本都是follow这个结构去写prompt。我比较喜欢用Role→react→task→histroy→few shot→rules/guidelines这个结构

可以根据这个表评估一下,直接丢给AI也可以

目前比较常见的就这几个了吧,做的都比较成熟了,当然啦,还有目前超火的AI scientist

  1. Jeremy觉得prompt是很重要的,prompt作为概念工程就是人在给AI赋予insight。
  2. 去设计agent要以agent的角度去思考,把他当成Intern去教,搜索的时候tool 的使用次数,什么时候停止,要清楚的写出来。
  3. tool selection比较重要, 可能需要你再fewshot和tool description的时候做的比较详细
  4. 另外一个option就是构建好thought,这个可以依赖模型本身提升比如说RL和人工few shot
  5. prompt可能会导致agent无止境的调用tool并且没有答案,所以emm,加点rules吧,这也是为啥RL一定程度上对agent很重要
  6. 控制context也就是chat history怎么弄呢,compress,然后summary,绝大情况下还好,但summary肯定会丢一丢丢细节。我觉得目前agent memory部分的工作需要做的更方便易用一点,同时尽可能保留足够多的细节,同志们还要努力啊。multiagent某种程度上会缓解这个部分问题,其是看任务场景的话,大部分好用的实现都是agent as tools,整体还行。

展示了一个好的tool design的例子,这个确实比我们的做的详细,很多人偷懒不会写那么多parameter进去,但是这个对系统扩展不是很友好,我个人不喜欢这种做法,如果不是官方tool call,就用自然语言去描述就比较方便,anyone can make any tools,当然还有一些工作是让agent自己写tool加进去的,或许有用。。。但是想想就觉得不是很稳定

claude有个模拟器,牛啊,你可以测试并迭代你的prompt,thought什么的都有展示,有点像langsmith。

eval也是比较重要的一环,感觉可以来个综合策略去eval?

  1. 这个就是测试的工作啦,面对极端的case,抗压测测
  2. LLM judge,有点用但不多
  3. 终极解法:转人工。所以human in the loop 是不可或缺的一环。

一些cases,anyway, try you best to eval.

相关推荐
Sirius Wu7 小时前
意图&实体ToolCall_Prompt调优
人工智能·机器学习·语言模型·prompt·aigc
zhumin7267 小时前
一种基于人类行为—内分泌映射的大语言模型动态情绪系统:从生理数据标定到虚拟激素驱动决策的工程化框架
人工智能·语言模型·自然语言处理
生成论实验室13 小时前
判断力与六十四卦:AI的第三块基石
人工智能·语言模型·机器人·自动驾驶·安全架构
挂科边缘14 小时前
手把手教你使用 Faster-Whisper 实时语音输入转文本,本地部署教程
人工智能·语言模型·whisper·faster-whisper·实时语音输入转文本
我爱cope15 小时前
【Agent智能体23 | 规划-规划工作流】
人工智能·设计模式·语言模型·职场和发展
生成论实验室15 小时前
降U动力学:用一套原理统一解释21项AI技术
人工智能·语言模型·机器人·自动驾驶·安全架构
樱花的浪漫17 小时前
Typescript、Zod基础
前端·javascript·人工智能·语言模型·自然语言处理·typescript
AI人工智能+17 小时前
药品注册证识别技术利用深度学习和多模态融合架构,实现药品注册证信息的自动化精准提取
深度学习·语言模型·自然语言处理·ocr·药品注册证识别
像风一样自由202018 小时前
量化压缩实战:INT8 / INT4 / AWQ / GPTQ 全面对比
android·人工智能·语言模型·大模型
P-ShineBeam18 小时前
智能体-LangChain框架-Tools工具的使用指南
数据库·人工智能·语言模型·自然语言处理·langchain