⚪AI模型的评估标准
1,指令遵循能力
* 制定指令遵循标准,比如,可以从这几个类型设置指令和描述,"关键词","语言","长度限制","可检测内容","可检测格式"等。
* 角色扮演
评估模型是否保留了角色特征。
2,领域特定能力
可以通过领域特定的基准测试。MMLU,功能正确性。
3,生成能力
流畅性,连贯性,事实一致性,安全性。
4,成本和延迟
输出token成本。每分钟token数。
首个token响应时间(从请求到第一个token出现)。整个查询响应时间。(从请求到所有token生成完毕)
⚪提示工程最佳实践
原则1,撰写清晰、明确的指令
- 使用分隔符清楚的指示输入的不同部分
- 要求模型采用某种角色设定
- 提供少样本示例
- 明确指定输出格式
- 要求模型检查是否满足条件
原则2,提供充足的上下文
上下文构建(RAG和网络搜索)
原则3,将复杂任务拆分为更简单的子任务
更容易进行监控,调试,减轻工作量,编写简单提示词比编写复杂提示词更容易。
原则4,给模型更多思考时间
可以通过CoT(思维链)和自我批评提示词,鼓励模型花更多时间去"思考"问题。
- 指定完成任务所需的步骤。
- 指示模型在匆忙做出结论之前思考解决方案。
原则5,对提示词进行迭代优化
对模型的理解加深,会有更好的编写提示词的思路。对提示词进行版本管理。
原则6,提示词的组织与版本管理
将提示词与代码分离,可复用性,可测试性,可读性,协作性。