AI工程中关于模型评估和提示工程的问题

⚪AI模型的评估标准

1,指令遵循能力

* 制定指令遵循标准,比如,可以从这几个类型设置指令和描述,"关键词","语言","长度限制","可检测内容","可检测格式"等。

* 角色扮演

评估模型是否保留了角色特征。

2,领域特定能力

可以通过领域特定的基准测试。MMLU,功能正确性。

3,生成能力

流畅性,连贯性,事实一致性,安全性。

4,成本和延迟

输出token成本。每分钟token数。

首个token响应时间(从请求到第一个token出现)。整个查询响应时间。(从请求到所有token生成完毕)

⚪提示工程最佳实践

原则1,撰写清晰、明确的指令

  • 使用分隔符清楚的指示输入的不同部分
  • 要求模型采用某种角色设定
  • 提供少样本示例
  • 明确指定输出格式
  • 要求模型检查是否满足条件

原则2,提供充足的上下文

上下文构建(RAG和网络搜索)

原则3,将复杂任务拆分为更简单的子任务

更容易进行监控,调试,减轻工作量,编写简单提示词比编写复杂提示词更容易。

原则4,给模型更多思考时间

可以通过CoT(思维链)和自我批评提示词,鼓励模型花更多时间去"思考"问题。

  • 指定完成任务所需的步骤。
  • 指示模型在匆忙做出结论之前思考解决方案。

原则5,对提示词进行迭代优化

对模型的理解加深,会有更好的编写提示词的思路。对提示词进行版本管理。

原则6,提示词的组织与版本管理

将提示词与代码分离,可复用性,可测试性,可读性,协作性。

相关推荐
AI精钢1 天前
DeepSeek KV Cache 入门解读:98% 命中率背后的工程逻辑
大模型·llm推理·kv cache·deepseek·ai工程
AI精钢1 天前
RAG 的 Chunking 有什么好方案?从原理到实战选型
llm·向量检索·rag·ai工程·chunking
AI精钢1 天前
如何提高 RAG 的检索质量?这才是真正的瓶颈所在
大模型·llm·向量检索·rag·ai工程
__土块__4 天前
AI 管理后台首页信息过载治理:从指标泛滥到决策摘要的视图重构实践
异常检测·可观测性·故障排查·信息架构·ai工程·管理后台设计·状态机建模
__土块__4 天前
AI 管理后台的信息架构设计:从状态流转到决策视图的工程落地
mcp协议·rag系统·ai工程·agent架构·管理后台设计·状态机建模·系统可观测性
__土块__5 天前
AI 后台任务静默丢失的链路治理:从状态机缺陷到可观测性闭环的工程复盘
可观测性·任务调度·系统稳定性·监控告警·重试机制·ai工程·状态机设计
__土块__6 天前
AI 系统可观测性落地:从请求链路到管理后台的指标决策实践
状态机·可观测性·系统稳定性·故障排查·管理后台·监控告警·ai工程
__土块__6 天前
AI 任务执行链路中的终态一致性治理:从静默卡住到分层巡检的工程实践
任务调度·系统稳定性·监控告警·重试机制·ai工程·状态机设计·终态一致性
__土块__13 天前
AI 会话记忆模块静默失效:一次从链路耦合到分层治理的工程复盘
可观测性·系统稳定性·生产故障·ai工程·会话记忆·故障复盘·后台设计
__土块__13 天前
AI 任务调度器频繁超时:一次从线程争用到执行隔离的工程复盘
线程池·可观测性·任务调度·系统稳定性·生产故障·ai工程·执行隔离