AI工程中关于模型评估和提示工程的问题

⚪AI模型的评估标准

1,指令遵循能力

* 制定指令遵循标准,比如,可以从这几个类型设置指令和描述,"关键词","语言","长度限制","可检测内容","可检测格式"等。

* 角色扮演

评估模型是否保留了角色特征。

2,领域特定能力

可以通过领域特定的基准测试。MMLU,功能正确性。

3,生成能力

流畅性,连贯性,事实一致性,安全性。

4,成本和延迟

输出token成本。每分钟token数。

首个token响应时间(从请求到第一个token出现)。整个查询响应时间。(从请求到所有token生成完毕)

⚪提示工程最佳实践

原则1,撰写清晰、明确的指令

  • 使用分隔符清楚的指示输入的不同部分
  • 要求模型采用某种角色设定
  • 提供少样本示例
  • 明确指定输出格式
  • 要求模型检查是否满足条件

原则2,提供充足的上下文

上下文构建(RAG和网络搜索)

原则3,将复杂任务拆分为更简单的子任务

更容易进行监控,调试,减轻工作量,编写简单提示词比编写复杂提示词更容易。

原则4,给模型更多思考时间

可以通过CoT(思维链)和自我批评提示词,鼓励模型花更多时间去"思考"问题。

  • 指定完成任务所需的步骤。
  • 指示模型在匆忙做出结论之前思考解决方案。

原则5,对提示词进行迭代优化

对模型的理解加深,会有更好的编写提示词的思路。对提示词进行版本管理。

原则6,提示词的组织与版本管理

将提示词与代码分离,可复用性,可测试性,可读性,协作性。

相关推荐
__土块__3 天前
AI 系统后台可观测性治理:从请求链路断裂到分层指标归因的闭环设计
可观测性·系统稳定性·ai工程·生产实践·终态一致性·管理后台设计·指标归因
__土块__4 天前
AI 后台请求链路可观测性治理:从静默状态丢失到分层指标归因的工程实践
可观测性·rag系统·ai工程·管理后台设计·静默故障·agent系统·链路监控
__土块__5 天前
AI 会话记忆模块静默失效治理:从状态丢失到分层终态校验的工程实践
故障治理·系统稳定性·会话管理·ai工程·生产实践·终态一致性·静默故障
__土块__7 天前
AI 巡检系统上线后静默漏报治理:从链路状态盲区到分层监控与自动补偿的设计实践
巡检系统·rag系统·ai工程·静默故障·agent系统·链路监控·自动补偿
__土块__7 天前
AI 任务编排系统静默阻塞故障复盘:从状态机设计缺陷到分层调度与补偿机制的工程实践
系统稳定性·故障排查·任务编排·ai工程·生产实践·状态机设计·静默故障
__土块__11 天前
多模型路由上线后静默降级故障复盘:从健康检查失效到动态权重补偿
系统稳定性·健康检查·rag系统·ai工程·模型路由·静默故障·降级策略
XD74297163612 天前
科技早报晚报|2026年5月18日:Agent 原生语言、代码语义图谱与 Rust 数据层,今天更值得跟进的 3 个技术机会
开发语言·科技·rust·科技新闻·开发者工具·ai工程
__土块__13 天前
AI 管理后台首页信息过载:从用户决策失效到摘要视图重构
可观测性·信息架构·mcp协议·rag系统·ai工程·管理后台设计·agent系统
__土块__13 天前
AI 管理后台稳定性治理:从静默超时到链路背压的监控体系设计
可观测性·系统稳定性·ai工程·管理后台设计·静默故障·链路背压·异步探活
__土块__14 天前
AI 后台任务调度中的静默跳过治理:从链路背压到状态补偿的稳定性实践
状态机·可观测性·任务调度·系统稳定性·ai工程·静默故障·背压控制