AI工程中关于模型评估和提示工程的问题

发光的叮当猫2026-04-15 10:56

1，指令遵循能力

* 制定指令遵循标准，比如，可以从这几个类型设置指令和描述，"关键词"，"语言"，"长度限制"，"可检测内容"，"可检测格式"等。

* 角色扮演

评估模型是否保留了角色特征。

2，领域特定能力

可以通过领域特定的基准测试。MMLU，功能正确性。

3，生成能力

流畅性，连贯性，事实一致性，安全性。

4，成本和延迟

输出token成本。每分钟token数。

首个token响应时间（从请求到第一个token出现）。整个查询响应时间。（从请求到所有token生成完毕）

原则1，撰写清晰、明确的指令

原则2，提供充足的上下文

上下文构建（RAG和网络搜索）

原则3，将复杂任务拆分为更简单的子任务

更容易进行监控，调试，减轻工作量，编写简单提示词比编写复杂提示词更容易。

原则4，给模型更多思考时间

可以通过CoT(思维链)和自我批评提示词，鼓励模型花更多时间去"思考"问题。

原则5，对提示词进行迭代优化

对模型的理解加深，会有更好的编写提示词的思路。对提示词进行版本管理。

原则6，提示词的组织与版本管理

将提示词与代码分离，可复用性，可测试性，可读性，协作性。