AI工程中关于模型评估和提示工程的问题

⚪AI模型的评估标准

1,指令遵循能力

* 制定指令遵循标准,比如,可以从这几个类型设置指令和描述,"关键词","语言","长度限制","可检测内容","可检测格式"等。

* 角色扮演

评估模型是否保留了角色特征。

2,领域特定能力

可以通过领域特定的基准测试。MMLU,功能正确性。

3,生成能力

流畅性,连贯性,事实一致性,安全性。

4,成本和延迟

输出token成本。每分钟token数。

首个token响应时间(从请求到第一个token出现)。整个查询响应时间。(从请求到所有token生成完毕)

⚪提示工程最佳实践

原则1,撰写清晰、明确的指令

  • 使用分隔符清楚的指示输入的不同部分
  • 要求模型采用某种角色设定
  • 提供少样本示例
  • 明确指定输出格式
  • 要求模型检查是否满足条件

原则2,提供充足的上下文

上下文构建(RAG和网络搜索)

原则3,将复杂任务拆分为更简单的子任务

更容易进行监控,调试,减轻工作量,编写简单提示词比编写复杂提示词更容易。

原则4,给模型更多思考时间

可以通过CoT(思维链)和自我批评提示词,鼓励模型花更多时间去"思考"问题。

  • 指定完成任务所需的步骤。
  • 指示模型在匆忙做出结论之前思考解决方案。

原则5,对提示词进行迭代优化

对模型的理解加深,会有更好的编写提示词的思路。对提示词进行版本管理。

原则6,提示词的组织与版本管理

将提示词与代码分离,可复用性,可测试性,可读性,协作性。

相关推荐
AI精钢1 天前
Adaptive Thinking 的代价:当 AI 自己决定“想多少“
人工智能·llm·claude·ai工程·ai可靠性
发光的叮当猫1 天前
AI工程可能会遇到的一些问题
人工智能·微调·rag·ai工程
蔡俊锋9 天前
AI提示词零基础入门:从“无效提问”到“精准输出”,核心方法论全拆解
人工智能·ai提示词·ai工程·ai沟通
蔡俊锋10 天前
用AI实现乐高式大型可插拔系统的技术方案
人工智能·ai工程·ai原子能力·ai乐高工程
YoanAILab17 天前
大模型平台是怎么跑起来的?从 GPU 到 API 全链路拆解(工程视角)
大模型部署·ai平台·ai工程·ai基础设施·ai项目实战
YoanAILab18 天前
Dify 是怎么工作的?一篇讲清 AI 应用平台架构(工程视角)
人工智能·dify·rag·技术成长·ai平台·ai工程
YoanAILab19 天前
AI 推理系统架构怎么选?图像生成与文本生成的分层选型思路(ComfyUI / Dify / vLLM / Triton)
人工智能·系统架构·comfyui·dify·vllm·ai工程
寒水馨9 个月前
构建企业级 AI Agent:不只是 Prompt 工程,更是系统工程
人工智能·ai·prompt·agent·ai agent·ai工程