选型总结 :测业务应用用 DeepEval;测底座大模型用 EvalScope
一、核心定位区别
表格
| 项目 | DeepEval (海外 ConfidentAI) | EvalScope (阿里 ModelScope 魔搭) |
|---|---|---|
| 本质 | LLM 应用单元测试框架(对标 Pytest) ,面向业务落地层:RAG/Agent/ 客服机器人上线质量自测DeepEval | 大模型全栈基准评测框架 ,面向模型底座层:基座选型、微调验收、跑分、性能压测 |
| 核心思想 | 写用例→设阈值→自动化 pass/fail,接入 CI 拦截上线 | 跑标准数据集→横向多模型跑分→批量对比能力得分 |
| 数据源 | 自定义业务测试用例(自己录入用户 query、标准答案) | 内置海量公开学术数据集:C-Eval/GSM8K/MMLU/HumanEval 等 |
二、关键能力明细
1. 评测指标体系
- DeepEval :全部以LLM-as-judge 打分 为主(G-Eval/DAG) RAG 四件套:AnswerRelevancy/Faithfulness/ContextPrecision/Recall; Agent 专项:工具调用正确率、步骤完整性、任务达成率; 安全:偏见、毒性、隐私泄露;无客观准确率指标。
- EvalScope:双路线 1)客观跑分:选择题准确率、代码 pass@k(C-Eval/GSM8K); 2)LLM 打分:集成 Ragas 做 RAG 评测; 额外:MTEB (Embedding)、VLMEvalKit (多模态图文) 全套指标。
2. RAG 评测差异
- DeepEval:单条用例精细化调试,支持链路 Trace,拆分检索 / 生成组件单独打分,改 Prompt / 切片规则快速复测,适合迭代优化 RAG 业务。
- EvalScope:批量全数据集跑分,一次性换多种 Embedding / 向量库批量对比召回,适合选型摸底,不适合单用例调试。
3. Agent / 多轮对话
- DeepEval 强项:原生 Trace 追踪多步骤工具调用、分支逻辑、多轮上下文一致性,业内 Agent 评测首选DeepEval。
- EvalScope 弱项:无原生 Agent 链路拆解,只能端到端批量输出打分。
4. 独有能力
- DeepEval 独有: Pytest 语法、CI/CD 流水线门禁(不达标阻断发布); G-Eval 自然语言自定义评分规则; 生产实时埋点评测、在线样本回流复测。
- EvalScope 独有: 推理并发压测(TTFT、吞吐、延迟,DeepEval 完全没有); 多模态 VLM、文生图、Embedding/Reranker 全品类评测; 一键对接 ms-swift 微调,训练完自动跑分; Web 看板多模型横向雷达对比跑分。
5. 部署 & 裁判模型
- DeepEval:默认 OpenAI,一键切换 Ollama/DeepSeek 本地大模型当裁判,侧重应用输出质量打分。
- EvalScope:被测模型可以是本地 HF/ModelScope 权重、vLLM/OpenAI 格式 API;评测裁判可本地私有化部署。
三、适用场景(选型)
选 DeepEval 的场景
- 自研客服 RAG、知识库问答、企业 Agent,上线前自动化回归测试;
- Prompt 迭代、知识库切片优化、检索器更换,小批量用例快速验证效果;
- 研发流程 CI 集成,AI 应用改动自动跑测,不合格禁止合并上线;
- 合规校验:检查输出有没有隐私、违规话术、幻觉内容DeepEval。
选 EvalScope 的场景
- 基座选型:Qwen/DeepSeek/Llama 批量跑 C-Eval/GSM8K,量化选型数据;
- 微调验收:用 Swift 微调后,对比微调前后基准分数;
- Embedding/Reranker 批量选型、多模态图文模型跑分;
- LLM 服务上线前性能压测,测并发、延迟、算力上限。
四、极简代码风格对比
DeepEval(单用例,断言式)
python
运行
# 一条业务用例,设置阈值0.7,不达标抛异常阻断CI
case = LLMTestCase(input="退换货规则",actual_output="30天无理由",retrieval_context=["30天无理由退换"])
metric = AnswerRelevancyMetric(threshold=0.7)
assert_test(case,[metric])
EvalScope(批量数据集,配置式)
python
运行
# 批量跑C-Eval+GSM8K,统计全量准确率
cfg=TaskConfig(model="Qwen2.5",datasets=["ceval","gsm8k"])
run_task(cfg)
五、组合使用最佳实践(企业常用)
- 底座阶段 → EvalScope:筛选基座、微调、性能压测;
- 业务开发 → DeepEval:RAG/Agent 调试、用例沉淀、CI 自动化验收。