llm评测 - llm评测技术,学习,经验文章

qq_白羊座

2 个月前

EvalScope ：执行日志解析整体概况：本次评测 deepseek-chat(V3)，数据集 gsm8k(1题)+competition_math(5题，5个Level各1题)，全部答对准确率 100%，总耗时约 32s，自动生成 HTML 报告 + 脚本同级 CSV（代码里自动导出）。