技术栈
llm评测
qq_白羊座
10 天前
llm评测
EvalScope :执行日志解析
整体概况:本次评测 deepseek-chat(V3),数据集 gsm8k(1题)+competition_math(5题,5个Level各1题),全部答对准确率 100%,总耗时约 32s,自动生成 HTML 报告 + 脚本同级 CSV(代码里自动导出)。
我是有底线的