技术栈

评测集

山顶夕景
13 小时前
大模型·agent·评估·评测集
【Agent】Evaluation and Benchmarking of LLM Agents: A Survey现在 LLM Agent 越来越复杂: 会规划、用工具、有记忆、能多轮互动、能协作但 评测方法仍停留在 LLM 级别:
我是有底线的