技术栈
评测集
山顶夕景
13 小时前
大模型
·
agent
·
评估
·
评测集
【Agent】Evaluation and Benchmarking of LLM Agents: A Survey
现在 LLM Agent 越来越复杂: 会规划、用工具、有记忆、能多轮互动、能协作但 评测方法仍停留在 LLM 级别:
我是有底线的