大模型测评

糖果店的幽灵

大模型测评DeepEval快速入门-RAG指标详解文档基于 DeepEval v4.1.0 编写来源：https://deepeval.com/docs/metrics-answer-relevancy 等

司南OpenCompass

AAAI 2026｜SDEval：首个面向多模态模型的安全动态评估框架随着多模态大语言模型（MLLMs）能力不断增强，其生成结果偏离预期、产生不真实甚至有害内容的风险也同步上升。尽管已有较完善的安全评测体系，但可靠评估仍面临三大挑战：

司南OpenCompass

Gemini-3-Pro 强势登顶，GPT-5.1 转向“创作型选手”？丨多模态模型11月最新榜单揭晓多模态大模型的崛起，正在重新定义我们理解与使用 AI 的方式。当模型能够像人类一样，将图像、文本、语音、视频等信息自然融会贯通时，它便获得了更完整、更真实的世界视角。跨模态的统一认知让 AI 不再停留在“看见”“听到”的感知层面，而是能够读懂语境、推演逻辑、辅助决策，展现出向通用智能迈进的关键能力。随着算法、数据与算力的不断进化，多模态大模型正加速从实验室走向产业深处，在越来越多的应用场景中持续释放价值，引领智能时代的全面升级与加速到来。

我是有底线的