司南评测

司南OpenCompass1 小时前
人工智能·多模态模型·大模型评测·司南评测·大模型测评·大模型安全评估·动态评估
AAAI 2026|SDEval:首个面向多模态模型的安全动态评估框架随着多模态大语言模型(MLLMs)能力不断增强,其生成结果偏离预期、产生不真实甚至有害内容的风险也同步上升。尽管已有较完善的安全评测体系,但可靠评估仍面临三大挑战:
司南OpenCompass2 天前
人工智能·多模态模型·大模型评测·司南评测·大模型测评
Gemini-3-Pro 强势登顶,GPT-5.1 转向“创作型选手”?丨多模态模型11月最新榜单揭晓多模态大模型的崛起,正在重新定义我们理解与使用 AI 的方式。当模型能够像人类一样,将图像、文本、语音、视频等信息自然融会贯通时,它便获得了更完整、更真实的世界视角。跨模态的统一认知让 AI 不再停留在“看见”“听到”的感知层面,而是能够读懂语境、推演逻辑、辅助决策,展现出向通用智能迈进的关键能力。随着算法、数据与算力的不断进化,多模态大模型正加速从实验室走向产业深处,在越来越多的应用场景中持续释放价值,引领智能时代的全面升级与加速到来。
司南OpenCompass8 个月前
人工智能·大模型评测·司南评测·司南评测集社区
司南评测集社区 3 月上新一览!司南评测集社区 CompassHub 作为司南评测体系的重要组成部分,旨在打创新性的基准测试资源导航社区,提供丰富、及时、专业的评测集信息,帮助研究人员和行业人士快速搜索和使用评测集。
我是有底线的