司南评测

司南OpenCompass1 天前
人工智能·大模型·多模态模型·大模型评测·司南评测·ai评测
司南“六位一体”评测体系的一年演进过去一年,通用人工智能在模型规模、能力边界与应用深度上持续突破。大模型正从通用问答走向科研发现、产业应用与真实世界交互,系统复杂性与潜在风险同步上升。在这一背景下,如何构建科学、公正、可复现的评测体系,持续刻画 AI 能力边界、引导技术健康演进,成为支撑人工智能高质量发展的关键基础设施问题。
司南OpenCompass14 天前
人工智能·多模态模型·大模型评测·司南评测
衡量AI真实科研能力!司南科学智能评测上线随着人工智能与科学研究的深度融合,AI 驱动的科学发现正进入加速发展期。在这一背景下,如何科学、客观地衡量模型在真实科研场景中的能力,已成为推动 AI for Science 可持续发展的关键。
司南OpenCompass20 天前
人工智能·多模态模型·大模型评测·司南评测·大模型测评·大模型安全评估·动态评估
AAAI 2026|SDEval:首个面向多模态模型的安全动态评估框架随着多模态大语言模型(MLLMs)能力不断增强,其生成结果偏离预期、产生不真实甚至有害内容的风险也同步上升。尽管已有较完善的安全评测体系,但可靠评估仍面临三大挑战:
司南OpenCompass22 天前
人工智能·多模态模型·大模型评测·司南评测·大模型测评
Gemini-3-Pro 强势登顶,GPT-5.1 转向“创作型选手”?丨多模态模型11月最新榜单揭晓多模态大模型的崛起,正在重新定义我们理解与使用 AI 的方式。当模型能够像人类一样,将图像、文本、语音、视频等信息自然融会贯通时,它便获得了更完整、更真实的世界视角。跨模态的统一认知让 AI 不再停留在“看见”“听到”的感知层面,而是能够读懂语境、推演逻辑、辅助决策,展现出向通用智能迈进的关键能力。随着算法、数据与算力的不断进化,多模态大模型正加速从实验室走向产业深处,在越来越多的应用场景中持续释放价值,引领智能时代的全面升级与加速到来。
司南OpenCompass9 个月前
人工智能·大模型评测·司南评测·司南评测集社区
司南评测集社区 3 月上新一览!司南评测集社区 CompassHub 作为司南评测体系的重要组成部分,旨在打创新性的基准测试资源导航社区,提供丰富、及时、专业的评测集信息,帮助研究人员和行业人士快速搜索和使用评测集。
我是有底线的