司南评测

司南OpenCompass

GPT领跑，头部模型“错位竞争”，强Agent能力成下一战场丨大语言模型4月最新榜单揭晓大模型技术在全球范围内加速演进，智能体能力不断深化，从多步执行走向多智能体协同，从辅助工具走向独立执行者，开始在跨平台、跨应用的真实场景中端到端地完成任务；推理能力在数学、科学等高难度任务上持续突破，可靠性进一步提升。模型的自进化能力亦在涌现，能够在执行中主动调整策略并迭代优化。长线程任务能力的增强，让模型得以在大型工程中稳步推进，承担起高度复杂的生产力任务。

司南OpenCompass

Gemini-3-Pro-Preview登顶，大模型迈入Agent元年丨大语言模型1月最新榜单揭晓进入 2026 年，全球大模型技术持续加速演进，新一轮模型发布不断刷新能力边界。行业关注重点从基础能力指标，转向模型在真实复杂场景中的综合表现。各类模型持续强化智能体相关能力，在编程、推理、工具调用与信息检索等关键方向不断提升，全面增强解决实际问题的能力。与此同时，中国大模型在全球舞台上持续受到关注，越来越多模型在海外社区引发热议，展现出中国在大模型日益增强的技术实力与创新活力。

司南OpenCompass

当模型开始“记住”评测，如何用动态数据对抗污染？（上篇）随着大模型能力的持续跃升，一个不容忽视的现象逐渐显现：越来越多的评测，正在被模型“记住”。无论是安全评测、通用能力评测，还是面向科学推理的专业基准，一次性构建的静态数据集都难以在模型快速迭代的背景下长期保持区分力。模型可能并非真正理解了问题，而是学会了如何应对固定测试。

司南OpenCompass

司南“六位一体”评测体系的一年演进过去一年，通用人工智能在模型规模、能力边界与应用深度上持续突破。大模型正从通用问答走向科研发现、产业应用与真实世界交互，系统复杂性与潜在风险同步上升。在这一背景下，如何构建科学、公正、可复现的评测体系，持续刻画 AI 能力边界、引导技术健康演进，成为支撑人工智能高质量发展的关键基础设施问题。

司南OpenCompass

衡量AI真实科研能力！司南科学智能评测上线随着人工智能与科学研究的深度融合，AI 驱动的科学发现正进入加速发展期。在这一背景下，如何科学、客观地衡量模型在真实科研场景中的能力，已成为推动 AI for Science 可持续发展的关键。

司南OpenCompass

AAAI 2026｜SDEval：首个面向多模态模型的安全动态评估框架随着多模态大语言模型（MLLMs）能力不断增强，其生成结果偏离预期、产生不真实甚至有害内容的风险也同步上升。尽管已有较完善的安全评测体系，但可靠评估仍面临三大挑战：

司南OpenCompass

Gemini-3-Pro 强势登顶，GPT-5.1 转向“创作型选手”？丨多模态模型11月最新榜单揭晓多模态大模型的崛起，正在重新定义我们理解与使用 AI 的方式。当模型能够像人类一样，将图像、文本、语音、视频等信息自然融会贯通时，它便获得了更完整、更真实的世界视角。跨模态的统一认知让 AI 不再停留在“看见”“听到”的感知层面，而是能够读懂语境、推演逻辑、辅助决策，展现出向通用智能迈进的关键能力。随着算法、数据与算力的不断进化，多模态大模型正加速从实验室走向产业深处，在越来越多的应用场景中持续释放价值，引领智能时代的全面升级与加速到来。

司南OpenCompass

司南评测集社区 3 月上新一览！司南评测集社区 CompassHub 作为司南评测体系的重要组成部分，旨在打创新性的基准测试资源导航社区，提供丰富、及时、专业的评测集信息，帮助研究人员和行业人士快速搜索和使用评测集。

我是有底线的