司南“六位一体”评测体系的一年演进

过去一年,通用人工智能在模型规模、能力边界与应用深度上持续突破。大模型正从通用问答走向科研发现、产业应用与真实世界交互,系统复杂性与潜在风险同步上升。在这一背景下,如何构建科学、公正、可复现的评测体系,持续刻画 AI 能力边界、引导技术健康演进,成为支撑人工智能高质量发展的关键基础设施问题。

作为由上海人工智能实验室打造的创新开放评测体系,司南 在过去一年中持续演进,评测范围从通用大模型 扩展至 AI 计算系统、科学智能、具身智能、安全可信与垂类行业应用 六大核心版块,构建起 "六位一体"的全景评估范式**。**

司南官网链接:

https://opencompass.org.cn/home

这一年,司南持续输出评测结果与行业观察,累计评测 100+ 大语言模型**,120+** 多模态模型,发布近 80次公开评测榜单,评测范围与体系完整度不断提升。

在评测基准建设方面,司南推出多个具有行业影响力的评测基准。其中,具身智能训测数据集 InternData-A1 和 InternData-M1 发布后一度登上 Hugging Face Trending 榜单,获得国际社区的广泛关注。此外,上海人工智能实验室研发的 OmniDocBench 被 Gemini3.0 引用。最近,字节 Seed1.8 发布时在能力评测中采用多图像空间智能视觉问答评测基准 MMSI-Bench 以及大模型科学认知评测基准 SFE 进行能力验证,体现了相关评测基准在前沿模型真实评测中的实用价值。

与此同时,司南评测集社区持续迭代,新增 Daily Benchmark 版块,全年上线超 500 个评测集,持续提升优质评测工作的可见度与复用价值,为评测研究提供稳定、可持续的基础支撑。

在学术成果方面,司南在 CCF-A 类会议上发表数十篇高质量论文,涵盖生成理解一体化、医疗评测、动态安全评测等多个重要研究方向。此外,司南牵头组织了中国电子学会年会和中国图像图形学学会多媒体技术大会的评测专题论坛,吸引了大量国内外学者的广泛关注与参与,获得了学术界的高度认可。

围绕评测体系的长期建设,司南不断深化与头部企业、高校与科研机构的协同合作,推进评测标准制定、榜单共建与垂直领域评测体系建设,逐步形成开放、协同、可持续的评测生态。通过多场评测技术直播与公开交流,司南连接全球前沿研究与产业实践者,持续向社区输出评测方法论、工程经验与前沿洞察。

面向人工智能发展前沿的评测基础设施

不同于以商业化或单点任务为导向的传统测评机构,司南自诞生之初即定位为服务国家 AI 发展战略,面向人工智能发展前沿的评测基础设施。

  • 立足国家人工智能发展全局,聚焦多模态大模型、智能体系统等前沿方向,构建具有自主知识产权、覆盖全生命周期、支撑技术演进的大模型评测理论体系与能力框架,为我国大模型技术自主可控和安全可信提供基础性、战略性支撑。

  • 坚持"理论先行、框架引领",围绕模型内部机理、外部行为、安全属性等维度,构建结构清晰、指标可量化、能力可追溯的多维评测体系,实现对大模型能力短板与风险源的精准识别与系统诊断。

  • 坚持"评测引领模型发展",通过前瞻性评测研究,持续定义能够真实衡量模型能力演进的评测基准。围绕模型能力发展的不同阶段,司南研发并开源了 MMBench、RISEBench、MVBench、VBench 等一系列具有代表性的评测集,系统呈现模型在多关键能力上的真实水平。

  • 构建面向模型迭代的动态评测机制,研发智能评审器、程序化验证引擎与自生成评测题库系统,融合反事实扰动、对抗测试等先进方法,实现评测流程的自动化、动态化与高鲁棒性,显著降低对人工干预的依赖,提升评测效率、覆盖范围与评测深度,为大规模模型迭代提供高效支撑。司南目前已初步搭建覆盖"数据、工具、接口与服务"的"四位一体"自动化评测平台,累积评测模型 13万+ 次。

"六位一体"的全景评估范式

司南现已形成覆盖AI 计算系统---通用大模型-科学智能---具身智能---安全可信---垂类行业应用,"六位一体"的全景评估范式,打通从底层算力到上层智能、从通用能力到科研创新的全链路关键能力,为行业提供一站式、全景化的 AI 能力刻度。

通用大模型评测

在通用大模型评测领域,司南形成了包含"评测工具---评测基准---评测榜单"三位一体的开放评测体系 OpenCompass,支持大语言模型、多模态模型等各类模型的一站式评测,并定期发布公开榜单。

OpenCompass 具有开源可复现、能力维度全面、模型支持丰富、分布式高效评测、多样化评测范式及灵活拓展等特点。基于高质量、多层次的能力体系和工具链,OpenCompass 创新了多项能力评测方法,并构建了一套高质量的中英文双语评测基准,涵盖语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面,能够实现对大模型真实能力的全面诊断。

科学智能评测

司南科学智能评测以科学发现全流程为切入点,重构传统 AI 能力评测范式:

  • 评测与真实的科研工作流紧密结合,覆盖从文献调研到报告撰写的完整流程,重点考察高峰科学问题的处理能力,兼顾结果准确性、过程合理性、逻辑自洽性以及方案可行性与科学价值。

  • 创新"通专融合 + 动态反馈"技术路径,将通用评测能力与学科高保真评测集结合,采用动态评测机制,确保智能体能够实时调整和优化策略。

  • 设计科学家深度参与的数据生产管线,通过跨学科团队进行题目设计、答案验证和难度分级,引入多模态题型及全链路数据串联,真实反映科研复杂性。

  • 建立"评测-训练-应用"闭环的生态化协同机制,将评测定位为驱动 AGI4S 技术演进的核心信号源,推动 AI 成为科学发现中的"共研者"。

具身智能评测

司南具身智能评测以 Intern-Robotics 全栈引擎为底座,打通数据合成、算法训练到仿真-实物三段式评测的完整链路,解决具身系统开发"碎片化、高成本、难验证"的痛点。

  • 基于"书生·多模态",将大模型能力与具身任务深度融合,构建动态演进的评测基线。

  • 提出"多模态交互"和"实时决策链"两大核心能力维度,在仿真中验证指令理解、环境响应与连续规划的协同水平。

  • 通过 Web IDE 一键启动仿真容器、两步接入和自动输出多维报告等设计,将复杂开发流程产品化、标准化,大幅降低使用门槛,实现"以评测驱动开发、以全栈支撑量产"。

安全可信评测

依托 AI45 安全生态平台,司南构建系统化安全评估闭环,覆盖人类价值观、安全风险、信息可靠性、法律规范、越狱与滥用五大核心议题。同时发布了应对人工智能全生命周期风险的 SafeWork 内生安全技术体系,包括"评估-训练-基座-应用-验证"五大核心模块,让 AI 能凭借内生的善意有效洞察并化解近、中、远端各类型风险,推动 AI 能力与安全沿着 45 度平衡路径协同演化。

AI 计算系统评测

基于 DeepLink 开放计算体系,司南建立起由 AI 芯片与服务器、软硬件适配、智算中心三大核心模块组成的完整评估架构。

  • 芯片与服务器评测覆盖 100+ 指标;

  • 软硬件适配评测提供统一标准算子接口 300+,支持 8 款硬件芯片及 11,000+ 常见算子测例,优化计算图自动生成芯片代码,提高研发效率;

  • 智算中心评测涵盖计算能力、通信、存储、大模型能力、稳定性、资源管理及安全等多维度。

垂类行业应用评测

垂类应用评测模块目前已推出"AI+金融"评测和"AI+医疗"评测。

AI +金融

构建中文金融大模型评测平台 CNFinBench ,以专业性、系统性与开放性重新定义金融 AI 能力的衡量尺度。

  • 深度融合金融行业标准与领域知识,构建 26 个高质量数据集,累积约 3.6 万条评测数据,为金融机构模型选型、技术迭代与监管合规提供核心标尺。

  • 突破传统静态问答评估模式,构建"大模型+智能体"双轨评测范式,并创新引入基于金融裁判大模型的自动化专家评分机制,推动评测从理论答题迈向真实业务场景的实战能力验证。

AI +医疗

构建国内首个且规模最大的全栈式医疗大模型评测平台 MedBench,深度对齐国家《卫生健康行业人工智能应用场景参考指引》,以科学评测标尺重新定义医疗 AI 行业标准。

  • 打破传统单一模态限制,全自主构建 60 个核心评测集,沉淀超 70 万条高质量专家级全维度医学数据,覆盖医学问答、影像判读、临床推理等关键场景;

  • 突破文本评测局限,构建"文本+多模态+智能体"的复杂医疗评测矩阵,并创新引入 LLM-as-a-Judge 结合 Macro-Recall 的双指标机制,推动评测从纸面做题迈向真实临床诊疗全流程的实战高度。

  • MedBench 已成为医疗 AI 的流量高地与核心度量衡,累计活跃用户超 8 万,实测模型总量近 4 万,广泛连接 500+ 医疗机构、高等院校与领军企业。通过举办"大模型临床辅助决策人机挑战赛"等现象级比赛,在真实临床诊疗的复杂案例中,从速度、诊断、治疗等多方位全面验证 AI 实力,确立了"以评促建、以赛定标"的行业领导者地位。

持续扩大的国际与行业影响力

自发布以来,司南评测体系已支持 290+ 大语言模型、460+ 多模态模型、700+ 评测集,GitHub Stars 超过 1 万。作为唯一获得 Meta 推荐的国产评测体系,司南已形成了较强的全球触达力与影响力,即将承办 IEEE 国际多媒体博览会议的评测 Special Issue,同时受邀在 ICME 举办 Tutorial,进一步扩大国际影响力。

凭借公平透明的评测规则和稳定的更新频率,司南榜单在国内社区关注度持续领先,被广泛认为是"官方、权威、公正"的评测标杆。

在标准制定与产业共建方面,司南作为主要成员参与制定国家标准《人工智能大模型第 2 部分:评测指标与方法》,牵头完成了《以人为中心的大模型评测方法》团体标准的发布,推动了大模型评测领域的标准化进程。同时,司南工具链已集成至阿里云 ModelScope、百度云在线评测服务等产品,持续赋能大模型产业生态。除此之外,司南还携手南京大学、同济大学等机构,共同打造法律、土木工程等垂直领域评测基准。

这些实践表明,司南正成长为具有国际影响力的通用人工智能评测体系,在全球 AI 生态中发挥日益重要的作用。

回顾这一年,司南围绕通用人工智能评测这一核心问题,系统构建起覆盖 AI 计算系统、通用大模型、科学智能、具身智能、安全可信与垂类行业应用 的评测体系,建立起稳定运行的评测与榜单机制,并在实践中汇聚起产业与学术界的广泛参与。

更重要的是,司南逐步确立了一条清晰的发展路径:以全景评估体系为方法,以开放协作为机制,推动人工智能安全、可信、可持续发展。

在通用人工智能加速到来的时代,评测不只是记录进展,更是在为未来设定边界。司南也将继续以科学、公正、开放的评测体系,陪伴人工智能走向更复杂的真实世界。

相关推荐
冬奇Lab30 分钟前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab31 分钟前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP4 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年4 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼5 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS5 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
warm3snow5 小时前
Claude Code 黑客马拉松:5 个获奖项目,没有一个是"纯码农"做的
ai·大模型·llm·agent·skill·mcp
天翼云开发者社区6 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈6 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang6 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx