智源×Eclipse基金会携手打造PanEval，中欧协同开启“评测+开源+合规”新模式

2026 年 3 月 27 日中关村论坛上，北京智源人工智能研究院（简称"智源"）与 Eclipse 基金会正式签署《大模型评测战略合作协议》。双方将依托智源 FlagEval 成熟的评测框架，结合欧洲地区实际需求与合规要求，联合打造符合欧洲情况的大模型评测开源项目 PanEval，这一合作成为中欧 AI 领域协同发展的重要里程碑，为全球 AI 治理体系完善与产业可持续发展注入全新动能。

合作背景：中欧 AI 评测合作达成里程碑

此次合作实现了双方核心能力的精准互补：智源 FlagEval 作为国内体系最完整、影响力领先的大模型评测平台，拥有成熟的"能力-任务-指标"三维评测框架、海量评测资源与国际标准制定经验；Eclipse 基金会总部位于布鲁塞尔，是全球领先的开源软件协作与治理机构，在开源治理、知识产权管理、欧盟合规体系搭建领域经验丰富，拥有 300+全球会员、400+开源项目及 15000+活跃开发者，在欧洲企业级软件、汽车、物联网等优势领域布局成熟，是欧洲开源 AI 发展的核心力量。

FlagEval 与 Eclipse 基金会的合作，是中国 AI 评测技术 与欧洲开源治理经验 的双向奔赴，既是双方实现优势互补、共赢发展的重要举措，也是中欧科技协同创新的生动实践。此次合作将不仅为欧洲 AI 产业发展注入新活力，为中国 AI 出海开辟新路径，更将推动全球 AI 治理体系的完善，助力构建更开放、更包容、更平衡的全球 AI 发展新秩序。

合作价值：开启"评测+开源+合规"全球协同新模式

本次战略合作是中欧科技协同创新的重要实践，首创"评测+开源+合规"三位一体协同发展模式，不仅为双方共赢发展注入新动力，更对欧洲 AI 产业突破、中国 AI 出海及全球 AI 治理体系完善具有战略性赋能价值。

对 Eclipse 基金会而言，FlagEval 的成熟评测框架、115+评测数据集、自动化评测流水线等核心能力，将直接填补其在大模型评测领域的能力空白，完善其开源生态的 AI 技术布局。FlagEval 也得以将自身成熟的评测技术与欧洲实际需求深度结合，打破地域与合规壁垒，实现评测体系的欧洲本土化落地，进一步拓展在全球评测领域的影响力。

面向欧洲，合作打造的 PanEval 平台将提供符合《欧盟 AI 法案》的评测工具与认证流程，统一多场景评测口径，助力欧洲本土模型厂商完成专业能力评测；同时依托 Eclipse 基金会的中立平台优势，整合欧洲分散的 AI 研发资源，形成协同研发、共享评测的开源 AI 共同体，为欧洲 AI 产业发展注入全新活力。

面向中国，此次合作标志着中国 AI 评测体系首次深度嵌入全球顶级开源治理生态，为中国AI企业出海欧洲提供了符合当地合规要求的评测技术支撑与认证通道，开辟了中国AI技术全球化的全新路径。

面向全球，双方将以 PanEval 为核心，致力于打造科学、公正、开放、合规的 AI 评测"黄金标准"，打破区域评测壁垒，探索"评测驱动治理"的开源AI发展新范式，搭建全球开发者、企业、监管机构共同参与的协作平台，促进全球 AI 技术共享与联合创新，推动全球 AI 产业健康、可持续发展，助力构建更开放、更包容、更平衡的全球 AI 发展新秩序。

FlagEval：国内领先的全栈式大模型评测体系与开放平台

FlagEval（天秤，https://flageval.baai.ac.cn）是智源FlagOpen 开源生态核心组成部分，由北京智源人工智能研究院 2023 年推出，是国内体系最完整、最具影响力的大模型评测平台之一。

平台构建了成熟的"能力-任务-指标"三维评测框架，拥有 115+评测数据集、370 万+评测题目，已完成全球超 127 家模型厂商、1000+开源与闭源大模型的全面评测，覆盖大语言模型、多模态模型、视觉理解模型、文生图/文生视频模型、语音语言模型等多类型模型，实现主流模型的全品类覆盖。

在评测方法上，FlagEval 建立了多方法融合的评测体系，实现客观与主观评测、静态与动态评测、绝对分数与相对排名、本地部署与 API 调用的相互补充，可适应不同评测场景，全方位衡量模型性能。目前已累计发布全新榜单 18个、更新榜单 26 次，形成 44 个细分领域评测榜单，评测技术的可靠性与结果的可信度获得全球用户认可。

在标准制定方面，FlagEval 牵头制定 IEEE P3419《大语言模型评测方法》国际标准，深度参与人工智能模型国家标准 GB/T 45288.1 和 GB/T 45288.2 的研制，成为全球大模型评测标准制定的核心参与方。

Eclipse基金会：全球开源软件协作与治理的核心力量

Eclipse 基金会总部设于比利时布鲁塞尔，是全球领先的开源软件协作与治理机构，亦是欧洲开源 AI 发展的核心推动力量，以厂商中立、治理透明为核心特色，在开源生态构建、知识产权管理、合规体系搭建等领域积淀数十年成熟经验。

基金会生态广泛覆盖 AI、汽车、物联网、云计算等关键领域，依托广泛的全球会员与活跃开发者组成的协作网络，孵化了 Eclipse LMOS（AI 代理操作系统）、Theia AI（开源 IDE 智能框架）、Deeplearning4j（Java 分布式深度学习库）等标杆 AI 项目，构建起从工具链到部署平台的全栈开源AI体系。在合规治理层面，其牵头成立开放合规工作组，深度对接《欧盟 AI 法案》《欧盟网络韧性法案》等区域法规，为开源技术提供跨区域合规解决方案；同时深耕汽车、RISC-V 处理器等垂直领域，凝聚奥迪、宝马、博世等行业龙头企业，形成兼具技术深度与产业适配性的开源协作网络。

作为欧洲开源 AI 发展的核心枢纽，基金会致力于整合欧洲各地 AI 研发资源，推动开源 AI 技术的协同创新与产业落地，为 AI 技术研发、应用及全球化提供合规框架与治理支撑，更是中国 AI 技术进入欧洲市场、实现本土化落地的重要合作伙伴。

结语：共筑开放、包容、平衡的全球AI新生态

从 FlagEval 的"丈量标尺"到 PanEval 的"全球桥梁"，智源与 Eclipse 基金会的合作，超越了单纯的技术输出与引入，标志着全球 AI 发展范式的一次重要探索。在中欧科技协同创新的时代背景下，双方以"评测+开源+合规"的创新模式，回答了如何在区域化合规趋势下保持技术开放性的时代命题。

面向未来，PanEval 将不仅是一个评测平台，更将成为一个汇聚全球开发者、企业及监管机构智慧的协作共同体。随着这一"黄金标准"的逐步落地与迭代，我们有理由相信，一个更加科学、公正、透明且兼顾区域特性的全球 AI 治理新秩序，正从愿景走向现实。这不仅是中国 AI 技术走向世界的关键一步，更是全球 AI 产业迈向健康、可持续发展的坚实基石。

关于众智FlagOS社区

为解决不同 AI 芯片大规模落地应用，北京智源研究院联合众多科研机构、芯片企业、系统厂商、算法和软件相关单位等国内外机构共同发起并创立了众智 FlagOS 社区。成员单位包括北京智源研究院、中科院计算所、中科加禾、安谋科技、北京大学、北京师范大学、百度飞桨、硅基流动、寒武纪、海光信息、华为、基流科技、摩尔线程、沐曦科技、澎峰科技、清微智能、天数智芯、先进编译实验室、移动研究院、中国矿业大学(北京)等多家在 FlagOS 软件栈研发中做出卓越贡献的单位。

FlagOS 是一款专为异构 AI 芯片打造的开源、统一系统软件栈，支持 AI 模型一次开发即可无缝移植至各类硬件平台，大幅降低迁移与适配成本。它包括大型算子库、统一AI编译器、并行训推框架、统一通信库等核心开源项目，致力于构建「模型-系统-芯片」三层贯通的开放技术生态，通过"一次开发跨芯迁移"释放硬件计算潜力，打破不同芯片软件栈之间生态隔离。

**官网：**https://flagos.io

**GitHub 项目地址：**https://github.com/flagos-ai

**GitCode 项目地址：**https://gitcode.com/flagos-ai