大模型备案过程讲解

以下是一般情况下大模型备案的大致过程讲解(不同地区和具体要求可能存在差异和细化等情况):

一、备案前准备

了解法规和政策

  1. 熟悉《生成式人工智能服务管理暂行办法》《互联网信息服务深度合成管理规定》等相关法律法规对大模型备案的要求和规定。
  2. 明确备案的主管部门(通常是网信部门等)。

自我评估和准备材料

  1. 语料安全评估1:
    • 评估文本训练语料规模(存储大小、词元计数等)。
    • 明确各类型语料规模(不同语言文本、代码、多媒体等) 。
    • 梳理训练语料来源(开源、自采、商业等分类及来源地等)。
    • 统计语料标注数量(文本和图片标注等)。
    • 明确标注人员情况(数量、类型、培训等)。
    • 制定和检查标注规则(是否符合相关办法要求)。
    • 核验标注内容准确性。
    • 分析语料合法性(有无侵权、违法违规信息等)。
  2. 模型安全评估1:
    • 语料内容评估(人工、关键词、分类模型抽检及合格率等)。
    • 生成内容评估(类似抽检及合格率等)。
    • 涉知识产权、商业秘密等方面的评估(方法、标准、结果)。
    • 涉民族、信仰、性别等方面的评估。
    • 涉透明性、准确性、可靠性等的评估。
  3. 安全措施评估1:
    • 明确模型适用人群(如是否适用未成年人等)、场合(关键信息基础设施等相关敏感场合)、用途(限定领域与否)。
    • 梳理服务过程中收集保存个人信息情况(类型、数量、用途、保存期限)。
    • 确定收集个人信息征得个人同意情况(方式)。
    • 明确受理处理使用者查阅、复制、更正、补充、删除个人信息请求的情况(条件和途径方法)。
    • 规划好图片、视频标识情况(样式、位置、频度等)。
    • 建立接受公众或使用者投诉举报情况(途径及反馈方式)。
    • 完善服务协议(将上述多方面内容写入)。
    • 建立非法内容拦截措施(监看人员数量、预置关键词拦截列表、分类模型检测及准确性等)。
    • 统计拒答率(拒绝回答等数量占比)。
    • 规划模型更新、升级条件(如发现频繁非法等情况时)。

**材料准备(以下是常见材料举例)**3:

  1. 《算法备案承诺书》 。
  2. 《落实算法安全主体责任基本情况》 。
  3. 《算法安全自评估报告》(较复杂且重要,100页左右,包含附录各种证明材料等;需明确算法原理和逻辑、数据来源合规性、算法透明度和可解释性、安全漏洞检测与应对等) 。
  4. 《拟公示内容》 。
  5. 大模型上线备案表:
    • 基本情况:模型名称、主要功能、适用人群、服务范围等。
    • 模型研制:模型备案情况、训练算力资源(自研模型)、训练语料和标注语料来源与规模、语料合法性、算法模型的架构和训练框架等。
    • 服务与安全防范:推理算力资源、服务方式及对象等、非法内容拦截措施、模型更新升级信息等。
    • 安全评估:基本情况、评估情况。
    • 自愿承诺:承诺所填信息真实性,并签字确认。
    • 附件及备注:附件包括安全评估报告、模型服务协议、语料标注规则、拦截关键词列表、评估测试题。
  6. 安全评估报告(涵盖语料安全评估、模型安全评估以及安全措施评估,并形成整体评估结论) 。
  7. 模型服务协议(包含产品及服务的各项规则及隐私条款等,需协同法务共同制定提交) 。
  8. 语料标注规则(包括标注团队介绍、功能性及安全性标注细则,标注流程等) 。
  9. 拦截关键词列表(总规模不宜少于10000个,应至少覆盖《生成式人工智能服务安全基本要求》a.1以及a.2中17种安全风险,a.1中每一种安全风险的关键词均不宜少于200个,a.2中每一种安全风险的关键词均不宜少于100个) 。
    10.评估测试题集:
    • 包括生成内容测试题库、拒答内容测试题库、非拒答测试题库。
    • 测试题分类满足《生成式人工智能服务安全基本要求》中相关的风险类型,并有最小的数量要求。
    • 测试题建议是"问题"(包含主谓宾),不可只是短词、长文章。
    • 生成内容测试题库中建议明确标记出哪些问题是需要拒答的、哪些是需要回答的。

二、备案流程

  1. 向属地网信办提交备案申请:

    通常在官方备案平台提交备案表、安全评估报告、服务协议、标注规则、关键词库等材料(如果有线上系统的话),目前大模型备案都是线下申请。

  2. 申请通过后会给到你相关资料。拿到资料后根据自己企业的具体情况撰写资料。

  3. 再去网信办预约审核

  • 审核材料的完整性、准确性等。
  • 可能进行技术测试(如对提交的模型进行安全测试,测试内容包括敏感词检测、涉政内容的生成等 2)。
  1. 反馈和整改

    如果审核过程中发现问题,备案主体会收到反馈要求在规定时间内进行整改。整改内容可能包括补充材料、调整模型安全策略等。

  2. 审核通过

  • 若材料审核和技术测试等都通过,属地上报中央网信办3。
  • 中央网信办进行材料复审及技术评审,通过后企业获得备案号3。

三、备案后

  1. 持续管理和监控
  • 建立内容监控体系,对关键词分级管理、制定内容撤回策略等2。
  • 进行账号运营管理,如定期检查账号、制定账号违规处置策略等2。
  • 在重要节假日、重大事件期间做好内容安全保障等。
  1. 配合检查和更新备案
  • 主管部门可能会不定期检查备案后的落实情况。
  • 如果大模型有重大升级、服务范围变更等情况,可能需要重新备案或更新备案信息。

需要注意的是,整个备案过程可能需要一定时间(如大模型备案周期按批次审核通过,一般一个半月至两个月左右一批2),并且备案要求和流程处于动态调整和完善中。

相关推荐
HPC_fac1305206781632 分钟前
以科学计算为切入点:剖析英伟达服务器过热难题
服务器·人工智能·深度学习·机器学习·计算机视觉·数据挖掘·gpu算力
小陈phd3 小时前
OpenCV从入门到精通实战(九)——基于dlib的疲劳监测 ear计算
人工智能·opencv·计算机视觉
Guofu_Liao4 小时前
大语言模型---LoRA简介;LoRA的优势;LoRA训练步骤;总结
人工智能·语言模型·自然语言处理·矩阵·llama
ZHOU_WUYI8 小时前
3.langchain中的prompt模板 (few shot examples in chat models)
人工智能·langchain·prompt
如若1238 小时前
主要用于图像的颜色提取、替换以及区域修改
人工智能·opencv·计算机视觉
老艾的AI世界9 小时前
AI翻唱神器,一键用你喜欢的歌手翻唱他人的曲目(附下载链接)
人工智能·深度学习·神经网络·机器学习·ai·ai翻唱·ai唱歌·ai歌曲
DK221519 小时前
机器学习系列----关联分析
人工智能·机器学习
Robot2519 小时前
Figure 02迎重大升级!!人形机器人独角兽[Figure AI]商业化加速
人工智能·机器人·微信公众平台
浊酒南街9 小时前
Statsmodels之OLS回归
人工智能·数据挖掘·回归
畅联云平台10 小时前
美畅物联丨智能分析,安全管控:视频汇聚平台助力智慧工地建设
人工智能·物联网