大模型备案,全程配合包过拿到备案号

本文详解备案流程,旨在帮助企业和开发者顺利完成备案,确保AI技术健康有序发展。

一、政策要求做大模型备案

大模型备案是中国国家互联网信息办公室为加强生成式人工智能服务的管理,确保用户权益得到充分保护,以及保障国家安全和社会秩序稳定而实施的一项关键性政策。这项措施要求在大模型的研发、训练、上线和应用等各个环节,都必须严格遵守国家的法律法规,尤其是在数据安全、个人隐私保护和内容合规性等方面。通过这样的备案制度,可以促进人工智能技术的健康发展,同时建立起一个既安全又可靠的人工智能服务体系,为公众提供高质量的智能服务,同时也为人工智能产业的长远发展奠定坚实的基础。

二、大模型备案材料详解

1. 大模型上线备案表

备案表是申请备案过程中不可或缺的关键文件,它要求申请人详尽地提供大模型的全面信息。这包括但不限于以下几个方面:

  • 基本情况:包括模型的名称、开发者、开发时间、主要功能和用途等。

  • 模型研制过程:详细描述模型的设计思路、技术路线、数据来源和处理流程。

  • 服务内容:明确模型提供的服务类型、服务对象、服务范围以及预期的应用场景。

  • 安全防范措施:列出为保障数据安全、隐私保护和内容合规性所采取的具体技术和管理措施。

  • 安全评估结果:提供由第三方权威机构出具的安全评估报告,证明模型符合国家相关安全标准。

  • 自愿承诺:开发者需对模型的合法合规性、安全性和可靠性做出书面承诺。

填写备案表时,必须确保所有信息的真实性和准确性,不得有任何虚假或遗漏,以便为备案审核提供详实的参考依据。这份备案表将作为评估大模型是否符合国家法律法规和政策要求的重要文件。

2.安全评估报告

安全评估报告是大模型上线备案过程中的一个关键组成部分,它由具备相应资质的专业机构或团队负责编制。这份报告的目的是全面评估大模型在各个关键环节的安全性,确保其在提供服务时既不会侵犯用户的合法权益,也不会传播违法违规的内容。以下是安全评估报告应涵盖的主要评估内容:

  • 数据隐私保护:评估模型在处理用户数据时是否采取了有效的隐私保护措施,包括但不限于数据加密、匿名化处理、访问控制等。

  • 算法偏见识别与纠正:分析模型是否存在潜在的偏见,并评估其对特定群体可能产生的不公平影响,同时提出相应的纠正措施。

  • 有害信息过滤机制:检查模型是否具备有效的有害信息识别和过滤机制,以防止不良信息的传播。

  • 应急响应预案:评估模型在遇到安全事件时的应急响应能力,包括应急预案的制定、应急资源的配置和应急流程的执行等。

  • 合规性检查:确保模型的运行和应用符合国家法律法规和行业标准,包括但不限于数据安全法、个人信息保护法等。

  • 风险评估:对模型可能面临的安全风险进行全面评估,并提出相应的风险控制和缓解措施。

  • 用户权益保护:评估模型是否采取了必要的措施来保护用户的知情权、选择权和退出权等基本权益。

安全评估报告应当基于科学、客观、公正的原则,采用专业的评估方法和工具,提供详实的数据和分析,以确保评估结果的准确性和可靠性。这份报告将作为大模型备案审核的重要参考,有助于提高模型的安全性和可信度。

3.模型服务协议

模型服务协议是确保用户权益和企业利益得到充分保护的关键法律文件。它规定了服务提供者和用户之间的权利、义务和责任,是双方合作的基础。以下是模型服务协议中应包含的关键条款:

  • 服务范围:明确列出模型服务的具体内容,包括服务类型、服务期限、服务地域等。

  • 双方权利义务:详细阐述服务提供者和用户各自的权利和义务,确保双方的权益得到平等对待。

  • 数据使用与保护:规定用户数据的收集、使用、存储和传输方式,以及采取的数据保护措施,确保用户数据的安全和隐私。

  • 违约责任:明确违约的定义、违约的后果以及违约责任的承担方式,为可能出现的争议提供解决依据。

  • 费用和支付:详细说明服务的费用结构、支付方式、支付时间等,确保费用条款的透明和公平。

  • 服务变更和终止:规定服务变更和终止的条件、程序和后果,保障用户在服务变更或终止时的权益。

  • 争议解决:设定争议解决的机制和程序,包括协商、调解、仲裁或诉讼等方式,以便在发生争议时能够及时有效地解决。

  • 法律适用和管辖:明确协议适用的法律和争议解决的管辖法院或仲裁机构,为协议的执行提供法律依据。

  • 用户反馈和投诉:提供用户反馈和投诉的渠道和程序,确保用户的声音能够得到及时的响应和处理。

法务团队在审阅模型服务协议时,应确保协议内容不仅合法合规,而且公平合理,能够有效地平衡用户和企业的利益。此外,协议的语言应清晰、准确,避免使用模糊或容易引起误解的表述,以减少未来可能出现的法律风险。通过精心设计和审慎执行的模型服务协议,可以为双方建立稳定、和谐的合作关系,促进模型服务的健康发展。

4.语料标注规则

语料标注是构建和训练大模型过程中至关重要的一环,它直接关系到模型的性能和输出的质量。为了确保语料的合法性、标注的规范性和结果的准确性,以下是提交语料标注规则时应包含的关键要素:

  • 标注团队资质:明确标注团队的专业背景、资质认证和相关经验,确保团队成员具备必要的语言处理能力和专业知识。

  • 标注细则:详细描述标注的具体规则和标准,包括但不限于词性标注、实体识别、情感分析、语义角色标注等,以及如何处理特殊情况和模糊案例。

  • 标注流程:阐述标注的整个流程,从数据预处理、分配标注任务、进行标注、质量控制到最终的审核和修正,确保流程的透明性和可追溯性。

  • 质量控制 机制:介绍如何通过抽检、互评、反馈循环等方式确保标注质量,以及如何对标注结果进行定期的评估和优化。

  • 数据来源合法性:证明语料来源的合法性,包括版权声明、用户授权、数据购买协议等,确保所有语料均符合法律法规和道德标准。

  • 隐私保护措施:如果语料中包含个人数据,需说明如何对这些数据进行脱敏处理,以保护个人隐私。

  • 标注工具和技术支持:描述用于标注的工具和技术支持,包括软件平台、算法辅助、数据库管理等,以提高标注效率和准确性。

  • 持续改进 计划:提出持续改进标注规则和流程的计划,包括定期培训、技术更新、规则修订等,以适应不断变化的语言使用和模型需求。

通过这些详细的规则和措施,可以确保语料标注工作的高质量完成,为大模型的训练提供坚实可靠的基础。同时,这也有助于提升模型的准确性和可靠性,满足用户和市场的需求。

5.拦截关键词列表

拦截关键词列表是大模型内容安全过滤机制的重要组成部分,它帮助识别和阻止有害信息的传播。为了确保内容的安全性和合规性,以下是准备拦截关键词列表时应考虑的关键点:

  • 全面性:关键词列表应全面覆盖可能涉及的风险领域,如政治敏感、色情、暴力、谣言、歧视、恐怖主义等。

  • 精确性:关键词应精确定义,以减少误拦截和漏拦截的情况。这可能需要对关键词进行细分和具体化。

  • 多样性:考虑到不同语言和文化背景下的表达差异,关键词列表应包含多种语言和表达形式。

  • 动态更新:随着社会环境和网络语境的变化,关键词列表需要定期更新,以适应新出现的风险和挑战。

  • 技术整合:关键词列表应与大模型的算法和过滤系统紧密结合,确保高效、准确地识别和拦截有害信息。

  • 法律合规性:关键词的选择和使用应符合相关法律法规的要求,避免侵犯用户权益。

  • 用户反馈机制:建立用户反馈机制,让用户可以报告未被拦截的有害信息,以便及时更新关键词列表。

  • 透明度:在不泄露敏感信息的前提下,可以考虑向用户公开部分关键词列表,以提高透明度和用户信任。

  • 多维度分析:除了直接的关键词匹配,还应考虑上下文、语义关联等因素,以提高拦截的准确性。

准备一份至少包含10000个关键词的拦截关键词列表是一个起点,但更重要的是建立一个持续优化和更新的机制,以确保大模型在提供服务的同时,能够有效地维护网络环境的安全和健康。

6.评估测试题集

评估测试题集是验证大模型在内容生成方面的安全性和合规性的重要工具。它通过一系列精心设计的测试题目来评估模型的性能,确保其在实际应用中能够遵守安全规范和道德标准。以下是编制评估测试题集时应考虑的关键要素:

  • 正面示例:包含一系列正面的内容生成示例,这些示例应符合法律法规、社会道德和文化规范,用于测试模型在正常情境下的表现。

  • 应拒答的负面内容:设计一系列测试题目,旨在触发模型拒绝回答或生成不适当的内容,如涉及恐怖主义、种族歧视、色情暴力等敏感话题。

  • 非拒答测试题库:除了应拒答的负面内容外,还应包括一些边缘案例或特殊情况,用于测试模型在复杂情境下的判断力和处理能力。

  • 测试覆盖面:测试题集应全面覆盖模型可能遇到的各种场景和问题类型,以确保评估的全面性。

  • 《生成式人工智能服务安全基本要求》:严格按照国家或行业发布的相关安全基本要求来编制测试题集,确保测试的合规性。

  • 客观性和准确性:测试题集的设计应保证测试结果的客观性和准确性,避免主观判断对测试结果的影响。

  • 可重复性:测试题集应设计成可重复使用的形式,以便于在不同时间点对模型进行持续的评估和监控。

  • 反馈和迭代:测试过程中应收集反馈信息,并根据测试结果对模型进行迭代优化,以提高其安全性和可靠性。

  • 透明度:在保证安全的前提下,可以考虑向相关利益方公开部分测试题集,以提高透明度和信任度。

编制评估测试题集是一个持续的过程,需要不断地根据新的安全挑战和社会变化进行更新和完善。通过这样的测试,可以确保大模型在提供服务时能够坚守安全底线,为用户提供安全、合规的内容。

三、大模型备案流程步骤详解

1.向属地网信办报备,获取备案表

备案流程的第一步是向相关网信办提交备案申请,以下是详细的步骤和注意事项:

  • 确定备案级别:根据大模型的规模、服务范围和影响,确定是向省级还是市级网信办提交备案申请。

  • 准备申请材料:准备完整的备案申请材料,包括但不限于企业资质证明、大模型的详细介绍、安全评估报告、语料标注规则、拦截关键词列表等。

  • 提交备案申请:通过网信办指定的渠道或平台提交备案申请,并确保所有提交的信息真实、准确、完整。

  • 获取备案表:在提交申请后,网信办会提供大模型上线备案表。这份表格是备案流程的核心,需要详细填写。

  • 填写备案表:按照网信办的要求,认真填写备案表中的所有项目,包括大模型的基本情况、研发过程、服务内容、安全措施等。

  • 提交备案表:在完成备案表的填写后,再次提交给网信办进行审核。确保提交的备案表内容准确无误,以免影响备案进度。

  • 跟进审核进度:在提交备案表后,主动与网信办保持沟通,了解审核进度,及时响应网信办的任何询问或要求。

备案流程是确保大模型合法合规运营的重要环节,需要企业和开发者认真对待,确保每一步都符合网信办的要求。通过顺利完成备案流程,可以为大模型的上线和运营打下坚实的基础。

2.根据表格和评估要点准备材料

在获得备案表之后,企业和开发者需要根据备案表的要求和评估要点,系统地准备相应的材料。以下是准备材料的步骤和注意事项:

技术团队的准备

  • 模型描述:提供大模型的技术架构、功能特性、算法原理等详细描述。

  • 研发过程:记录模型的研发历程,包括关键的研发决策、技术挑战及解决方案。

  • 服务内容:明确模型的服务范围、目标用户群体、预期应用场景等。

法务团队的准备

  • 合规性声明:确保所有材料符合相关法律法规,提供合规性声明或证明。

  • 服务协议:准备或审查模型服务协议,确保其合法性、公平性和透明度。

  • 隐私政策:制定或更新隐私政策,明确用户数据的收集、使用和保护措施。

数据团队的准备

  • 数据来源说明:提供数据来源的合法性证明,包括数据购买合同、用户授权书等。

  • 数据保护措施:描述数据的加密、脱敏、访问控制等保护措施。

  • 数据使用政策:制定数据使用政策,明确数据的用途、存储期限、用户访问权等。

安全团队的准备

  • 安全评估报告:准备或更新安全评估报告,包括数据隐私保护、算法偏见识别、有害信息过滤等。

  • 应急响应预案:制定详细的应急响应预案,以应对可能的安全事件。

  • 安全培训记录:提供团队成员的安全培训记录,证明团队具备必要的安全意识和技能。

跨部门协作

  • 协调会议:定期召开跨部门协调会议,确保各部门对备案要求有共同的理解。

  • 材料审核:各部门准备的材料需经过内部审核,确保信息的一致性和准确性。

  • 反馈整合:收集各部门的反馈,整合到备案材料中,以提高材料的完整性和有效性。

材料提交前的检查

  • 完整性检查:确保所有要求的材料都已准备齐全,没有遗漏。

  • 准确性验证:对材料中的信息进行核实,确保其真实性和准确性。

  • 格式规范:按照网信办的要求,统一材料的格式和模板,确保材料的专业性和规范性。

通过跨部门的紧密合作和细致的准备工作,可以确保备案材料的高质量,从而顺利通过网信办的审核,为大模型的合规上线奠定坚实的基础。

3.企业内部评估,编写材料,准备测试账号

在备案流程中,企业内部的自评估和材料准备是至关重要的环节。以下是详细的步骤和注意事项:

企业内部评估

  • 技术评估:技术团队需评估大模型的技术实现,确保其稳定性、性能和可靠性。

  • 安全评估:安全团队需对模型进行全面的安全检查,包括数据安全、隐私保护、内容过滤等。

  • 合规性评估:法务团队需确保模型符合所有相关的法律法规和行业标准。

  • 风险评估:识别和评估潜在的风险点,制定相应的风险缓解措施。

编写材料说明

  • 详细说明:为每项材料提供详细的说明,包括其目的、内容、依据和重要性。

  • 结构化文档:将材料组织成结构化的文档,便于审核人员理解和评估。

  • 附录和引用:在材料中包含必要的附录和引用,以支持材料中的声明和数据。

准备测试账号

  • 访问权限:为审核人员准备测试账号,确保他们能够访问模型的关键功能和数据。

  • 操作手册:提供操作手册或指南,指导审核人员如何使用测试账号进行验证。

  • 技术支持:确保在测试期间有技术支持团队随时待命,以解决可能出现的技术问题。

材料和测试的准备

  • 内部审核:在提交给网信办之前,进行内部审核,确保所有材料和测试账号都符合要求。

  • 模拟测试:进行模拟测试,以确保测试账号在实际审核过程中能够正常工作。

  • 反馈机制:建立反馈机制,收集审核人员的反馈,并及时进行调整和优化。

材料提交前的最终检查

  • 一致性检查:确保所有材料之间的信息一致,没有矛盾之处。

  • 格式和语言:检查材料的格式和语言,确保其专业性和可读性。

  • 最终确认:在提交前进行最终确认,确保所有准备工作都已就绪。

通过这些步骤,企业可以确保大模型在技术、安全、合规等方面均达到备案要求,同时为审核人员提供必要的材料和测试账号,以便他们能够全面、准确地评估模型的性能和安全性。

4.提交材料和测试账号给属地网信办审核

在完成材料准备和测试账号设置之后,企业和开发者需要将这些材料正式提交给属地网信办进行审核。以下是提交材料和测试账号的步骤和注意事项:

提交前的准备

  • 材料整理:确保所有材料都已齐全,包括但不限于备案表、安全评估报告、服务协议、语料标注规则、拦截关键词列表等。

  • 电子化提交:根据网信办的要求,将所有材料转换为电子格式,如PDF或Word文档,并确保文件的可读性和完整性。

  • 测试账号设置:确保测试账号的安全性和访问权限设置正确,以便审核人员可以顺利进行测试。

提交材料

  • 正式提交:通过网信办指定的渠道或平台提交所有材料和测试账号信息。

  • 提交确认:在提交后,获取网信办的确认回复,以确保材料已被正确接收。

审核期间的沟通

  • 保持联系:在审核期间,保持与网信办的沟通渠道畅通,以便及时响应任何询问或要求。

  • 问题回应:对于审核人员提出的问题,应迅速、准确地提供必要的信息和解释。

  • 反馈处理:对于审核过程中的反馈,应及时进行评估,并根据需要调整材料或测试账号的设置。

审核结果的跟进

  • 结果查询:在预计的审核周期结束后,主动查询审核结果。

  • 后续行动:如果审核通过,按照网信办的指示进行后续的备案流程;如果审核未通过,根据反馈进行必要的修改和补充。

记录和文档管理

  • 记录保存:保存所有提交材料的记录和网信办的沟通记录,以备后续参考。

  • 文档更新:根据审核结果更新内部文档和材料,确保所有信息的准确性和最新性。

通过这些步骤,企业和开发者可以确保材料和测试账号的提交过程顺利,同时在审核期间保持有效的沟通,以提高审核的通过率。

5.属地网信办初审

在属地网信办的审核过程中,企业和开发者需要做好两种准备:一是审核通过后的上报流程,二是审核未通过时的调整和重新提交。以下是详细的步骤和注意事项:

审核通过后的上报流程

  • 确认审核结果:在属地网信办完成审核后,确认审核结果,并获取正式的审核通过通知。

  • 上报中央网信办:属地网信办审核没问题后,会将备案材料上报至中央网信办进行复审。

  • 准备补充材料:如果中央网信办需要额外的材料或信息,及时准备并提交。

  • 跟进复审进度:与地方网信办保持沟通,了解复审进度,并准备回答可能的询问。

审核未通过时的调整

  • 获取反馈:向属地网信办获取详细的审核反馈,了解审核未通过的具体原因。

  • 内部讨论:组织相关部门进行讨论,根据反馈意见制定调整计划。

  • 调整材料:根据反馈意见,对备案材料进行必要的修改和补充。

  • 重新测试:如果反馈涉及测试账号或模型性能问题,进行重新测试并更新测试结果。

  • 重新提交:在完成调整后,按照属地网信办的要求重新提交材料。

持续的沟通和记录

  • 沟通记录:保持与网信办的沟通记录,确保所有沟通都有文档支持。

  • 材料更新:及时更新内部材料和记录,反映最新的审核状态和材料版本。

  • 风险管理:评估审核过程中可能出现的风险,并制定相应的应对策略。

备案成功的后续行动

  • 备案证书:在中央网信办审核通过后,获取备案证书,并按照规定进行公示。

  • 内部培训:对企业内部员工进行备案流程和要求的培训,确保团队对备案要求有清晰的理解。

  • 持续合规:即使备案成功,也要持续监控大模型的运行,确保其持续符合备案要求和法律法规。

通过这些步骤,企业和开发者可以确保在属地网信办的审核通过后,顺利进行上报流程;在审核未通过时,能够根据反馈进行有效的调整,并重新提交材料,以提高备案的成功率。

6.中央网信办复审

在中央网信办的复审阶段,企业和开发者需要密切关注审核结果,并做好相应的准备。以下是详细的步骤和注意事项:

中央网信办复审通过

  • 接收备案号:在中央网信办复审通过后,接收下发的备案号,这是大模型合法运营的重要凭证。

  • 公示备案信息:按照规定,将备案号和相关的备案信息进行公示,以增加透明度和公众信任。

  • 内部通知:在企业内部进行通知,确保所有相关部门和团队都知晓备案成功的消息。

  • 后续监管准备:备案成功后,准备接受后续的监管和检查,确保持续符合备案要求。

中央网信办复审未通过

  • 获取反馈:向地方网信办获取详细的复审反馈,了解未通过的具体原因。

  • 内部讨论:组织相关部门进行讨论,根据反馈意见制定调整计划。

  • 调整材料:根据反馈意见,对备案材料进行必要的修改和补充。

  • 重新测试:如果反馈涉及测试账号或模型性能问题,进行重新测试并更新测试结果。

  • 重新提交备案申请:在完成调整后,按照中央网信办的要求重新提交备案申请。

持续的沟通和记录

  • 沟通记录:保持与网信办的沟通记录,确保所有沟通都有文档支持。

  • 材料更新:及时更新内部材料和记录,反映最新的审核状态和材料版本。

  • 风险管理:评估复审过程中可能出现的风险,并制定相应的应对策略。

备案成功后的行动

  • 备案证书:在中央网信办审核通过后,获取备案证书,并按照规定进行公示。

  • 内部培训:对企业内部员工进行备案流程和要求的培训,确保团队对备案要求有清晰的理解。

  • 持续合规:即使备案成功,也要持续监控大模型的运行,确保其持续符合备案要求和法律法规。

通过这些步骤,企业和开发者可以确保在中央网信办的复审通过后,顺利进行后续的公示和监管准备;在复审未通过时,能够根据反馈进行有效的调整,并重新提交备案申请,以提高备案的成功率。

四、填报注意事项

1.材料要真实、全面

在填报材料时,请确保所提供信息的真实性和全面性。不要遗漏任何重要的细节或信息。

2.评估报告要详尽,形成结论

在撰写评估报告时,请务必详尽地描述各项评估内容,并形成明确的结论。这将有助于审核人员更好地了解您的大模型的安全性和合规性。

3.测试题集要满足《生成式人工智能服务安全基本要求》

在准备测试题集时,请确保其能够满足《生成式人工智能服务安全基本要求》的相关标准,实际要远远超出要求的数量,这将有助于提高审核通过的可能性。

  1. 提别提醒

审核能否通过的主要决策权在省网信办,地方网信办做一个简单梳理后,提交至省网信办,由省网信办做主要的安全测试、评估等工作,省网信办检查无问题后,提交至中央网信办主要是事务性流程

五、大模型备案时间成本对比

|------|------------------------------------------------------------------------------------------------|----------------------------------|
| | 自己写 | 提供备案服务 |
| 时间成本 | 不确定。涉及学习时间和反复修改时间。学习难度大,需要从头学习并理解相关法规和要求,揣度得分要点。审核流程不够透明,需要反复试错,自己备案没有经验。自己写的话,可能前后反复折腾半年都没有结果 | 2-3个月左右可以完成材料编写提交至地方网信办 |
| 人力成本 | 需要同时具备算法研发、AI、安全、法务专业经验的人员。需要组织跨部门联合小组共同推进。 | 只需要少量算法技术配合,公司资质配合等简单工作,一站式服务/指导 |
| 通过率 | 不确定,可能会影响产品上线 | 只要模型、数据合规合法,一定通过 |
| 花费 | N个月*M个人*每月人力成本 | 远低于自己探索的成本 |

相关推荐
迅易科技1 小时前
借助腾讯云质检平台的新范式,做工业制造企业质检的“AI慧眼”
人工智能·视觉检测·制造
古希腊掌管学习的神2 小时前
[机器学习]XGBoost(3)——确定树的结构
人工智能·机器学习
ZHOU_WUYI3 小时前
4.metagpt中的软件公司智能体 (ProjectManager 角色)
人工智能·metagpt
靴子学长3 小时前
基于字节大模型的论文翻译(含免费源码)
人工智能·深度学习·nlp
AI_NEW_COME4 小时前
知识库管理系统可扩展性深度测评
人工智能
海棠AI实验室5 小时前
AI的进阶之路:从机器学习到深度学习的演变(一)
人工智能·深度学习·机器学习
hunteritself5 小时前
AI Weekly『12月16-22日』:OpenAI公布o3,谷歌发布首个推理模型,GitHub Copilot免费版上线!
人工智能·gpt·chatgpt·github·openai·copilot
IT古董6 小时前
【机器学习】机器学习的基本分类-强化学习-策略梯度(Policy Gradient,PG)
人工智能·机器学习·分类
centurysee6 小时前
【最佳实践】Anthropic:Agentic系统实践案例
人工智能
mahuifa6 小时前
混合开发环境---使用编程AI辅助开发Qt
人工智能·vscode·qt·qtcreator·编程ai