《政务大模型发展研究报告（2025年）》阅读笔记

清华发布《政务大模型发展研究报告》，报告中有很多值得记录的部分，这些知识有助于在开发AI产品时有更全面的了解。以下是一段引文：

表：建设运行阶段监测评估指标

评测对象	一级指标	二级指标	指标定义
政务大模型	功能性	功能完备度	评估模型是否实现建设要求功能
	功能性	模型性能	利用基准测试等方式评估模型性能，如准确率、召回率、响应时间、资源占用情况等
	功能性	稳定性	通过压力测试评估模型在高负载下的稳定性和可靠性
	功能性	风险拒答	评估大模型对风险问题的拒答能力
	安全能力	地缘政治	评估大模型对地缘政治类问题的回答能力
	安全能力	内容可靠	评估大模型答案的可靠性
	部署与集成	部署效率	监测模型在政务系统中的部署时间和资源消耗
	部署与集成	兼容性	检查模型与现有政务系统的兼容性和集成效果
政务数据集	完整性	任务覆盖完整性	评估数据集是否涵盖政务目标场景下的所有任务类型
	完整性	领域完整性	评估数据集是否涵盖政务各领域数据
	规范性	形式规范性	评估数据集中数据符合一定的数据形式标准的程度，例如命名、创建、定义、更新和归档等需要遵循的标准
	规范性	隐私规范性	评估数据集中数据符合法律法规要求、行业标准、企业内部政策等隐私保护相关规范的程度
	规范性	安全规范性	评估数据集中数据符合人工智能模型训练的安全需求，确保模型的准确性和可靠性
	准确性	内容真实性	评估数据集中数据记录的信息是否与其所代表的实际对象、事件或事实一致和真实
	准确性	领域专业性	评估数据集中数据在特定领域的适用程度、专业深度和准确程度，且应当与特定行业的标准、术语、业务逻辑和专业知识紧密结合
	及时性	采集及时性	数据集中数据采集的频率决定了数据集反映变化的灵敏度。高频采集可以提高数据的时效性
	及时性	发布与更新及时性	数据集更新的频率和更新后何时对外发布，直接影响数据使用者能否获取到最新的信息
	一致性	标签一致性	对于有标注的数据集，不同标注者之间是否对相同或相似实例的标注保持一致
	一致性	概念一致性	数据集中数据使用的术语、分类标准和定义在整个数据集内部是一致的
	稠密性	样本唯一性	数据集中样本是否存在大量重复记录，去除重复项可以提升信息稠密度
	稠密性	内容信息量	数据集中单位样本所涵盖的信息量检测
	多样性	特征多样性	数据集包含特征种类的广泛和全面程度，是否覆盖了描述实体的不同属性和角度
	多样性	类型多样性	数据集包含类型种类的广泛和全面程度，是否覆盖了不同格式的数据，包括结构化、半结构化和非结构化数据
	均衡性	类别均衡性	数据集中各类别数据数量的均衡程度，确保数据集中各类标签的样本数量接近，防止模型偏向多类别
	均衡性	来源均衡性	数据集中各来源数据数量的均衡程度，保证不同来源的数据量适当，提升模型的全面性和泛化能力
	可溯性	来源可溯性	数据集中数据是否可以追踪其最初来源，包括数据是如何被收集的、由谁收集、在何时何地收集等信息。这对于验证数据的真实性和合法性至关重要，尤其是在科学研究和法律合规性方面
	可溯性	链路可溯性	数据集中数据是否可以追踪其从原始形态到最终处理形态的整个转换过程
政务知识库	功能性	功能完备度	检查智能体功能与实际需求的一致性
	功能性	知识丰富度	评估知识库内容的广度和深度
	功能性	数据准确性	评估数据的准确性、时效性和来源可靠性
	功能性	知识更新时效性	评估新知识注入后知识库的实时更新与冲突消解机制
	功能性	知识精准度	通过政务高频事项查询评估查询结果精准度以及排序合理性
	安全合规	跨部门协同	评估跨部门数据隔离与共享能力
	安全合规	数据兼容性	评估多格式政务文档的解析能力
	安全合规	高并发承载	评估政务大模型高峰调用知识库能力
	安全合规	数据来源合规	评估政务知识库数据来源是否合规
	安全合规	安全防护能力	评估政务知识库的安全防护能力
	安全合规	内容安全过滤	评估违规内容拦截能力
	安全合规	数据隐私保护	评估敏感信息的自动脱敏效果
政务智能体	功能性	功能完备度	检查智能体功能与实际需求的一致性
	功能性	业务服务准确率	评估政务智能体办理业务的准确性
	安全性	数据安全防护	评估政务智能体数据安全防护能力
	安全性	权限管理合规性	评估政务智能体对于权限的管理能力
	可靠性	故障恢复	测试智能体在故障情况下的恢复能力和时间
	可靠性	备份与恢复	实施数据备份和恢复策略，确保数据不丢失

表：应用成效阶段监测评估指标

一级指标	二级指标	指标定义
行政效能提升与成本节约	任务自动化处理率	评估通过大模型实现自动化处理的政务任务占比（如文件批转、报表生成）
	业务处理时长缩短率	评估单项政务任务（如审批、答复）平均处理时间较基线的缩短比例
	人力成本节约额	评估因效率提升减少的专职岗位数量×人均年薪
政务服务优化	企业办事成本降低额	评估企业办理高频事项的平均时间成本和交通成本等的下降值
	用户满意度	评估政策解读、办事咨询等公众对接服务满意度提升率
	咨询响应效率提升值	评估智能客服平均响应时间（秒）及问题解决率较人工服务的提升幅度
公共资源配置优化效益	财政资金精准投放率	评估基于模型分析优化的项目资金分配后，目标达成率的提升幅度
	资源浪费减少率	评估因预测需求偏差减少的过剩采购/建设投入占比
	项目投资回报率提升	评估政府投资项目因模型辅助决策带来的平均投资回报率较历史水平的增长
	算力资源减少率	评估统筹集约应用大模型后算力资源节约幅度
社会治理精细化与效能提升	事件自动发现率	评估识别的城市管理问题（占道经营、设施损坏）占总上报量的比例
	问题处置时长缩短率	评估从发现到解决社会治理事件的平均时长下降比例
	人工巡查人均效能提升率	评估因模型辅助减少的重复巡查工作量占比
公共安全与应急响应能力增强	应急响应时效缩短率	评估从事件发生到启动响应的平均时间下降比例
	灾害预测准确率	评估模型对自然灾害（洪水、地震）影响范围的预测误差率

从以上摘自报告的表格可以看出，AI产品的开发有四个基础角度：

大模型
数据集
知识库
智能体（我觉得这也可以指产品整体或者产品的某个应用AI的子功能整体）

虽然文章仅仅是从政务的领域视角，显然这些见解适用于任何AI+的领域，把表格的内容稍作调整，就可以得到一个比较全面的评估AI工程的表格：

评测对象	一级指标	二级指标	指标定义
大模型	功能性	功能完备度	评估模型是否实现建设要求功能
		模型性能	利用基准测试等方式评估模型性能，如准确率、召回率、响应时间、资源占用情况等
		稳定性	通过压力测试评估模型在高负载下的稳定性和可靠性
	安全能力	风险拒答	评估大模型对风险问题的拒答能力
		原则问题	评估大模型对原则问题的回答能力
		内容可靠	评估大模型答案的可靠性
	部署与集成	部署效率	监测模型在政务系统中的部署时间和资源消耗
		兼容性	检查模型与现有政务系统的兼容性和集成效果
数据集	完整性	任务覆盖完整性	评估数据集是否涵盖目标场景下的所有任务类型
		领域完整性	评估数据集是否涵盖各领域数据
	规范性	形式规范性	评估数据集中数据符合一定的数据形式标准的程度，例如命名、创建、定义、更新和归档等需要遵循的标准
		隐私规范性	评估数据集中数据符合法律法规要求、行业标准、企业内部政策等隐私保护相关规范的程度
		安全规范性	评估数据集中数据符合人工智能模型训练的安全需求，确保模型的准确性和可靠性
	准确性	内容真实性	评估数据集中数据记录的信息是否与其所代表的实际对象、事件或事实一致和真实
		领域专业性	评估数据集中数据在特定领域的适用程度、专业深度和准确程度，且应当与特定行业的标准、术语、业务逻辑和专业知识紧密结合
	及时性	采集及时性	数据集中数据采集的频率决定了数据集反映变化的灵敏度。高频采集可以提高数据的时效性
		发布与更新及时性	数据集更新的频率和更新后何时对外发布，直接影响数据使用者能否获取到最新的信息
	一致性	标签一致性	对于有标注的数据集，不同标注者之间是否对相同或相似实例的标注保持一致
		概念一致性	数据集中数据使用的术语、分类标准和定义在整个数据集内部是一致的
	稠密性	样本唯一性	数据集中样本是否存在大量重复记录，去除重复项可以提升信息稠密度
		内容信息量	数据集中单位样本所涵盖的信息量检测
	多样性	特征多样性	数据集包含特征种类的广泛和全面程度，是否覆盖了描述实体的不同属性和角度
		类型多样性	数据集包含类型种类的广泛和全面程度，是否覆盖了不同格式的数据，包括结构化、半结构化和非结构化数据
	均衡性	类别均衡性	数据集中各类别数据数量的均衡程度，确保数据集中各类标签的样本数量接近，防止模型偏向多类别
		来源均衡性	数据集中各来源数据数量的均衡程度，保证不同来源的数据量适当，提升模型的全面性和泛化能力
	可溯性	来源可溯性	数据集中数据是否可以追踪其最初来源，包括数据是如何被收集的、由谁收集、在何时何地收集等信息。
		链路可溯性	数据集中数据是否可以追踪其从原始形态到最终处理形态的整个转换过程
知识库	功能性	功能完备度	检查智能体功能与实际需求的一致性
		知识丰富度	评估知识库内容的广度和深度，比如政务知识库的政策集合是否涵盖全面
		知识准确性	评估知识的准确性、时效性和来源可靠性
		知识更新时效性	评估新知识注入后知识库的实时更新与冲突消解机制，比如政策修订这类场景
		知识精准度	通过高频事项查询评估查询结果精准度以及排序合理性
	数据能力	跨部门协同	评估跨部门数据隔离与共享能力
		数据兼容性	评估多格式政务文档的解析能力
		高并发承载	评估智能体高峰调用知识库时的承载能力
	安全合规	数据来源合规	评估知识库数据来源是否合规
		安全防护能力	评估知识库的安全防护能力
		内容安全过滤	评估违规内容拦截能力
		数据隐私保护	评估敏感信息的脱敏效果
智能体	功能性	功能完备度	检查智能体功能与实际需求的一致性
		业务服务准确率	评估智能体处理任务的准确性
	安全性	数据安全防护	评估智能体数据安全防护能力
		权限管理合规性	评估智能体对于权限的管理能力
	可靠性	故障恢复	测试智能体在故障情况下的恢复能力和时间
		备份与恢复	实施数据备份和恢复策略，确保数据不丢失