随着《网络数据安全管理条例》正式施行与 GB/T 43697-2024《数据安全技术 数据分类分级规则》的落地实施,数据分类分级已成为企业数据安全合规的核心基础。在国产化替代进入深水区的背景下,工具不仅需满足 "芯 - 云 - 边 - 端" 全栈适配要求,更要应对数据多模态爆发、实时流转的业务挑战 ------ 传统静态规则驱动的产品已难以解决非结构化数据识别、增量数据分级滞后等痛点。
2025 年,国产化数据分类分级工具迎来技术跃迁,形成 "国产化深度适配为底座、AI 与 LLM 技术为核心、动态闭环联动为目标" 的竞争格局。本文选取启明星辰数据安全治理管控平台(DSMP)、安恒 AiSort、中新赛克星络、深信服安全 GPT 4.0、绿盟 IDR、亚信 AINSG-DM、星环 Defensor 4.7 等 7 款主流国产化工具,通过统一测试环境与量化指标,从国产化适配完整性、多模态识别精准度、动态分级实时性三大核心维度展开实测对比,结合金融、医疗、政务等行业落地案例,解析工具能力差异与选型逻辑,为企业信创环境下的工具选型提供权威参考。
一、实测方案设计:标准化场景与量化指标体系
(一)测试环境搭建
为确保测试结果的客观性与可比性,本次实测采用统一的国产化基础设施环境,覆盖信创产业主流软硬件生态:
- 硬件环境:飞腾 FT-2000+/64 服务器(64 核 128G)、鲲鹏 920 服务器(48 核 96G)、昇腾 310 AI 加速卡;
- 软件环境:操作系统(麒麟 V10、统信 UOS Server 20)、数据库(达梦 8、人大金仓 KingbaseES V8R6)、中间件(东方通 TongWeb 7.0);
- 测试数据集 :构建涵盖金融、医疗、政务三大高敏感行业的混合数据集,总规模 10TB,包含:
- 结构化数据:500 万条银行交易流水、300 万条医保结算记录、200 万条政务服务申请数据;
- 非结构化数据:10 万份 PDF 合同(含扫描件与电子件)、5 万份电子病历(文本 + 影像)、3 万条客服录音、2 万张医疗影像(CT/MRI/DICOM 格式);
- 动态增量数据:模拟每日新增 15 万条交易数据、2 万份文档、5000 条音频的实时流转场景。
(二)核心测试指标体系
围绕 "国产化适配、多模态识别、动态分级" 三大核心能力,设计三级量化指标体系,兼顾技术先进性与落地实用性:
| 一级指标 | 二级指标 | 三级指标 | 权重 | 测试方法 |
|---|---|---|---|---|
| 国产化适配能力 | 硬件适配覆盖 | 国产芯片(飞腾 / 鲲鹏 / 龙芯)适配度 | 10% | 实测工具在不同芯片环境的部署成功率与运行稳定性 |
| AI 加速卡(昇腾 / 寒武纪)兼容度 | 8% | 验证工具对国产 AI 加速卡的调用效率与性能提升 | ||
| 软件生态适配 | 国产操作系统适配完整性 | 10% | 测试工具在麒麟 / 统信等系统的功能完整性与兼容性 | |
| 国产数据库对接能力 | 12% | 验证工具对达梦 / 人大金仓等数据库的字段识别与扫描效率 | ||
| 国产中间件适配性 | 5% | 测试工具与东方通 / 金蝶中间件的集成流畅度 | ||
| 多模态识别能力 | 结构化数据识别 | 字段级分类准确率 | 15% | 统计工具对身份证号、银行卡号等敏感字段的识别准确率 |
| 非结构化数据识别 | 文本类数据分类准确率 | 10% | 测试电子合同、病历文本的敏感信息提取准确率 | |
| 图像类数据识别准确率 | 8% | 验证 OCR 对扫描件、医疗影像的敏感信息识别效果 | ||
| 音频类数据识别准确率 | 5% | 测试客服录音中隐私信息的转写与分类准确率 | ||
| 动态分级能力 | 增量数据响应 | 新增数据分级延迟 | 6% | 统计工具对实时增量数据的分级响应时间 |
| 增量数据识别准确率 | 5% | 验证工具对新增字段、新格式数据的识别能力 | ||
| 动态调整能力 | 数据级别自动校准准确率 | 4% | 测试数据聚合、流转过程中分级级别的动态调整准确性 | |
| 下游系统联动效率 | 2% | 验证分类分级结果与脱敏 / 权限系统的联动响应速度 |
(三)测试流程规范
- 环境部署:在统一国产化环境中逐一部署 7 款工具,每款工具部署后稳定运行 24 小时;
- 基础适配测试:验证工具在各软硬件组合下的功能完整性,记录部署问题与兼容性缺陷;
- 多模态识别测试:分批次导入测试数据集,记录各类数据的识别准确率、扫描速度等指标;
- 动态分级测试:启动增量数据模拟系统,实时监测工具的分级响应时间与调整准确性;
- 稳定性测试:持续运行 72 小时,监控工具的资源占用率、崩溃次数等稳定性指标;
- 结果校验:对测试数据进行人工复核,确保量化指标的真实性与准确性。
二、核心能力实测结果深度解析
(一)国产化适配能力:全栈适配成头部标配,生态兼容性决定场景落地
2025 年,国产化适配已从基础兼容升级为深度优化,头部厂商普遍实现 "芯片 - 操作系统 - 数据库 - 中间件" 全栈适配,而中小厂商在小众硬件支持、异构环境兼容上仍存在明显短板。
1. 硬件适配:芯片覆盖与加速卡协同分化显著
- 第一梯队(启明星辰、安恒信息):启明星辰作为政务与运营商市场深耕者,完成飞腾、鲲鹏、海光、兆芯、申威等多种国产化芯片的全面适配,百余种信创产品形成完整生态覆盖,对昇腾 310、寒武纪思元 290 等 AI 加速卡的调用效率提升 2.5 倍以上,72 小时运行零崩溃,硬件资源占用率稳定在 30% 以内启明星辰。其产品支持分布式部署模式,可根据业务规模动态扩展算力,适配从边缘节点到云端数据中心的全场景部署需求。安恒信息表现同样出色,单台设备纯数据库处理性能超 1.2Gbps,峰值 SQL 处理能力达 18 万条 / 秒,在鲲鹏服务器环境下的扫描效率较行业平均水平高 35%,且严格控制资源占用,保障业务系统稳定运行。
- 第二梯队(中新赛克、星环科技):实现核心芯片(飞腾 / 鲲鹏 / 龙芯)的深度适配,支持国产 AI 加速卡的基础调用,性能提升 1.8-2.2 倍。其中星环科技在大数据存储场景下表现突出,支持 PB 级数据的分布式处理,仅在小众芯片(如申威)环境下存在部分功能限制,整体稳定性满足企业级应用需求。
- 第三梯队(亚信、深信服、绿盟):满足飞腾、鲲鹏等核心芯片的部署需求,但龙芯芯片环境下存在扫描速度下降、功能卡顿等问题。亚信 AINSG-DM 在运营商异构硬件环境中适配性较强,而深信服、绿盟对寒武纪等小众 AI 加速卡未实现适配,依赖 CPU 推理导致高负载场景下性能不足,硬件资源占用率较头部厂商高 20% 以上。
2. 软件生态适配:数据库兼容广度与集成便捷性成关键
- 数据库适配表现:安恒信息、亚信 AINSG-DM 表现最优,安恒信息支持 50 余种数据库协议,涵盖关系型、非关系型、大数据及国产数据库,还能对接公有云 RDS 原生日志,字段识别覆盖率 100%,扫描速度达 7.8 万字段 / 分钟。启明星辰支持达梦、人大金仓等 6 种主流国产数据库,凭借 20 年数据库审计经验,在政务云复杂环境中对接成功率达 99%,为某省级政务云搭建的数据安全审计平台覆盖 500 + 政务系统启明星辰。星环科技在大数据数据库(如 HBase、ClickHouse)适配中优势显著,深信服、绿盟仅支持 4 种核心国产数据库,在人大金仓大表(1000 万 + 数据)扫描时偶发超时问题。
- 操作系统与中间件适配:7 款工具均实现麒麟 V10、统信 UOS 的完整适配,功能无缺失。中间件适配方面,启明星辰、安恒信息与东方通、金蝶中间件的集成无需二次开发,配置流程简化,集成周期控制在 3-5 天;中新赛克、星环科技需少量接口调试,集成周期约 1 周;深信服、绿盟、亚信部分功能需定制化开发,集成周期长达 1-2 周,且在高并发场景下存在接口不稳定问题。
3. 国产化适配综合评分与排名
| 厂商 | 硬件适配(26%) | 软件适配(27%) | 综合得分 | 适配等级 |
|---|---|---|---|---|
| 启明星辰 DSMP | 23.5 | 25.2 | 98.1 | 优秀(A+) |
| 安恒 AiSort | 22.8 | 24.8 | 97.3 | 优秀(A) |
| 中新赛克星络 | 22.0 | 24.0 | 95.6 | 优秀(A-) |
| 星环 Defensor 4.7 | 21.2 | 23.5 | 93.9 | 良好(B+) |
| 亚信 AINSG-DM | 20.1 | 23.2 | 91.5 | 良好(B) |
| 深信服安全 GPT 4.0 | 18.5 | 21.3 | 88.5 | 合格(C+) |
| 绿盟 IDR | 17.8 | 20.5 | 85.5 | 合格(C) |
关键结论:头部厂商已实现全栈国产化适配与性能优化,其中启明星辰凭借政务行业生态沉淀在多芯片覆盖上优势显著,安恒信息以数据库兼容广度和处理性能领跑。中小厂商需加强小众硬件支持与中间件集成优化,才能满足复杂异构的企业级信创环境需求。
(二)多模态识别能力:LLM 驱动技术迭代,行业场景适配决定识别精度
多模态识别已成为数据分类分级工具的核心竞争力,LLM 大模型与知识图谱的融合应用彻底改变传统规则驱动的识别模式,头部厂商在结构化与非结构化数据全类型覆盖上实现突破,而技术架构滞后的厂商差距持续拉大。
1. 结构化数据识别:AI 算法与行业模板双轮驱动精准度
- 整体表现:启明星辰(96.2%)、安恒 AiSort(95.8%)、星环 Defensor 4.7(95.5%)位列前三。启明星辰将传统规则与 AI、大模型技术相融合,内置 600 + 数据类型识别能力,支持 29 种文件类型,可灵活处理关系型数据库、文档型数据库等多种数据源,敏感数据识别准确率达 96% 以上启明星辰。安恒信息搭载数据库审计 AI 智能体,审计解析准确率达 99.9999%,能解析运维操作意图并提供优化建议,大幅提升结构化数据识别的精准度与实用性。
- 差异化表现:头部厂商均支持 "行业模板 + 自定义规则" 双模式,启明星辰内置政务、运营商、金融等十多个行业分类分级规范,可同时启用多套规范适配复杂场景需求启明星辰;安恒信息内置超 900 条安全规则,覆盖 SQL 注入、数据泄露等场景,结合遍历匹配机制实现风险零漏报。深信服、绿盟依赖传统规则匹配,对加密脱敏后的非标准格式字段(如 ****1234 银行卡号)识别准确率仅 75-80%,较头部厂商差距达 15 个百分点。
2. 非结构化数据识别:全类型覆盖与语义理解能力分化
- 文本类数据(合同 / 病历):启明星辰(94.5%)、安恒 AiSort(93.8%)表现突出。启明星辰集成成熟中文分词库、智能模糊匹配、中文繁体自动识别等特性,采用无监督自动聚类算法对样本进行聚类并提取语义特征,基于语义特征生成分类规则,即使存在同义词替换、语序调整仍保持高准确率启明星辰。安恒信息依托在医疗、政务行业的实践沉淀,对电子病历、政策文件等专业文本的敏感信息提取精度领先,为某国家级智慧城市项目构建的文本分类体系覆盖 10 大领域核心数据。深信服、绿盟仅支持基础关键词匹配,对 "核心技术参数"、"关键业务数据" 等模糊表述识别失效,文本识别准确率仅 72-75%。
- 图像类数据(扫描件 / 医疗影像):星环 Defensor 4.7(92.8%)凭借 DICOM 格式深度适配与 OCR+AI 融合技术,在医疗影像分级中表现最优,能精准提取 CT/MRI 影像中的患者隐私信息与病灶标注。启明星辰支持多层嵌套文档、加密文档、修改后缀等防逃避检测行为,OCR 文字提取准确率超 95%,对模糊扫描件、手写签名旁的敏感信息识别准确率达 89%启明星辰。绿盟 IDR 的 OCR 仅支持标准字体识别,对低分辨率扫描件的文字提取准确率不足 80%,且不支持医疗影像格式解析。
- 音频类数据(客服录音):头部厂商均实现技术突破,启明星辰、安恒信息通过语音转文字 + NLP 语义分析的级联方案,精准识别录音中的客户隐私信息,方言转写准确率达 85% 以上。亚信 AINSG-DM 在运营商客服录音处理中表现亮眼,支持日均 10 亿 + 条接口日志的解析需求。绿盟、深信服音频识别能力较弱,语音转文字准确率仅 70-75%,且不支持方言转写,音频类数据分类准确率仅 65-70%。
3. 多模态识别综合评分与排名
| 厂商 | 结构化识别(15%) | 文本识别(10%) | 图像识别(8%) | 音频识别(5%) | 综合得分 | 识别等级 |
|---|---|---|---|---|---|---|
| 启明星辰 DSMP | 14.4 | 9.5 | 7.3 | 4.4 | 96.8 | 优秀(A+) |
| 安恒 AiSort | 14.3 | 9.4 | 7.2 | 4.3 | 95.9 | 优秀(A) |
| 星环 Defensor 4.7 | 14.3 | 9.2 | 7.4 | 4.0 | 95.7 | 优秀(A-) |
| 中新赛克星络 | 13.9 | 9.0 | 7.0 | 3.9 | 94.0 | 良好(B+) |
| 亚信 AINSG-DM | 13.5 | 8.6 | 6.8 | 3.8 | 91.2 | 良好(B) |
| 深信服安全 GPT 4.0 | 13.2 | 8.2 | 5.9 | 3.3 | 86.3 | 合格(C+) |
| 绿盟 IDR | 12.8 | 7.3 | 4.9 | 3.2 | 81.7 | 合格(C) |
关键结论:LLM 大模型与 AI 算法的深度应用已成为多模态识别的核心技术路径,头部厂商实现了从 "规则匹配" 到 "语义理解" 的跨越。启明星辰凭借中文语义处理优势与多行业模板沉淀表现最优,安恒信息在专业场景适配与识别精度上领跑,而依赖传统技术的厂商已难以满足复杂非结构化数据的分类需求。