源自:系统工程与电子技术
作者:栾瑞鹏, 张静, 刘立坤
"人工智能技术与咨询" 发布
摘 要
针对装备试验鉴定领域数据复杂性带来的数据治理难题, 提出通过构建知识图谱辅助相关试验鉴定机构开展数据治理的技术思路。分析试验鉴定任务与领域数据特点, 在斯坦福本体构建流程的基础上, 设计了一种具有试验鉴定领域普适性的本体构建方法。基于该方法构建的知识图谱本体模型, 具有明确的业务针对性与体系拓展性。最后,通过典型示例验证了该方法构建知识图谱, 对试验鉴定领域数据治理工作具有一定的支持能力。
关键词
试验鉴定, 数据治理, 知识图谱, 知识本体, 本体构建方法
引言
军事装备试验鉴定是指通过规范化的组织形式和试验活动, 对被试对象进行全面考核并作出评价结论的检验行为, 工作内容涵盖武器系统、平台系统、体系试验、训练演习, 以及相关理论方法、技术、试验专用装备等领域, 涉及面广、专业性强, 导致试验鉴定领域数据具有高度的复杂性, 为试验鉴定机构(执行试验鉴定任务的工作主体单位)开展数据治理工作, 带来了极大的困难。
数据治理是一整套标准、流程、要素、工具以及组织管理行为的统称[1-2], 其目标是支持组织机构对自身数据的有序管理[3]、应用并提升数据价值[4]。大数据时代, 数据治理是组织机构实现自身数据战略、提质增效、管控风险、应对挑战的重要保障[5-6]。
本文结合工作实践, 深入分析试验鉴定领域数据治理难点, 提出以知识图谱为核心的试验鉴定机构开展数据治理技术思路。针对本体建模这一知识图谱构建的关键问题, 在分析试验鉴定领域数据特点基础上, 融合斯坦福本体构建方法, 设计了一种具有试验鉴定领域普适性的本体构建方法, 指导领域本体建模, 进一步形成知识图谱, 为试验鉴定领域数据治理工作提供支撑。
1 试验鉴定领域数据治理与知识图谱
1.1 试验鉴定领域数据特点
装备试验鉴定是一个多层次、多维度复杂系统工程, 试验鉴定领域数据有着极强的复杂性, 这种复杂性体现在数据需求、数据来源以及试验数据本身3个方面。
数据需求的复杂性源自鉴定评估工作。鉴定评估是根据试验数据, 对被试对象进行全面考核并作出评价结论的过程。鉴定评估既要考核被试对象的技术性能, 也要考核其作战效能。相应的评估目标包括性能指标体系和效能指标体系, 以及二者之间的交联。被试对象尤其是战略武器、作战平台等现代化装备, 无论自身功能还是所属作战体系均极为复杂, 相关指标评定所采用的方法、技术、手段均有所不同, 造成了数据需求的复杂性。
数据来源的复杂性源自保障条件及试验活动。试验保障条件是试验数据的主要获取载体, 其主体是测试测量、环境构设、基础保障等一系列试验专用装备及设施。这些装备设施组成层次、网状的试验保障体系, 支撑试验鉴定任务的开展; 试验鉴定机构是试验活动的实施主体, 试验活动产生试验数据, 试验活动具有阶段性, 各阶段均包括一系列子任务, 子任务又由直接准备、组织实施、结果分析3个分阶段组成, 且子任务之间也可能交叉开展。上述特点造成了数据来源的复杂性。
试验数据本身的复杂性体现在数据格式、存储介质等方面。由于数据来源设备的不同, 存储介质上存在纸质、胶片、磁带、磁盘、光盘和硬盘多种存储型态; 数据格式上存在着结构化、半结构化、非结构化多型并存的状态, 增加了数据来源、含义等方面的复杂性。
1.2 知识图谱概述
知识图谱用符号形式描述概念及其相互关系, 一般可定义为"由作为节点的实体和作为边的关系组成的多关系图"[7]。目前, 知识图谱已在网络安全[8]、电力建设[9]、情报分析[10]、医疗[11]、金融[12]等领域得到广泛运用并发挥了显著效益, 涌现出Freebase[13]、Wikidata[14]、CN-DBpedia[15]、Zhishi.me[16]等著名通用领域知识库, 是人工智能技术的重要基石[17]。
知识图谱的逻辑结构分为模式层和数据层两部分, 模式层描述知识类的层次结构和层级关系定义, 由知识本体构成; 数据层是模式层的实例化, 一般采用资源描述框架(resource description framework, RDF)三元组描述。知识本体是一种共享概念模型的形式化规范说明, 其核心思想是提供领域内概念、概念与概念间关系的形式化描述[18]。
知识图谱构建及实际效益发挥的前提条件, 是对知识进行科学、合理、系统、规范的建模, 即知识本体的构建[19-20]。本体构建一般分为半自动化和人工构建两类[21], 试验鉴定领域缺乏叙词表、词典、知识库等形式化的数据累积, 相关领域叙词表缺乏内容且时间久远, 基于数据的本体映射、提取等自动化构建方法, 往往无法实施; 在人工构建方法方面, 试验鉴定机构承担的任务不同、复杂性与作用域不同, 相应的鉴定评估对象和保障条件不同, 导致知识体系存在较大差异。领域专家长期从事指挥链路限定的细分岗位工作, 不易形成全局知识体系, 传统人工本体构建方法缺乏指导性约束, 导致本体构建的随意性强、全面性差, 影响图谱构建质效, 特别是难以形成广域知识链接, 制约着数据作用价值的发挥[22-23]。由于试验鉴定工作的特殊性, 试验鉴定领域数据治理, 以及试验鉴定领域知识本体建模方法的相关研究十分匮乏。
1.3 知识图谱辅助数据治理
数据治理的目标是通过对数据有序管理、使用, 实现数据价值的全面发挥。从数据治理的角度看, 传统试验数据管理重点集中在数据采集和数据使用两个阶段, 两个阶段间的独立性比较强, 或是从采集设备到数据, 或是从数据到鉴定评估, 总体上缺乏能够关联全域、辐射全维、整合全局的数据体系。没有数据体系支撑的数据治理, 数据关联链条短、完成对应业务后即被闲置, 数据元、数据字典及相关标准无法深化。特别是数据与试验活动的关联缺失, 导致试验鉴定机构在鉴定评估之外的大量工作, 如条件建设、科研训练、组织管理、兵力调动等, 无法通过数据描述, 也就难以恢复装备试验寿命周期的全貌, 数据处在关联匮乏的状态, 缺乏反馈、沉淀、激活、增效的过程, 难以拓展数据应用、挖掘数据价值。
而试验鉴定领域数据的复杂性, 特别是试验活动的描述方面, 相当一部分源自语义、概念等非结构信息, 有很强的知识属性。传统关系型数据库功能重点在结构化数据, 即使完成建模, 也会存在建模难度大、模型鲁棒性差、计算效率低(多重跨表)等多种问题。也就是说, 试验鉴定领域数据的复杂性直接增加了数据体系构建的困难程度, 是数据治理的难点所在。
知识图谱是一种实体和关系组成的语义网络, 其实体定义灵活、多样, 可解耦数据来源、数据结构的复杂性; 关系构建便捷、广域, 可有效联通鉴定评估、保障条件、试验活动。适用于复杂系统的联通与整合, 是构建数据体系、拓展数据关联、支持试验鉴定领域数据治理的有力技术手段。具体技术思路是, 面向数据治理的数据体系, 采用"知识图谱+关系数据库/数仓"的双层结构, 通过构建具有强业务针对性的知识图谱, 形成全域关联的"网状"数据体系上层, 支持数据反馈、沉淀、激活、增效; 传统关系数据库存储遥测、外测等数据, 支持传统业务软件(如数据处理、仿真等)的数据需求, 具体结构如图 1所示。
图1 基于知识图谱的数据治理链路关系
2 试验鉴定领域本体构建方法
现有的领域本体构建方法主要包括七步法[24]、五步循环法[25]、Methonotology法[26]、TOVE(Toronto virtual enterprise)法[27]、IDEF(icam definition method)5[28]、骨架法[29]和Kactus工程法[30]。
IDEF5、骨架法等多用于企业知识建模, 一般建立在详细的业务流程分解基础上; Methonotology法源自化工领域知识工程建设, 在本领域的应用实践效果非常好; Kactus工程法、五步循环法等, 强调已有本体的演进迭代。其中, 七步法是目前使用频率和成熟度最高的领域本体建模方法, 由斯坦福大学开发, 构建步骤包括确定范围、重用考虑、列举重要术语、定义类和层级结构关系、定义属性、定义约束条件和创建实例。
本文综合试验鉴定工作、试验鉴定机构与试验鉴定数据的共性特点, 在斯坦福本体构建流程(七步法)的基础上, 设计了一种具有试验鉴定领域普适性的本体构建方法。该方法包括9个步骤, 分别是: 确定范围、重用考虑、列举重要术语、定义类和层级结构关系、关系模型映射、类和层级结构精化、定义属性、定义约束条件、创建实例(见图 2)。方法的创新工作集中在定义类和层级结构关系、关系模型映射、类和层级结构精化3个步骤。
图2 试验鉴定领域本体构建方法
2.1 定义类和层级结构关系
定义类和层级结构关系是本体体系构建的关键。试验鉴定机构承担的试验任务不同, 相应的试验评估和保障条件不同, 导致知识体系存在较大差异。在缺乏统一框架约束的情况下, 各机构领域专家独立开展类和层级结构定义的随意性较大, 加之试验数据的复杂性, 容易出现本体覆盖不全面的情况, 导致数据体系无法做到全域联通, 影响数据治理效能, 也影响跨机构、跨领域之间的知识复用共享。
本文从试验鉴定体系共性出发, 给出类和层级结构定义指导框架及构建步骤, 框架包括指标体系、试验活动、保障条件、试验数据4个一级类, 每个一级类均包含相应子类及层级结构。在构建步骤上, 指标体系、保障条件两个一级类的内聚性强, 可先行完成构建, 试验活动最为复杂且与保障条件、试验数据之间关联紧密, 在步骤3完成, 如图 3所示。设计的重要原则是, 最终设计结果, 所有本体之间全域联通, 不存在孤立本体。
图3 总体层级结构
(1) 指标体系
指标评定是鉴定评估工作的核心内容, 各试验鉴定机构任务不同, 但不论武器系统、平台系统还是演训任务, 均需在任务之初完成相关指标体系设计, 如性能指标、效能指标、贡献率指标等, 并逐级分解直至不可再分的指标项(实例为具体指标), 指标体系之间的关系可直接映射为层级结构。个别试验机构承担任务确无指标体系的, 可尝试将试验目的进行指标化, 再仿照上述过程处理。
(2) 保障条件
保障条件一级类一般可分为组织指挥、测试测量、分析评估、环境构设、基础保障5个子类, 每一子类均可根据自身建设情况, 向下逐级分解, 直至具体设备设施。其类结构由"包含""实例""属性""管理约束""空间约束"5种关系链接, "实例"关系指向的, 均为实际设备设施。其中, 组织指挥子类包括试验设计、方案推演、通信保障、任务调度、过程监控、运维管理、态势综合子类; 测试测量类包括测量系统、测试系统子类; 环境构设子类包括模拟自然环境、电磁环境、靶标以及环境监测子类; 分析评估类包括数据处理、建模仿真、性能评估子类; 基础保障类包括试验航区、试验设施、测绘导航、技术基础、勤务保障等子类。类结构如图 4所示。
图4 保障条件一级类的总体层级结构
(3) 试验活动
试验鉴定领域数据复杂, 涉及数据来源、用途、组成、关系等方面, 但从试验鉴定机构, 这一数据治理主体的角度看, 试验数据一定是试验活动中具体工作产生的结果, 对试验活动进行类和层级设计, 就是对整个试验鉴定业务流程、试验数据生命周期的全面梳理, 是本体建模中最为复杂、关键的部分。
试验活动的类和层级设计, 需要按照实施流程结构, 自顶向下依次开展, 逐层分解直至具体事件, 如图 5所示。具体事件是关联全局资源的纽带, 是从数据角度描述型号装备试验寿命周期全貌, 贯通性能试验、作战试验等试验环路, 推动全面数据治理的关键。具体事件有严格的时间属性。
图5 试验活动类总体结构示意图
① 总体层。按照装备型号试验鉴定全寿命阶段展开, 分为论证、总案、性能试验、作战试验4个阶段, 呈递进关系。②子任务层。包括完成阶段试验任务所需要的各类子试验任务, 如性能试验阶段需要完成的"飞行试验""精度试验"等。③任务执行层。各类子任务均包括直接准备、组织实施、分析评估3个阶段, 呈递进关系。④具体事件层。各阶段由具体事件组成, 事件是人或单位利用设备、设施等保障条件实施某行动并得到结果的过程, 事件根据任务情况及相似性进行分类, 如阵地测试、文书发布、协同程序、飞行测控、数据处理、鉴定评估等, 再分解至具体事件, 如阵地测试事件类的分系统测试、总检察等具体事件, 鉴定评估事件类的指标评定具体事件等。每个具体事件类基本结构包括: 人员机构, 如该事件的执行人员、参与人员、指挥机构等; 输入类, 如法规标准(执行该事件所依照的标准、法规等)、保障条件(执行该事件所使用的具体设备或设施)、命令指令等; 输出类, 该事件生成的输出, 如数据、指标评定、指令等。试验活动类结构由"包含""递进""使能""输入""输出"5种关系链接, 总体结构如图 6所示。
图6 试验活动一级类的总体层级结构
(4) 试验数据
试验数据类分为数据库、数据文件、电子表单、影音图像、人工记录表、试验文书、条目数据7个子类。试验数据类侧重于描述数据的不同持久化状态, 其中数据库、数据文件、影音图像3个子类, 是测试、测量、录取等试验设备、保障条件所获取数据的主要持久化状态。试验文书主要包括试验过程中产生的各类非结构文档, 如"试验大纲、实施方案、操作规程"等。人工记录表指各类人工填写的纸质记录表单, 如"检查记录表、战斗报告表"等。条目数据是指直接参与各类事件, 特别是鉴定评估事件的具体数据记录, 如"射程、高度、分离时间"等。其类结构由"包含""输出"两种关系链接, 如图 7所示。除条目数据外的子类, 都是试验活动中具体事件的输出, 主要为各类应用提供定向链接, 引导通过关系型数据库/数仓实现功能应用。
图7 数据类的总体层级结构
2.2 关系模型映射
装备试验鉴定机构, 通过型号装备试验条件建设, 建成了大量基于关系型数据库的业务系统, 这些关系型数据库的结构设计蕴含了一定的领域知识。需要采用相关处理技术, 从关系型数据库中提取知识本体, 这既是对已有知识的复用, 也是对数据资源的继承, 有着重要的实践价值和意义。关系模型映射包括以下3个步骤。
步骤1 提取关系模型要素: 提取关系型数据库的数据模型, 得到数据库中所包含的表名称、列名称、主键、外键等信息。
步骤2 关系模型处理: 多数试验鉴定机构没有专职信息化部门, 其关系型数据库的设计(特别是历史业务信息系统), 往往不够科学。需进行拆分、合并等处理, 使其至少满足数据库设计的第二范式。
步骤3 本体映射: 将数据库的数据模型信息映射为本体中的概念、属性和关系, 具体包括以下3个步骤。
步骤3.1 将关系数据库模型中的表, 映射为相应概念(表中的每一行, 可以在数据层作为该概念的一个实例)。
步骤3.2 将表中外键列, 映射为与其对应表概念的关系。
步骤3.3 将表中的其他列, 映射为概念的属性。
2.3 类和层级结构精化
本方法步骤4"定义类和层级结构关系", 属于自上而下的本体构建过程, 主要目的是构建整个试验鉴定本体的体系结构, 故强调覆盖性, 重点是不能缺"结构", 但也难以做到精细。步骤5的"关系模型映射", 从已有关系型数据库中提取本体, 属于自下而上的本体构建过程, 相当于在为步骤4"补漏"。步骤6"类和层级结构精化"是解决二者之间的适配性问题, 对本体结构进行全面遍历, 对本体进行过滤、删除、修改、调整以达到总体一致性。
该步骤的关键是解决全局命名一致性问题, 站在全局高度设计"全局资源标识符", 试验鉴定领域的"同名异义"是该问题的典型特征, 需要在本体设计上做出相应区分。例如, "武器系统", 该词组在试验活动的论证、总案阶段出现时, 一般指抽象的概念; 在性能试验阶段出现时, 一般指有物理实体的具体实例; 在作战试验阶段出现时, 所指的具体实例是"小批量试生产"后的产品, 与性能试验阶段出现的实例在本体类继承方面应做出区分。这是试验鉴定领域知识的突出特点, 在本体设计时, 需要在步骤4和步骤5构建的本体体系基础上, 再从全局角度进行定义和区分, 完成类和层级结构精化。
3 示例验证
3.1 试验鉴定领域数据治理知识图谱构建过程
本文采用上述方法, 构建面向该机构数据治理的本体体系。在本体基础上, 进一步通过实体识别、关系抽取、实体消歧等技术, 完成知识抽取与知识图谱构建。需要指出的是, 由于装备试验鉴定相关子领域, 有着典型的小样本特点, 当前的主流方法实现效果并不理想, 故图谱的构建过程, 广泛采用了领域专家"人在回路"的方式, 包括通过人工标注构建基本训练集、专家知识介入/半监督关系抽取等。
构建完整的知识图谱, 使用Neo4j数据库作为存储载体, Neo4j数据库完全支持ACID(atomicity, consistency, isolation, durability)事务, 具有良好的稳定性和可靠性[31], 可以部署在多种平台上, 对当前技术生态兼容较好。
3.2 试验鉴定领域数据治理知识图谱基本功能
知识图谱覆盖数据范围如表 1所示。试验鉴定领域数据治理知识图谱, 实现了试验鉴定机构开展型号试验任务所涉及各类信息的全面覆盖, 通过"试验活动"中的"具体事件"本体, 构建了一张关联试验鉴定机构全面工作的"图", 从而打破了以往不同管理部门对数据独立管控形成的条块分割状态, 首次实现"人员、试验对象、保障条件、组织指挥、理论科研"的直接集成, 为数据治理工作乃至数字化转型提供了有力支持。
表1 数据治理知识图谱覆盖数据范围
知识图谱在支持全面数据治理的基础上, 也在具体应用方面形成了一些新质能力, 包括以下3个方面: 一是在试验鉴定方面, 贯通了"性能试验、作战试验"两个关键任务阶段及两类指标体系, 首次成功构建面向型号装备任务全试验周期的数据体系, 为新体制下的试验鉴定管理数字化提供了新型数据产品; 二是首次建立了"被试对象、指标、事件、条件、数据、人员"之间的全面关联, 数据追溯能力得到显著增强, 提高了任务响应的"时效性", 支持实现数据赋能试验鉴定机构全面管理; 三是结合领域专家知识, 构建了如"高度表-脱靶量"之类的子图结构, 初步形成面向全域数据的图分析、关系发现能力。这里考虑计算能力和显示效果, 提取其中"飞行试验"子任务部分数据, 形成局部图谱作为示例, 如图 8所示。
图8 飞行试验图谱(局部)示例
3.3 试验鉴定领域数据治理知识图谱计算效能
广域、深度的数据关联、追溯与分析, 是试验数据治理工作的深层次需求。知识图谱在辅助实现全域数据治理的同时, 在数据关联、追溯与分析方面, 相比传统关系型数据库建模, 具有突出的计算效能优势。
关系型数据库一直是企业资源管理等各类信息管理系统的核心支撑, 也是数据治理的重要工具。关系型数据库基础理论中, 将关系定义为"在集合论基础上构建的二维表", 将生产实践中的各类"关系"概念, 转化成以集合论为基础的二维表关系之间的连接操作。而关系型数据库通过外键约束来实现两个表或多个表之间某些记录的互相引用, 通过外键在主表中寻找匹配的主键记录来进行搜索、匹配计算操作。对于多对多关系, 则必须再添加一个中间表, 保存两个参与表的外键对应关系, 进一步增加了连接操作成本。
例如下面的实践场景: 装备试验任务的飞行试验中, 一个时段内被试装备的二级舵展开, 哪些参试光测设备观测到该过程?所有观测到的光测设备, 俯仰角反算精度是多少?历次任务中, 精度高于该数值的有哪些设备?找出该设备的研制生产单位、操管维护人员以及历次任务的履历书。
可见, 通过传统的关系型数据库建模, 进行复杂的数据关联、追溯与分析, 必然需要进行大量的跨表查询、反向查询, 也就意味着大量的连接操作。同时, 试验任务实践中的数据关联、分析具有未知性, 很难提前建立完备索引, 故其资源消耗随着数据体量与表结构复杂性增长而愈发严重, 对于复杂的深层次关联, 计算代价几乎不可接受。
相比传统的关系型数据库建模, 知识图谱可基于原生图数据库(如Neo4j数据库)实现, 原生图数据库的每个节点都会维护与其相临节点的引用, 相当于拥有与其"相邻节点"的微索引。运行类似关系数据库的连接操作时, 将使用微缩引来直接访问连接的节点, 无需进行记录的搜索、匹配计算操作。这意味着查询时间和图的整体规模无关, 只与其附近节点的数量成正比, 这在大数据量, 广域、复杂、深层次数据关联与追溯方面, 与关系型数据库的连接操作相比, 有着巨大的效率优势, 特别适合构建面向广域、复杂数据治理的技术支撑能力。
4 结论
本文提出通过构建知识图谱辅助试验鉴定机构开展数据治理的技术思路, 针对本体建模这一知识图谱构建的关键问题, 提出一种具有试验鉴定领域适用性的本体构建方法, 该方法在斯坦福七步法的基本流程基础上, 增加了关系模型映射、类和层级结构精化步骤, 在定义类和层级结构关系步骤, 设计了相应的类结构框架。传统数据治理的工作重点在狭义的"数据", 故对试验鉴定机构的实际工作支撑有限, 本方法从知识建模的角度,
提供了方法论和基本框架, 扩展了"数据"的范围和内涵, 实现了对试验鉴定机构业务的全面支撑, 提升了数据治理的层级和能力水平。实践表明, 基于该方法构建的试验鉴定知识本体模型, 具有明确的业务针对性与体系拓展性, 在其基础上构建的知识图谱, 在基本功能、计算效能等方面, 相比传统方法有着显著优势, 是试验鉴定领域数据深度治理工作的有力支撑, 具有较强的应用推广价值。
**声明:**公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。
"人工智能技术与咨询" 发布