【论文阅读21】-基于大语言模型与领域知识图谱集成的CNC智能故障诊断

😊文章背景

题目：Intelligent Fault Diagnosis for CNC Through the Integration of Large Language Models and Domain Knowledge Graphs

期刊：Engineering

检索情况：IF 11.6 SCI升级版工程技术2区 SC1 Q1 EI检索

作者：Yuhan Liu a, Yuan Zhou b, Yufei Liu c, Zhen Xu a, Yixin He a

单位：华科，清华

发表年份：2025.10

DOI：10.1016/j.eng.2025.04.003

网址：https://www.sciencedirect.com/science/article/pii/S2095809925001948

❓ 研究问题

传统的故障诊断系统主要基于专家系统，存在三个主要局限性：

故障诊断知识组织效率低下；
静态知识框架与动态工程环境之间缺乏适应性；
难以将专家知识与实时数据流集成。

纯大模型 (LLM)：在垂直领域存在"幻觉"，且缺乏深层领域知识，难以保证工业级的高可靠性。

📌 研究目标

设计一种将LLM与知识图谱（KG）相结合的智能计算机数控故障诊断系统。

⭐整体框架

三层架构：

数据层 (Data Foundation)：整合 PLC 代码、维修工单、设备文档、实时传感器数据等多源异构数据。
图谱构建层 (KG Construction)：采用"自顶向下"的本体设计与"自底向上"的知识抽取（包括深度学习特征提取）。
应用层 (Diagnosis & Learning)：
- KG-RAG：基于子图划分的检索增强生成。
- Learning Mechanism：基于"人在回路" (Human-in-the-loop) 的知识动态更新。

🧠 所用方法

一、多源异构知识图谱构建

目的：整合多源数据，建立结构化知识底座。

1.本体构建：

采用自顶向下和自底向上相结合的方法。
- 自顶向下的方法利用专家系统和现有数据模式来指导知识图谱的构建；
- 自底向上的方法则通过信息抽取技术从半结构化或非结构化数据中识别和整合相关知识。
**7类实体定义：**设备、模块、参数、报警号、现象、原因、解决方案。
关系定义：定义了实体间的逻辑连接，例如"报警号"关联"现象"，"原因"指向"解决方案"。

2.多源数据抽取与融合：

结构化逻辑抽取--- PLC 梯形图：
- 将梯形图转换为文本信息。
- 分析开关状态及其串联/并联逻辑。
- 逻辑映射：将故障划分为"操作动作"和"故障发生条件"，将其提取为图谱节点。
- 关联构建：将故障报警数据与相应的解决方案关联，形成确定的故障定位路径。
非结构化文本抽取---历史维修工单：
- 利用 LLM 的深层语义理解能力。
- 提示工程 (Prompt Engineering)：设计特定的 Prompt 模板，引导模型从工单中提取"故障现象"、"故障原因"和"解决方案" 。
- 清洗与审核：提取后的信息经过数据清洗和专家审核，转化为结构化的三元组存入图谱。
时序信号特征抽取---工程数据 (传感器)：
- 数据内容：故障发生前 10 秒的"黑匣子"数据（如振动、电流、温度等传感器数据）。
- 方法 (深度学习)：为了将连续的信号转化为图谱可以理解的"特征"，作者设计了一个三阶段模型：
  - 单通道提取：使用 CNN (Conv1d) 提取单个传感器的特征。
  - 多通道融合：使用图注意力网络 (GAT) 融合不同传感器之间的空间关系。
  - 指令域分析：结合机器指令，使用自注意力机制 (Self-attention) 分析时间依赖性。
- 结果：提取出的特征被作为属性关联到"设备模块"实体上，用于后续的实时诊断。

高质量案例注入：诊断案例库 (Diagnosis Cases)
- 内容：约 500 个由华中数控提供的标准故障案例（涵盖机械、电气、软件故障）。
- 处理：直接解析为图谱节点，作为高质量的基础知识。

3.图谱存储

存储工具 ：使用 Neo4j 图数据库进行存储和查询。
最终规模 ：构建了 1549 个实体 和 1334 条关系 。

二、基于知识图谱的RAG推理

目的：利用图谱约束，抑制幻觉并精准推理。

子图检索与游走：

传统的 RAG 是检索相似的文本段落，而本文的 RAG 是检索逻辑关联的子图。
子图定位与动态划分：
- 实体识别与定位：当用户输入故障描述或报警代码时，系统首先利用 LLM 识别出关键实体。
- 子图提取：系统以识别出的实体为"锚点"，在 Neo4j 图数据库中向外扩展，提取出与该故障现象相关联的所有潜在原因、解决路径以及相关参数，形成一个相关子图。
多轮交互式游走：
- 路径导航：在提取出的子图中，可能存在多条导致故障的路径。
- 交互式排查：LLM 会根据子图的结构，主动向用户提问（例如："请检查冷却风扇是否转动？ "）。通过多轮问答，根据用户的反馈（Yes/No）一步步激活特定的路径。

提示词工程：

角色提示 (Role Prompts)：设定 LLM 为CNC 故障诊断助手，规定其语言风格和专业度。
任务提示 (Task Prompts)：强制 LLM 仅基于检索到的图谱路径进行回答，严格限制幻觉。

实时数据辅助裁决:

特征映射：系统实时采集机床数据，并通过深度学习模型提取特征。
路径剪枝：这些特征被映射到图谱中。例如：图谱中的某条故障路径通过条件是"电流正常"，而实时数据显示"电流过高"，系统就会自动切断（剪枝）这条路径，从而无需用户人工确认即可自动排除错误选项。

三、动态学习机制

目的：解决传统专家系统知识库静态、难以更新的问题。
人在回路（Human-in-the-loop）反馈闭环：
1. 路径权重调整：用户认可诊断或未提出异议时，增加该路径权重。在未来的检索中，权重更高的路径会被优先推荐。
2. 新知识捕获：当用户在交互中提供新反馈时，LLM 提取出新路径并存入反馈库。
3. 双重审核：利用大模型对反馈进行初步过滤，工程师定期审核反馈库，将审核通过的新路径合并入主图谱。

🧪 实验设计与结果

一、实验设计

数据集：
- 通用能力：MMLU, AI2-ARC。
- 垂域能力：自建 CNCLU 数据集 (200 道 CNC 专业问答) 。
基座模型对比：
- 对比了 ChatGLM3-6b, GLM4-9b, Qwen 系列。
- 量化分析：对比 GPTQ 与 GGUF 量化方式。
选型结论 ：Qwen2.5-7b-Instruct (GGUF) 在准确率和推理速度上达到了最佳平衡。

二、实验结果

实验结果一：诊断性能对比 (Results - Performance)

展示图表 ：
消融实验结果：
- 纯 LLM：32.90 分（效果差）。
- LLM + 案例库：56.13 分。
- LLM + KG：69.26 分（接近 1 年经验工程师）。
- LLM + KG + 学习机制 ：83.29 分 （显著优于 2 年经验工程师 的 73.23 分）。

实验结果二：多轮对话与实时性 (Results - Case Study)

交互实测：展示了通过多轮询问（如确认报警时机）来排除干扰项的过程
实时数据融合：验证了系统能结合实时传感器特征（如 RMS 值异常）来辅助定位，不仅仅依赖文本。

✅ 研究结论

1.实验结果表明，本文提出的集成系统在 CNC 故障诊断任务上的表现显著优于传统方法和初级工程师。

知识图谱有效解决了大模型在垂域的"幻觉"问题

结构化约束 ：通过构建包含设备、报警、现象、原因等多源数据的知识图谱，并利用基于子图的 RAG 推理，系统成功地将大模型的生成能力限制在可靠的知识边界内，显著减少了幻觉。
多源融合价值：证明了将非结构化的文本（工单）、半结构化的逻辑（PLC）和数值型的工程数据（传感器）融合到一个统一的图谱中，能够支持更复杂的逻辑推理。

"人在回路"的学习机制实现了知识的动态演进

解决静态瓶颈：传统的专家系统知识库是静态的，而本文提出的双回路学习机制（权重调整 + 新知捕获）成功实现了系统的自我进化。
长期价值：结论指出，这种机制保证了系统在长期使用中能够适应新的故障类型和工况变化，解决了工业知识更新滞后的痛点。

模型选型与落地可行性

基座模型选择 ：在对比了 ChatGLM 和 Qwen 系列多个模型后，结论认为 Qwen2.5-7b-Instruct （GGUF量化版） 在准确率、推理速度和显存占用之间取得了最佳平衡，最适合工业现场部署。
量化优势：量化（Quantization）技术虽然略微降低了精度，但极大地提升了推理速度，这对实时性要求高的工业诊断至关重要。

📈 研究意义

多模态融合：成功将 PLC、工单、传感器数据统一到 KG 中。
动态 RAG：通过子图划分和学习机制，解决了知识更新和检索准确性问题。
工程化落地：验证了量化模型（GGUF）在工业边缘侧的可行性。

🔮 对本课题的启示

数据清洗：可以借鉴其对多源异构数据的处理方法，为微调准备高质量指令集或为RAG准备高质量的知识库（图谱）。
物理融合：利用深度学习提取物理特征并注入 KG ，既扩充了静态知识库，又实现了对动态推理时的实时约束。
**动态更新：**通过人在回路的闭环反馈对知识图谱进行实时更新。

📕专业名词

1. 核心概念（Core Concepts）

CNC (Computer Numerical Control)
- 外行定义 ：计算机数控。简单来说，就是用计算机写代码来指挥机床怎么动，而不是靠老师傅手摇。它是现代工厂里那些自动化加工设备的"大脑"。
LLM (Large Language Model)
- 外行定义 ：大语言模型。像 ChatGPT 或文心一言这样的超级 AI，它"读"过海量的文本，能听懂人话，也能写出像模像样的文章或代码。
KG (Knowledge Graph)
- 外行定义 ：知识图谱。一种把知识像"思维导图"一样连起来的数据库。它不只是存储"电机"和"过热"这两个词，而是存储"电机--导致-->过热"这种关系，让电脑能理解事物之间的逻辑。
RAG (Retrieval-Augmented Generation)
- 外行定义 ：检索增强生成。相当于给 AI 这种"文科生"发了一本"专业参考书"。当你要它回答专业问题时，它不是靠瞎编（记忆），而是先去书里翻到那一页（检索），再结合书里的内容回答你。这是目前解决 AI 胡说八道最有效的技术。
Hallucination
-  外行定义 ：幻觉。指 AI 一本正经地胡说八道。比如它自信地告诉你"林黛玉倒拔垂杨柳"，虽然语言通顺，但事实完全错误。在工业诊断里，这种错误是致命的。

2. 工业与数据处理（Industry & Data）

PLC (Programmable Logic Controller)
- 外行定义 ：可编程逻辑控制器。工业机器专用的"硬核电脑"，专门控制开关、电机等动作。它非常耐造，用"梯形图"这种语言来编程。
Ladder Diagram
-  外行定义 ：梯形图。 PLC 的编程语言，长得像电路图。论文中把这个图转成文字，让 AI 去理解机器的控制逻辑。
Ontology
- 外行定义 ：本体。知识图谱的"骨架"或"户口本模板"。它规定了图谱里有哪些类别（比如必须有"故障现象"、"原因"、"解决方案"这几类），防止数据乱套。
Work Order
- 外行定义 ：维修工单。维修师傅修完机器后填写的记录单，里面写了"哪里坏了、怎么修的"。这是宝贵的经验数据，但通常写得很乱，需要整理。

3. 算法与模型技术（Algorithms & Models）

Prompt Engineering
-  外行定义 ：提示词工程。一种"跟 AI 提要求"的艺术。通过设计特定的说话方式（比如"你现在是一名拥有20年经验的维修专家..."），让 AI 输出更符合我们预期的答案。
Fine-tuning
- 外行定义 ：微调。相当于给一个受过通识教育的大学生（通用大模型）进行"岗前培训"，让他专门学习某一个领域的知识，变成专家。
GAT (Graph Attention Networks)
- 外行定义 ：图注意力网络。一种能处理"网状数据"的算法。在分析传感器数据时，它能自动判断哪些传感器之间关联更紧密，赋予更高的"注意力"。
Conv1d (1D Convolution)
- 外行定义 ：一维卷积。一种常用于处理时间序列（如声波、振动信号）的算法，能从一长串数字中提取出有用的特征波形。

4. 评估与量化（Evaluation & Optimization）

MMLU (Massive Multitask Language Understanding)
- 外行定义 ：大规模多任务语言理解测试。 AI 界的"高考"，涵盖数学、历史、法律等多个科目，用来测试 AI 的综合智商。
CNCLU (CNC Language Understanding)
- 外行定义 ：作者自创的 CNC 领域专业考试。专门考 AI 懂不懂数控机床，用来证明通用 AI 在这个专业领域是不及格的。
Quantization (GPTQ / GGUF)
-  外行定义 ：量化。相当于给模型"瘦身"。把模型里的高精度数字（比如 3.1415926）简化（变成 3.14），让模型体积变小、运行变快，方便装进配置较低的工业电脑里。 GGUF 是其中一种非常好用的格式。