【论文阅读15】-DiagLLM:基于大型语言模型的多模态推理,用于可解释的轴承故障诊断

😊文章背景

题目:DiagLLM: multimodal reasoning with large language model for explainable bearing fault diagnosis

期刊:SCIENCE CHINA Information Sciences

检索情况:IF 7.6 CSDN核心库 EI检索 计算机科学TOP SCI升级版计算机科学1区 SCI基础版 工程技术2区

作者:Jie WANG1,2,3, Tianrui LI1,2*, Yan YANG1,2, Shiqian CHEN3 & Wanming ZHAI3

单位:西南交通大学,计算机与人工智能学院

发表年份:2025年

DOI:10.1007/s11432-024-4333-7

网址:https://link.springer.com/article/10.1007/s11432-024-4333-7

摘要:准确可靠的轴承故障诊断对于确保机械设备的安全运行至关重要。以往的数据驱动方法在训练先进的深度学习模型时面临挑战,这主要是由于故障数据的稀缺以及数据分布的不一致性。此外,这些方法通常受到有限的可解释性和可靠性的影响,因为它们缺乏基于轴承失效潜在物理机制的约束引导学习,这阻碍了它们在机器状态监测中的应用。大型语言模型(LLM)的最新进展表明,它们有潜力应对这些挑战。为此,我们的目标是利用多模态LLM的能力来提高轴承故障诊断的泛化性和可解释性。具体而言,我们设计了一种名为DiagLLM的新型框架来实现这一目标。DiagLLM利用大型语言模型的强大推理能力,并结合来自包络谱图像和专家知识的上下文信息,以准确诊断轴承故障。为了有效地调整DiagLLM,我们构建了诊断视觉指令跟随数据,以将故障特征描述与信号特征联系起来,并使用参数高效的训练管道对整个模型进行微调。在两个公开的轴承故障诊断数据集上进行了广泛的实验,结果表明DiagLLM优于领先的基线方法,尤其是在数据有限和跨数据泛化的场景中。

关键词:大型语言模型、故障诊断、跨数据集泛化、多模态学习、多模态融合

❓ 研究问题

当前基于深度学习的诊断方法在实用化进程中面临根本性挑战:

  • 数据稀缺性:高可靠性设备故障样本稀少,难以支撑复杂模型的充分训练。
  • 分布不一致性:工况、负载变化导致训练与测试数据分布差异,模型泛化能力不足。
  • 可解释性缺失:深度模型作为"黑箱",决策逻辑不透明,难以与物理机理关联,阻碍其在关键领域的可信部署。

📌 研究目标

采用Qwen2-VL-7B作为基础模型,通过利用多模态LLM的能力来增强轴承故障诊断的泛化性和可解释性。

🧠 所用方法

整体框架

一、开创性的多模态数据融合架构

二、参数高效微调策略

三、诊断视觉指令数据构建

🧪 实验设计与结果

一、实验设计

二、实验结果

✅ 研究结论和意义

  • 方法论贡献:本研究首次将多模态大语言模型框架成功应用于轴承故障诊断,开创了"知识-数据"双驱动诊断新范式。
  • 性能贡献:在小样本学习与跨域泛化两个关键挑战上,实证性能超越主流数据驱动方法。
  • 可信性贡献:通过融合物理知识,为模型决策提供了可解释的物理基础,提升了诊断结果的可信度。

🔮 未来研究方向

  • 技术扩展:将DiagLLM框架推广至齿轮、电机等更广泛的工业设备故障诊断场景。
  • 部署研究:探索模型轻量化与优化,面向边缘计算设备实现实时在线诊断。
  • 知识深化:结合检索增强生成(RAG)技术与领域知识图谱,进一步丰富专家知识库,减少模型幻觉,增强复杂故障的推理能力。

📕专业名词

1. LLM (Large Language Model) / 大语言模型

  • 外行定义​:一种非常强大的人工智能,通过在海量文本数据上训练而成,能够理解和生成类似人类的语言。在这篇论文中,它被用作一个强大的"大脑",来综合处理图像信息和文本知识,并进行推理。

2. MLLM (Multimodal Large Language Model) / 多模态大语言模型

  • 外行定义​:是LLM的进阶版,能够同时理解和处理多种类型的信息(称为"模态"),例如文本、图像、音频等。本文提出的DiagLLM就是一个MLLM,它同时处理轴承的振动图像和专家的文字知识。

3. BPFI (Ball Pass Frequency of Inner race) / 内圈故障频率

  • 外行定义​:当轴承的内圈出现损伤(如裂纹、剥落)时,滚动体经过损伤点会产生具有特定规律的冲击信号,这个信号在频谱图上对应的核心频率就是BPFI。它是诊断内圈故障的关键指标。

4. BPFO (Ball Pass Frequency of Outer race) / 外圈故障频率

  • 外行定义​:与BPFI类似,但当轴承的外圈出现损伤时,产生的冲击信号所对应的核心频率就是BPFO。它是诊断外圈故障的关键指标。

5. Envelope Spectrum / 包络谱

  • 外行定义​:一种用于分析振动信号的特殊技术。它可以被理解为一种"精炼"过程,能从复杂的原始振动信号中提取出由轴承故障引起的、微弱的、有规律的冲击成分,并清晰地展示在一张频谱图上,从而使故障特征更容易被识别。

6. LoRA (Low-Rank Adaptation) / 低秩自适应

  • 外行定义​:一种高效训练大型AI模型的技术。它不像传统方法那样调整整个模型的数百万个参数,而是只训练一小部分新添加的、精简的参数(可以理解为给模型加一个"微型适配器"),从而使大模型能快速学会新任务,同时节省大量计算资源。

7. VQA (Visual Question Answering) / 视觉问答

  • 外行定义​:一项让AI模型根据给定的图像内容来回答问题的任务。在本文中,故障诊断被构建成一个VQA任务,即向模型(DiagLLM)展示一张包络谱图像并提出问题("这是什么故障?"),模型需要给出答案(如"外圈故障")。

8. FFT (Fast Fourier Transform) / 快速傅里叶变换

  • 外行定义​:一种将信号从"时间域"(信号如何随时间变化)转换到"频率域"(信号由哪些频率组成)的数学工具。它是生成包络谱等频谱分析的基础。

9. Cross-dataset Generalization / 跨数据集泛化

  • 外行定义​:指一个模型在A数据集上训练后,能够在另一个完全不同来源或条件的B数据集上依然表现良好的能力。这代表了模型的强大适应性和实用性,因为现实工业场景中的数据总是在变化。

10. Instruction Tuning / 指令微调

  • 外行定义​:一种训练方法,通过让模型学习遵循各种指令(例如,"请分析这张图像并诊断故障")的示例,来激发和塑造模型完成特定任务的能力。
相关推荐
芯盾时代2 小时前
《网络安全法》完成修改,AI安全正式“入法”
人工智能·安全·web安全
啥都鼓捣的小yao2 小时前
一、什么是语言模型?
人工智能·语言模型·自然语言处理
行板Andante2 小时前
AttributeError: ‘super‘ object has no attribute ‘sklearn_tags‘解决
人工智能·python·sklearn
kaikaile19952 小时前
基于MATLAB的传统插值法实现超分辨率重建
人工智能·matlab·超分辨率重建
集成显卡2 小时前
AI取名大师 | PM2 部署 Bun.js 应用及配置 Let‘s Encrypt 免费 HTTPS 证书
开发语言·javascript·人工智能
feifeigo1232 小时前
基于DTW和HMM的语音识别仿真
人工智能·语音识别
永霖光电_UVLED3 小时前
GlobalFoundries从台积电获得GaN技术许可
人工智能·神经网络·生成对抗网络
AKAMAI3 小时前
Forrester调研400位高级决策者,揭示AI应用未来
人工智能·云计算
KKKlucifer3 小时前
数据智能时代的安全困局与 AI 破局逻辑
人工智能·安全