😊文章背景
题目:DiagLLM: multimodal reasoning with large language model for explainable bearing fault diagnosis
期刊:SCIENCE CHINA Information Sciences
检索情况:IF 7.6 CSDN核心库 EI检索 计算机科学TOP SCI升级版计算机科学1区 SCI基础版 工程技术2区
作者:Jie WANG1,2,3, Tianrui LI1,2*, Yan YANG1,2, Shiqian CHEN3 & Wanming ZHAI3
单位:西南交通大学,计算机与人工智能学院
发表年份:2025年
DOI:10.1007/s11432-024-4333-7
网址:https://link.springer.com/article/10.1007/s11432-024-4333-7
摘要:准确可靠的轴承故障诊断对于确保机械设备的安全运行至关重要。以往的数据驱动方法在训练先进的深度学习模型时面临挑战,这主要是由于故障数据的稀缺以及数据分布的不一致性。此外,这些方法通常受到有限的可解释性和可靠性的影响,因为它们缺乏基于轴承失效潜在物理机制的约束引导学习,这阻碍了它们在机器状态监测中的应用。大型语言模型(LLM)的最新进展表明,它们有潜力应对这些挑战。为此,我们的目标是利用多模态LLM的能力来提高轴承故障诊断的泛化性和可解释性。具体而言,我们设计了一种名为DiagLLM的新型框架来实现这一目标。DiagLLM利用大型语言模型的强大推理能力,并结合来自包络谱图像和专家知识的上下文信息,以准确诊断轴承故障。为了有效地调整DiagLLM,我们构建了诊断视觉指令跟随数据,以将故障特征描述与信号特征联系起来,并使用参数高效的训练管道对整个模型进行微调。在两个公开的轴承故障诊断数据集上进行了广泛的实验,结果表明DiagLLM优于领先的基线方法,尤其是在数据有限和跨数据泛化的场景中。
关键词:大型语言模型、故障诊断、跨数据集泛化、多模态学习、多模态融合
❓ 研究问题
当前基于深度学习的诊断方法在实用化进程中面临根本性挑战:
- 数据稀缺性:高可靠性设备故障样本稀少,难以支撑复杂模型的充分训练。
- 分布不一致性:工况、负载变化导致训练与测试数据分布差异,模型泛化能力不足。
- 可解释性缺失:深度模型作为"黑箱",决策逻辑不透明,难以与物理机理关联,阻碍其在关键领域的可信部署。
📌 研究目标
采用Qwen2-VL-7B作为基础模型,通过利用多模态LLM的能力来增强轴承故障诊断的泛化性和可解释性。
🧠 所用方法
整体框架

一、开创性的多模态数据融合架构


二、参数高效微调策略

三、诊断视觉指令数据构建

🧪 实验设计与结果
一、实验设计

二、实验结果


✅ 研究结论和意义
- 方法论贡献:本研究首次将多模态大语言模型框架成功应用于轴承故障诊断,开创了"知识-数据"双驱动诊断新范式。
- 性能贡献:在小样本学习与跨域泛化两个关键挑战上,实证性能超越主流数据驱动方法。
- 可信性贡献:通过融合物理知识,为模型决策提供了可解释的物理基础,提升了诊断结果的可信度。
🔮 未来研究方向
- 技术扩展:将DiagLLM框架推广至齿轮、电机等更广泛的工业设备故障诊断场景。
- 部署研究:探索模型轻量化与优化,面向边缘计算设备实现实时在线诊断。
- 知识深化:结合检索增强生成(RAG)技术与领域知识图谱,进一步丰富专家知识库,减少模型幻觉,增强复杂故障的推理能力。
📕专业名词
1. LLM (Large Language Model) / 大语言模型
- 外行定义:一种非常强大的人工智能,通过在海量文本数据上训练而成,能够理解和生成类似人类的语言。在这篇论文中,它被用作一个强大的"大脑",来综合处理图像信息和文本知识,并进行推理。
2. MLLM (Multimodal Large Language Model) / 多模态大语言模型
- 外行定义:是LLM的进阶版,能够同时理解和处理多种类型的信息(称为"模态"),例如文本、图像、音频等。本文提出的DiagLLM就是一个MLLM,它同时处理轴承的振动图像和专家的文字知识。
3. BPFI (Ball Pass Frequency of Inner race) / 内圈故障频率
- 外行定义:当轴承的内圈出现损伤(如裂纹、剥落)时,滚动体经过损伤点会产生具有特定规律的冲击信号,这个信号在频谱图上对应的核心频率就是BPFI。它是诊断内圈故障的关键指标。
4. BPFO (Ball Pass Frequency of Outer race) / 外圈故障频率
- 外行定义:与BPFI类似,但当轴承的外圈出现损伤时,产生的冲击信号所对应的核心频率就是BPFO。它是诊断外圈故障的关键指标。
5. Envelope Spectrum / 包络谱
- 外行定义:一种用于分析振动信号的特殊技术。它可以被理解为一种"精炼"过程,能从复杂的原始振动信号中提取出由轴承故障引起的、微弱的、有规律的冲击成分,并清晰地展示在一张频谱图上,从而使故障特征更容易被识别。
6. LoRA (Low-Rank Adaptation) / 低秩自适应
- 外行定义:一种高效训练大型AI模型的技术。它不像传统方法那样调整整个模型的数百万个参数,而是只训练一小部分新添加的、精简的参数(可以理解为给模型加一个"微型适配器"),从而使大模型能快速学会新任务,同时节省大量计算资源。
7. VQA (Visual Question Answering) / 视觉问答
- 外行定义:一项让AI模型根据给定的图像内容来回答问题的任务。在本文中,故障诊断被构建成一个VQA任务,即向模型(DiagLLM)展示一张包络谱图像并提出问题("这是什么故障?"),模型需要给出答案(如"外圈故障")。
8. FFT (Fast Fourier Transform) / 快速傅里叶变换
- 外行定义:一种将信号从"时间域"(信号如何随时间变化)转换到"频率域"(信号由哪些频率组成)的数学工具。它是生成包络谱等频谱分析的基础。
9. Cross-dataset Generalization / 跨数据集泛化
- 外行定义:指一个模型在A数据集上训练后,能够在另一个完全不同来源或条件的B数据集上依然表现良好的能力。这代表了模型的强大适应性和实用性,因为现实工业场景中的数据总是在变化。
10. Instruction Tuning / 指令微调
- 外行定义:一种训练方法,通过让模型学习遵循各种指令(例如,"请分析这张图像并诊断故障")的示例,来激发和塑造模型完成特定任务的能力。