（论文速读）RFD-LLM：用大语言模型诊断列车故障

****论文题目：****Adaptive fault diagnosis of railway vehicle on-board controller with large language models（基于大语言模型的轨道车辆车载控制器自适应故障诊断）

****期刊：****Applied Soft Computing

****摘要：****准确识别铁路系统车载控制器(VOBC)的故障类型，对于保证列车的安全运行具有重要意义。近年来，大型语言模型(Large Language Models, llm)在语义理解和自然语言交互方面表现出色，为VOBC故障诊断提供了一种新的解决方案。然而，在一般领域进行预训练的大型语言模型缺乏与铁路VOBC故障诊断场景相关的专门知识，导致对铁路特定文本语料库的适应性不足。本文深入研究了大型语言模型对VOBC故障诊断的适应性，提出了铁路故障诊断大语言模型(RFD-LLM)。首先，采用基于低秩自适应(LoRA)的铁路域自适应来匹配VOBC故障模式;其次，应用指令调优实现领域知识对齐，增强模型遵循指令的能力。提出的RFD-LLM是首个基于大型语言模型的铁路VOBC故障诊断模型，能够高效、准确地识别出7种类型的VOBC故障模式。RFD-LLM为铁路领域的大型模型开发提供了一种新的解决方案。

用大语言模型诊断列车故障？这篇论文给出了完整答案

一、背景：列车"大脑"出了故障，怎么诊断？

城市轨道交通的安全运行离不开一个核心装置------车载控制器（Vehicle On-Board Controller，VOBC）。它负责列车超速防护、自动驾驶控制，直接决定列车的可靠性与安全性。

【配图：Fig. 2 --- 城市轨道列车、VOBC机柜及VOBC系统结构图】

VOBC结构复杂，包含多个功能模块：

ATP（自动列车防护）：负责速度测量、距离检测和定位；
ATO（自动列车运行）：负责列车自动驾驶；
BTM（应答器传输模块）：传输地面应答器位置信息；
DCS（数据通信系统）：实现车地双向无线通信；
MMI（人机界面）：向司机提供辅助驾驶信息；
传感器：速度传感器与雷达传感器，用于高精度定位。

列车长期在复杂动态环境下运行，VOBC故障时有发生。一旦故障未能及时诊断，轻则引发晚点，重则危及行车安全。因此，高效、准确地诊断VOBC故障是保障地铁安全运营的关键。

二、现有方法的困境

2.1 传统方法忽略了文本数据

过去，故障诊断主要依赖传感器采集的结构化数据，通过SVM、随机森林、深度学习等方法进行分析，也取得了不错的效果。

然而，这些方法却忽视了另一个极其重要的信息来源------非结构化的故障文本。铁路运营部门每年产生数百万条维修日志和诊断报告，其中蕴含着丰富的故障信息。

【配图：Fig. 1 --- 传统方法与LLM在VOBC故障诊断场景中的对比示意图】

这些文本有三个显著特征，使得自动化分析极为困难：

信息模糊：大量冗余信息，且故障描述存在歧义。例如，实际是速度传感器报警引发了VOBC故障，但文本中却直接写的是"ATP故障"，容易误导模型；
高维特征：专业术语数以万计，即便去除停用词、提取关键词，特征维度依然庞大；
领域专业性强：大量专业词汇（如"ATP"）在铁路语境下的含义与通用语料库中截然不同。

【配表：Table 1 --- VOBC维修记录示例（含7类故障的典型描述）】

2.2 传统NLP方法力不从心

为了处理这些文本，研究者们先后引入了TF-IDF、Word2Vec、BERT等NLP技术，也取得了一定进展。但这些方法存在明显瓶颈：

TF-IDF等统计方法忽略词序，无法捕捉细粒度语义依赖；
Word2Vec等词嵌入方法上下文建模能力有限；
所有这些方法的输出都是离散的概率值，缺乏可解释的诊断解释，对现场维修人员实用价值有限。

2.3 通用LLM直接用也不行

以LLaMA、Qwen、DeepSeek为代表的大语言模型（LLM）具备强大的语义理解和自然语言交互能力，理论上非常适合处理VOBC故障文本。然而，直接将通用LLM用于铁路领域存在根本性问题：

通用LLM在互联网文本上预训练，缺乏铁路专业知识；
VOBC故障文本格式不规则、含大量缩写和符号，与通用语料分布差异显著；
缺乏领域适配的LLM在识别专业故障模式时性能退化，且无法生成可信的诊断输出。

这就是本文要解决的核心问题：如何让LLM真正"懂"铁路故障，而不只是"懂"语言？

三、本文提出的方法：RFD-LLM

3.1 整体思路

本文提出 RFD-LLM（Railway Fault Diagnosis Large Language Model） ，这是铁路领域第一个基于大语言模型的VOBC故障诊断模型。

其核心是一套两阶段适配策略，专门用于弥合通用LLM与铁路专业知识之间的鸿沟：

第一阶段：基于LoRA的铁路领域适配（让模型"读懂"铁路故障文本）；
第二阶段：指令微调（让模型"按要求"输出诊断结果）。

【配图：Fig. 3 --- RFD-LLM网络架构图（含两阶段结构、RTD模块、LoRA适配器）】

3.2 第一阶段：LoRA铁路领域适配

为什么用LoRA？

全量微调（Full Fine-tuning）一个大模型代价极高，且容易导致"灾难性遗忘"------模型在学习新知识的同时丢失原有的语言能力。LoRA（Low-Rank Adaptation）提供了一种轻量高效的替代方案。

LoRA的核心思想 是：对预训练权重矩阵 W0 不做修改，而是在旁路注入一个低秩分解（其中），前向计算变为：

在RFD-LLM中，LoRA适配器被插入每个Transformer块的Q、K、V投影层 以及前馈网络的第一个线性层，其余参数全部冻结。

Railway Text Decoder（RTD）

本文设计了专用的铁路文本解码器（RTD），以预训练LLM（Yi-coder-1.5B）为骨干，包含嵌入投影层和多头注意力块。其输出计算公式为：

有监督学习对齐

在领域适配阶段，还引入了有监督学习。对于给定的VOBC故障数据集（包含 m 个文本-标签对），模型使用基于余弦相似度的对比损失函数：

其中温度参数 T=0.95，用于平滑输出分布，避免过度自信的预测。

3.3 第二阶段：指令微调

完成领域适配后，模型已能"读懂"铁路故障文本，但还需要学会"按指令回答"。指令微调将VOBC故障特征 Hf 与指令嵌入 Eins 融合，送入RTD进行下一个token的预测：

为防止输出退化（如重复或无意义序列），引入TOP-P采样（p=0.7），仅从累积概率超过阈值的候选词中采样，保证诊断回复的多样性和自然性。

训练目标为自回归损失函数：

这一设计将故障诊断任务重构为完形填空问题，与LLM的预训练目标天然对齐，使模型能够同时关注故障数据中的上下文关系和因果关系。

四、实验：用北京地铁真实数据验证

4.1 实验设置

数据集 ：北京地铁2020---2022年VOBC维修数据，共1366条记录；
故障类别：7类（ATP、ATO、BTM、DCS、MMI、速度传感器、雷达传感器）；
划分：80%训练集，20%测试集；
骨干模型：Yi-coder-1.5B；
评估指标：平均准确率（Accuracy）、精确率（Precision）、F1分数。

4.2 与传统方法的对比

【配表：Table 2 --- RFD-LLM与传统方法（XGBoost、RF、BiLSTM、TextCNN、Transformers）的对比结果】

【配图：Fig. 4 --- 不同方法推理时间与准确率/精确率/F1分数的权衡散点图】

从结果中可以看出几个清晰的规律：

RFD-LLM性能最优：准确率94.60%、精确率94.73%、F1分数94.28%，全面领先；
鲁棒性最强：RFD-LLM的准确率标准差仅0.45、精确率标准差0.79、F1标准差0.64，远低于其他方法，说明其在噪声干扰下依然稳定；
Transformer类方法整体优于传统ML：得益于自注意力机制对全局语义的捕捉能力；
推理时间 ：RFD-LLM的推理时间为86.676ms，虽然是所有方法中最慢的（XGBoost仅0.152ms），但相比人工诊断动辄数分钟乃至数小时，仍具有极高的实用价值。论文明确指出，在铁路系统中，低于100ms的推理延迟完全在可接受范围内。

对于推理速度问题，论文也给出了未来优化路径：FP16/INT8量化、知识蒸馏、模型剪枝等技术均可进一步压缩推理延迟。

4.3 与其他LLM的对比

【配图：Fig. 5 --- RFD-LLM与BERT、Qwen-2.5、LLaMA-3.2、DeepSeek-R1的对比柱状图】

本文将RFD-LLM与4个主流LLM进行对比，选取依据涵盖架构多样性和公开可复现性：

模型	架构类型	准确率
BERT	编码器-only	93.10%
Qwen-2.5	解码器-only	94.05%
LLaMA-3.2	解码器-only	94.21%
DeepSeek-R1	解码器-only	94.49%
RFD-LLM	解码器-only + 两阶段适配	94.60%

关键发现：

所有LLM基方法的准确率均超过93%，验证了LLM在复杂铁路故障诊断任务中的有效性；
BERT表现相对最弱，可能与其编码器-only架构的低秩问题有关，限制了表示能力；
RFD-LLM在准确率、精确率、F1分数三项指标上均达到最优，证明两阶段适配策略的价值。

4.4 LoRA秩的敏感性分析

LoRA的秩（rank）决定了可训练参数量，直接影响适配效果。本文系统地测试了rank从4到32的情况。

【配表：Table 3 --- 不同LoRA rank下的参数量、参数削减率及性能指标】

【配图：Fig. 6 --- LoRA秩敏感性分析结果（参数量与性能热力图）】

结论非常清晰：

rank=8时性能最佳 （准确率94.60%，F1 94.28%），可训练参数仅7.49M，相比全量微调削减99.49%；
rank=4时削减率高达99.74%（仅3.74M参数），性能略有下降但差距极小；
rank越大，性能反而下降：rank=16时准确率降至93.84%，rank=32时进一步降至93.48%。原因在于：铁路VOBC故障数据集规模相对较小（1366条），无法为更多参数提供足够的训练样本，导致过拟合。

这一发现表明，在数据有限的工业场景中，并非参数越多越好，合理的LoRA配置能在资源节约与性能之间取得最佳平衡。

4.5 消融实验

【配图：Fig. 7 --- 消融实验结果（三维柱状图，含Bleu-4、Rouge-1、Rouge-2、Rouge-L、准确率、精确率、F1）】

消融实验从两个维度验证了两阶段策略的必要性：

去除领域适配（仅保留指令微调）： 所有指标均明显下降。原因是铁路领域特有的术语和知识在通用预训练语料中严重不足，仅靠指令微调无法弥补这一知识鸿沟。

去除指令微调（仅保留领域适配）： 同样导致性能下滑，尤其体现在文本生成质量指标（BLEU-4、Rouge系列）上，说明指令微调对于生成结构化、符合诊断规范的自然语言回复不可或缺。

两阶段完整版（RFD-LLM）： 在全部8项评估指标上均达到最优，验证了两个模块的协同增益效果。

五、更大的意义与未来展望

5.1 工程价值

本文的成功不只是一个故障分类器的提升，其意义更为深远：

为铁路领域LLM开发提供了可复用框架：两阶段适配策略可推广至联锁系统、轨道电路、计轴器等其他铁路子系统；
LoRA为资源受限场景提供了可行路径：无需更新全部参数即可完成领域迁移；
有望推动故障报告标准化：领域专用LLM可促进运营商之间知识共享和维修实践协同。

5.2 未来展望

论文指出了几个值得期待的发展方向：

从诊断到预测：引入时序故障数据，将RFD-LLM从被动诊断工具转化为主动预测性维护系统，在故障发生前识别早期征兆；
多轮对话指令微调：当前仅支持固定的提示-回答格式，未来可引入多轮对话机制，提升交互灵活性；
知识图谱与因果推理：融合铁路领域知识图谱和因果推理机制，增强模型区分根本原因与表面症状的能力；
跨领域迁移：方法同样适用于航空维修、船舶诊断等其他高安全等级工业场景。

5.3 局限性

作者也坦诚指出了当前工作的不足：数据集规模较小（1366条）、指令模板形式固定、评估仅在离线场景进行，模型在实时嘈杂数据下的鲁棒性有待进一步验证。

六、总结

维度	内容
问题	通用LLM缺乏铁路领域知识，直接用于VOBC故障文本诊断效果差
方法	两阶段适配：LoRA领域适配 + 指令微调
亮点	铁路领域首个LLM故障诊断模型；LoRA rank=8仅需99.49%参数削减
性能	准确率94.60%，F1 94.28%，推理时间86.676ms，鲁棒性最优
数据	北京地铁真实VOBC维修数据，1366条，7类故障

RFD-LLM的提出，标志着大语言模型在安全关键工业系统中的应用迈出了重要一步。它不仅解决了铁路VOBC故障诊断的实际工程问题，更为领域专用LLM的高效开发提供了一套清晰、可复现、可迁移的技术范式。