体系结构论文（六十七）：A Machine-Learning-Guided Framework for Fault-Tolerant DNNs

管二狗赶快去工作！2025-04-15 15:14

A Machine-Learning-Guided Framework for Fault-Tolerant DNNs DATE 2024

研究动机

深度神经网络（DNN）虽然对某些扰动具有天然的容错性，但在面对硬件故障 （如软错误、老化、环境干扰等）时，仍会出现输出错误。而常见的容错手段如**三模冗余（TMR）或错误更正码（ECC）**成本过高，特别是在面对大型神经网络时。因此，该研究旨在：

识别 DNN 中对故障更敏感的关键参数；
在保障准确性的同时，以更低成本进行选择性加固。

提出的方法框架

Step I：统计性 Fault Injection（FI）

对 DNN 各层的权重进行随机比特翻转注入；
用少量注入实现高置信度的关键性评估；
作为后续机器学习训练的样本来源。

Step II：关键性预测（ML-based Criticality Prediction）

使用**随机森林（RF）与均衡随机森林（BRF）**等分类模型；
输入特征包括比特位位置、符号、所在层等；
预测未注入部分的参数或比特是否"关键"；
用户可根据所能容忍的准确率下降（如0.5%~10%）定义"关键"的标准。

Step III：选择性加固（Selective Hardening）

仅对预测为"关键"的参数使用 Hamming ECC；
非关键部分不做保护，以此减少内存与硬件开销；
引入一个"关键性签名表"记录每个参数是否需要保护，并对其自身进行加固防止篡改。

所提方法的整体框架

论文提出的机器学习引导容错框架分为三个步骤：

Step I：统计性故障注入（Statistical Fault Injection, FI）

目的：通过模拟比特翻转来评估神经网络权重的脆弱性；
策略：不是进行全面注入，而是只对部分参数位注入，通过统计手段（控制置信区间与误差范围）来评估；
实验设置：
- 故障类型：单粒子翻转（SEU，非破坏性软错误）；
- 目标：LeNet-5 与 ResNet-18 的权重参数；
- 注入次数：LeNet-5 共注入约 29 万次 ，ResNet-18 共注入 210 万次；
- 容忍误差：99%置信度，误差 <1%。

【Table I 】Fault Injection Results

该表展示了注入后的参数按"容忍精度下降"所划分的"可接受"（Acceptable）和"关键"（Critical）比例：

模型/编码	FP32 精度下降0.5%	FxP32 精度下降0.5%	FxP16 精度下降0.5%	FxP8 精度下降0.5%
LeNet-5	1.77% 的位是关键	0.79%	0.29%	0.30%
ResNet-18	8.44% 的位是关键	4.62%	4.44%	4.22%

📌 结论：

固定点格式（FxP）的容错能力 远优于浮点格式（FP32）；
容错能力提升的原因是：FxP 的数值范围更窄，因此位翻转不容易产生"异常值"；
容忍精度下降越多，关键位所占比例越少。

Step II：机器学习预测参数关键性（ML-based Prediction）

训练数据：来自 Step I 中的 FI 结果；
目标：预测所有参数（包括未注入的）中哪些是"关键的"；
输入特征：
- 被注入的位在权重中的位置；
- 位的符号（正负）；
- 所属网络层；
- 受影响的输出特征图与滤波器通道；
使用模型：
- 随机森林（Random Forest, RF）
- 平衡随机森林（Balanced RF, BRF），应对类别不平衡问题；
评估方式：10折交叉验证，训练集/测试集比例为70%/30%；
输出指标：
- ROC AUC：越接近1表示分类越准确；
- 四类预测情况：TP、FP、FN、TN。

【Table II 】ML-based Fault Prediction Model

以 LeNet-5 / FP32 / 容忍精度下降0.5% 为例：

| 真正关键 | 预测正确 (TP) = 1.73% | 被误判为可接受 (FN) = 0.03% | | 真正可接受 | 预测正确 (TN) = 98.16% | 被误判为关键 (FP) = 0.06% |

结论：

ROC AUC 均 > 0.99，说明整体预测非常准确；
RF 对类别不平衡敏感，会高估"可接受"；
BRF 减少了误判为"可接受"的关键位，但也会误把一些"可接受"当作"关键"保护，增加了额外成本（但不影响功能，仅增加硬件资源消耗）；
用户可在鲁棒性与代价之间权衡选择。

Step III：选择性加固（Selective Hardening）

原则：只对预测为关键的参数加 ECC；
ECC 类型：Hamming ECC（单比特纠错）；
存储设计：
- 引入"关键性签名表"：每个参数是否需要加固，用一个比特记录；
- 该签名表也用 ECC 加固，以防自身出错。

【Table III 】Memory Overhead Comparison

编码	全保护（AP）	仅保护关键参数（CP）	签名区（Sign.）	节省开销（Gain）
LeNet-5 FP32	18.75%	9.926%	3.125%	节省约 30.4%
LeNet-5 FxP32	18.75%	0.740%	3.125%	节省约 79.4%
ResNet-18 FxP8	50.00%	2.476%	12.5%	节省约 70.0%

结论：

选择性加固策略在 固定点格式中尤为有效，节省内存开销显著；
即使考虑"签名表"的存储成本，整体依旧有极大压缩优势。

上一篇：添加登录和注册功能

下一篇：解决import pyqtgraph.opengl报错

热门推荐

01UV安装并设置国内源 02KGG转MP3工具|非KGM文件|解密音频 03Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 04【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）052025最新国内服务器可用docker源仓库地址大全（2025年8月更新）06蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 07TRAE Rules 实践：为项目配置 6A 工作流 08全球最强模型Grok4，国内已可免费使用！（附教程）09TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 10GPT-5 使用限制与国内升级全攻略（免费 / Plus / Pro）【2025 最新】