**InspireFace** 是一个跨平台的高性能人脸识别 SDK，底层模型基于 InsightFace 的先进算法（如 ArcFace 损失），并对移动端、嵌入式设备做了深度优化。官方提供了预训练模型，但在特定业务场景（如强光照变化、角度偏转、低质量图像）下，直接使用开源模型可能精度不足。通过**微调（Fine-tuning）**，你可以用自有的业务数据让模型适应目标人群和环境，显著提升识别准确率。

下面以**办公楼人脸门禁**为场景，演示如何使用 InspireFace 生态（实际训练使用 InsightFace 训练框架，模型可转换为 InspireFace 推理格式）完成微调训练，附完整可运行代码。

1. 整体流程

**环境搭建**：安装 PyTorch、InsightFace 训练工具、InspireFace（用于后续推理）
**数据准备**：采集员工照片，按 `id/图1.jpg` 组织，生成训练对
**配置微调参数**：基于预训练 backbone，设置 ArcFace 头、学习率等
**执行微调训练**：使用 InsightFace 的训练脚本（PyTorch）
**模型转换与部署**：将 checkpoint 转为 InspireFace 可加载的 `model` 文件，集成到门禁 SDK 中

2. 环境准备

```bash

首先安装 pytorch (根据CUDA版本选择)

pip install torch torchvision

克隆 InsightFace 官方训练仓库（包含大量预训练模型和配置）

git clone https://github.com/deepinsight/insightface.git

cd insightface/recognition/arcface_torch

pip install -r requirements.txt

安装 InspireFace Python SDK（用于后续验证和部署）

pip install inspireface

```

*硬件要求：至少一张 NVIDIA GPU（如 2080Ti），显存 >= 8G 可训练 MobileFaceNet，>= 16G 可训练 ResNet50。*

3. 业务数据准备

**场景**：办公楼内有 500 名员工，需要每个工位至少采集 5~10 张不同角度、不同光照的人脸照片，按如下结构存放：

```

/dataset/employee_faces/

├── 001_张三

│ ├── 001.jpg

│ ├── 002.jpg

│ └── ...

├── 002_李四

│ ├── 001.jpg

│ └── ...

└── ...

```

生成 InsightFace 训练所需的 **rec 文件**（MXNet 二进制格式，效率高）：

```python

import os, sys

sys.path.insert(0, '../recognition/arcface_torch') # 调整到 insightface 脚本目录

from utils.utils_data import ImageDataset, FaceRecDataset

import torchvision.transforms as transforms

import torch

1. 定义数据预处理（与 InsightFace 预训练一致）

transform = transforms.Compose([

transforms.Resize((112, 112)),

transforms.ToTensor(),

transforms.Normalize(mean=[0.5,0.5,0.5], std=[0.5,0.5,0.5])

])

root_dir = "/dataset/employee_faces"

dataset = ImageDataset(root_dir, transform=transform) # 假设工具类，实际需自己实现遍历

实际 InsightFace 推荐使用 mxnet 的 .rec 生成工具

这里展示命令调用方式：

!python tools/mx_record_io/im2rec.py \

--list --recursive --train-ratio 0.9 \

/dataset/employee_faces/train employees_faces_root/

!python tools/mx_record_io/im2rec.py \

--num-thread 8 --color 1 --encode-quality 95 \

/dataset/employee_faces/train employees_faces_root/

```

以上命令会生成 `train.rec` 和 `train.idx`（训练集）以及 `val.rec`（验证集，若指定比例）。若嫌 MXNet 工具繁琐，也可直接编写 PyTorch DataLoader 读取图片文件夹，但训练脚本原生支持 `.rec` 格式，效率更高且对齐预训练流程。

4. 微调训练核心配置与代码

以训练 MobileFaceNet 为例，微调权重文件通常从预训练模型初始化。InsightFace 提供了大量预训练 `.pt` 文件。

4.1 下载预训练模型

```bash

下载 MobileFaceNet 预训练权重（百度网盘或 onedrive，这里演示 wget 下载）

wget https://github.com/deepinsight/insightface/releases/download/v1.0/ms1mv3_mobilefacenet.tar.gz

tar -xzf ms1mv3_mobilefacenet.tar.gz # 得到 backbone.pth 或 glint360k 等

```

4.2 训练脚本（基于 InsightFace arcface_torch）

将以下内容保存为 `train_finetune.py`，放入 `insightface/recognition/arcface_torch/` 下。

```python

import torch

import torch.nn as nn

from torch.utils.data import DataLoader

from backbones import get_model # InsightFace 的标准 backbone

from loss_functions import ArcFace # ArcFace margin loss

from config import config as cfg # 默认配置可通过 args 覆盖

from datasets import FaceRecDataset # 支持 .rec 读取

import numpy as np

import logging

import os

import argparse

def parse_args():

parser = argparse.ArgumentParser()

parser.add_argument('--network', default='mobilefacenet', help='backbone type')

parser.add_argument('--pretrained', default='./ms1mv3_mobilefacenet/backbone.pth', help='pretrained weights')

parser.add_argument('--data_root', default='/dataset/employee_faces/train.rec')

parser.add_argument('--val_root', default='/dataset/employee_faces/val.rec')

parser.add_argument('--num_classes', type=int, default=500, help='员工人数')

parser.add_argument('--batch_size', type=int, default=128)

parser.add_argument('--lr', type=float, default=1e-3)

parser.add_argument('--epochs', type=int, default=20)

parser.add_argument('--save_dir', default='./finetune_output')

parser.add_argument('--device', default='cuda:0')

return parser.parse_args()

def main():

args = parse_args()

os.makedirs(args.save_dir, exist_ok=True)

device = torch.device(args.device if torch.cuda.is_available() else 'cpu')

1. 加载预训练 backbone

backbone = get_model(args.network, fp16=False).to(device)

if args.pretrained:

state = torch.load(args.pretrained, map_location=device)

backbone.load_state_dict(state, strict=True) # 通常能完全匹配

else:

print("Warning: training from scratch!")

2. 定义 ArcFace 分类头（margin 参数与 InsightFace 默认一致）

metric = ArcFace(in_features=512, out_features=args.num_classes, s=64.0, m=0.5).to(device)

3. 数据集和加载器（需实现 rec 读取，或直接使用 InsightFace 自带的 FaceRecDataset）

from datasets import MXFaceDataset

trainset = MXFaceDataset(root_dir=args.data_root, local_rank=0)

valset = MXFaceDataset(root_dir=args.val_root, local_rank=0)

trainloader = DataLoader(trainset, batch_size=args.batch_size, shuffle=True, num_workers=4, pin_memory=True)

valloader = DataLoader(valset, batch_size=args.batch_size, shuffle=False, num_workers=2)

4. 损失函数和优化器

criterion = nn.CrossEntropyLoss()

optimizer = torch.optim.SGD(

{'params': backbone.parameters(), 'lr': args.lr \* 0.1}, # backbone 学习率小 {'params': metric.parameters()}\], lr=args.lr, momentum=0.9, weight_decay=5e-4) scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=10, gamma=0.5) # 5. 训练循环 best_acc = 0.0 for epoch in range(1, args.epochs+1): backbone.train() metric.train() total_loss = 0 for img, labels in trainloader: img, labels = img.to(device), labels.to(device) features = backbone(img) logits = metric(features, labels) # ArcFace 内部计算 cos(theta+m) loss = criterion(logits, labels) optimizer.zero_grad() loss.backward() optimizer.step() total_loss += loss.item() scheduler.step() # 简单验证（计算 1:1 准确率） backbone.eval() metric.eval() correct = 0 total = 0 with torch.no_grad(): for img, labels in valloader: img, labels = img.to(device), labels.to(device) feats = backbone(img) logits = metric(feats, labels) _, preds = torch.max(logits, 1) correct += (preds == labels).sum().item() total += labels.size(0) acc = correct/total print(f"Epoch {epoch}, Loss: {total_loss/len(trainloader):.4f}, Val Acc: {acc:.4f}") if acc \> best_acc: best_acc = acc torch.save({ 'backbone': backbone.state_dict(), 'metric': metric.state_dict(), 'epoch': epoch }, os.path.join(args.save_dir, f'best_model.pth')) print("微调完成，最佳验证精度:", best_acc) if __name__ == '__main__': main() \`\`\` ### 4.3 启动训练 \`\`\`bash python train_finetune.py \\ --network mobilefacenet \\ --pretrained ./ms1mv3_mobilefacenet/backbone.pth \\ --data_root /dataset/employee_faces/train.rec \\ --val_root /dataset/employee_faces/val.rec \\ --num_classes 500 \\ --batch_size 128 \\ --lr 1e-3 \\ --epochs 20 \`\`\` \*\*关键点解释\*\*： - \*\*分层学习率\*\*：backbone 用 \`lr \* 0.1\`，避免破坏预训练特征；全新 ArcFace 头用完整 \`lr\`。 - \*\*ArcFace 参数\*\*：\`s=64\` (缩放因子)，\`m=0.5\` (角度边距)，与预训练一致。 - \*\*数据格式\*\*：InsightFace 的 \`MXFaceDataset\` 要求 \`.rec\` 和 \`.idx\` 文件，建议用官方 \`im2rec.py\` 生成；也可以自己写 ImageFolder 类并随机 pair 组成 triplet，但 ArcFace 直接使用分类损失，无需采样 pair。 --- ## 5. 模型转换为 InspireFace 格式并部署 InspireFace 的推理模型通常为 \`.model\`（加密或自定义格式），官方提供了转换工具。假设你已有 \`best_model.pth\`： ### 5.1 导出 ONNX 并打包 \`\`\`python import torch from backbones import get_model import inspireface as iface # 1. 将 backbone 部分导出为 ONNX backbone = get_model('mobilefacenet') backbone.load_state_dict(torch.load('finetune_output/best_model.pth', map_location='cpu')\['backbone'\]) backbone.eval() dummy = torch.randn(1,3,112,112) torch.onnx.export(backbone, dummy, "finetuned.onnx", input_names=\['input'\], output_names=\['feature'\], opset_version=11) \`\`\` ### 5.2 使用 InspireFace 工具转换为 \`.model\` InspireFace Python SDK 内置了模型转换功能（需 SDK \>= 1.0.5）： \`\`\`python from inspireface.convert import convert_onnx_to_model convert_onnx_to_model("finetuned.onnx", "finetuned_employee.model") \`\`\` 或者使用命令行工具 \`inspireface-convert\`（具体参考官方文档）。 ### 5.3 门禁系统推理示例 \`\`\`python import inspireface as iface import cv2 # 初始化 InspireFace，加载微调后的模型 session = iface.InspireFaceSession("finetuned_employee.model", detect_mode=iface.DETECT_MODE_IMAGE, track_mode=iface.TRACK_MODE_DETECT, max_detect_num=5) # 注册员工底库（特征提取） def register_employee(img_path, employee_id): img = cv2.imread(img_path) faces = session.face_detection(img) if len(faces) \> 0: feature = session.face_feature_extract(img, faces\[0\]) # 存入数据库（如 SQLite） db.save(employee_id, feature) # 实时门禁识别 cap = cv2.VideoCapture(0) while True: ret, frame = cap.read() faces = session.face_detection(frame) for face in faces: feature = session.face_feature_extract(frame, face) best_id, similarity = db.search_best(feature) if similarity \> 0.65: # 阈值基于微调数据集 TAR 调试 print(f"开门：{best_id} 相似度 {similarity:.3f}") cv2.imshow('Door', frame) if cv2.waitKey(1) \& 0xFF == ord('q'): break \`\`\` --- ## 6. 微调效果验证与调优建议 1. \*\*验证集 TAR@FAR\*\*：使用微调后的模型在自有的员工验证集上测试 \*\*FAR=1e-4时的TAR\*\*，确保达到业务要求（如 \> 99.5%）。 2. \*\*数据增强\*\*：训练时加入随机裁剪、水平翻转、颜色抖动，提高泛化性。 3. \*\*难例挖掘\*\*：针对门禁场景中戴口罩、侧脸、强背光等难样本，专门收集并加入训练集，重新微调。 4. \*\*类别均衡\*\*：每名员工至少 10 张，最多不超过 50 张，避免长尾影响。 5. \*\*渐进式解冻\*\*：前 5 个 epoch 仅训练 FC 层，之后再联合微调 backbone 的全部/部分层。 通过以上流程，你就能将一个通用人脸识别模型适配到办公楼门禁场景，\*\*大幅减少因为环境差异导致的误拒和误识，直接提升通行效率和安全性\*\*。

使用InspireFace进行智慧楼宇门禁人脸识别的训练微调