摘要: 在工业边缘视觉、本地智能检测场景中,高性价比端侧AI芯片部署成为主流落地方案。本文以土星云AI边缘算力服务器SE110S-WA32 为硬件载体,选用检测精度更高、对人脸小目标、侧脸、模糊人脸适配性更强的RetinaFace人脸检测模型 ,从零完成模型适配、芯片推理优化、本地推理部署,最终基于Gradio搭建轻量化Web可视化演示页面,实现图片人脸检测功能。全程无云端依赖、低延迟、可本地离线运行,适合国产边缘芯片AI视觉落地、嵌入式开发、项目演示、工程商用迭代。
一、项目背景与方案选型
当下云端人脸检测方案普遍存在网络依赖高、传输延迟大、隐私数据泄露风险、部署成本高的问题,无法适配工业现场、无网络场景、本地智能设备的落地需求。而国产边缘AI芯片凭借高性价比、低功耗、高适配性,成为端侧AI视觉部署的核心选择。
本次项目摒弃了常规的YOLO系列人脸检测方案,针对性做了硬件与模型的最优适配,核心选型逻辑如下:
- 硬件选型: 土星云SE110S-WA32:国产主流高性能端侧推理芯片,支持INT8/FP16/FP32模型量化,算力充足、功耗低,适配各类轻量化视觉检测任务,广泛应用于智能安防、边缘抓拍、本地智能终端设备。
- 模型选型:RetinaFace:相较于轻量化YOLO人脸模型,RetinaFace在小目标人脸、远距离人脸、侧脸、弱光模糊人脸场景下检测精度更高,抗干扰能力更强,更适配工业级精准人脸检测场景。
- 演示方案:Gradio可视化页面:无需前端开发基础,快速搭建轻量化Web交互页面,支持图片上传、实时结果展示,操作简单、界面直观,适配项目演示、功能调试、成果展示场景。
本方案最终实现土星云SE110S-WA32 设备的本地推理RetinaFace人脸检测+Gradio网页可视化交互,全程离线运行、低延迟、精度可控,是国产边缘芯片AI视觉落地的优质实战方案。
二、实操
2.1 宿主机环境要求
确保宿主机SE110S-WA32满足以下条件,避免部署过程中出现兼容性问题:
- SDK版本:v25.03.01;
- 网络环境:可访问互联网,用于下载镜像。
2.2 环境搭建
本次实操采用Docker作为轻量级容器化技术,可实现"一次构建、处处运行",具体的docker镜像构建方式可查看文章:https://blog.csdn.net/SaturnCloud/article/details/161287345?spm=1001.2014.3001.5502
或者直接拉取已经构建好的docker镜像:
|----------------------------------------------------------------------|
| sudo docker pull uhub.service.ucloud.cn/saturncloud/se110s_wa32:v1.0 |
2.3 代码和模型文件获取
|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| sudo -s mkdir /data/AI git clone https://gitee.com/saturn-cloud/se110s-wa32-samples.git cd /data/AI/se110s-wa32-samples/RetinaFace/models |
2.4 容器启动
|------------------------------------------------------------------------------------------|
| cd /data/AI/se110s-wa32-samples/RetinaFace sh start_docker.sh ##执行后,后台会启动人脸检测模型和gradio页面 |
2.5 实例运行演示
在浏览器中输入:http://{ip}:5000,即可打开web页面进行测试演示,如下图所示:

三、总结
本文针对土星云SE110S-WA32 边缘计算设备,完成了RetinaFace高精度人脸检测模型的端侧全流程部署,同时基于Gradio 实现了轻量化Web可视化演示。区别于传统YOLO方案,本方案依托RetinaFace 的高精度优势,完美适配复杂场景人脸检测,同时针对性完成模型量化、芯片适配、代码优化,充分发挥1684X芯片的端侧推理性能。
整套方案完全本地化离线运行,摆脱云端依赖,兼具高精度、低延迟、低功耗、易演示的优势,代码开源可复现、部署成本低,非常适合国产边缘芯片AI视觉开发、项目落地、成果演示,为后续各类端侧视觉任务开发提供了完整的工程化参考模板。