MCU怎么运行深度学习模型

c 复制代码

git clone https://gitee.com/banana-peel-x/freedom-learn.git

项目场景：

解决面试时遗留的问题，面试官提了两个问题：1.单片机能跑深度学习的模型吗？ 2.为什么FreeRTOS要采用SVC去触发第一个任务，只用PendSV中断切换不行吗？（问题二后续研究）问题一：当时回答的是理论上单片机挂载NPU，把数据发送给NPU的协议定好，理论上也是可以的。本项目就从轮子出发，不借助任何库，尝试小RAM MCU部署神经网络的方法。分别在MCU和PC端进行了尝试。技术栈：多层网络感知机（MLP），正反向传播，梯度下降法。模型量化部署。结论：MCU受限于主频速率，小RAM，在推理时间，模型大小方面均存在限制，即使使用硬件加速的NPU，速率也没有优势。

软件架构

MCU端: 两个Task，StartDefaultTask控制LED，观察系统有没有挂掉。StartTask_50ms里运行reason_task，执行时机通过flag_uart1_received变量判断ReceiverState状态，flag_uart1_received变量在Uart中断切换状态。 PC端： reasoning.py运行两个线程，主线程负责PC端的推理，send_image_over_uart线程通过Uart发送图像，并监听下位机的推理结果。

bash 复制代码

NeuralNetworkFromScratch-main\train.py：使用MLP训练一组权重参数，保存到文件\result\model_parameters.npz，后在终端随机输入图片序号，进行预测，预测结果在数字上方，方便比较。
NeuralNetworkFromScratch-main\result\Tools.py：从model_parameters.npz文件中load权重参数，写入model_parameters.c文件
NeuralNetworkFromScratch-main\result\quantization.py：将model_parameters.npz提取权重参数，量化为int8类型，后写入quantized_model_parameters.c文件
NeuralNetworkFromScratch-main\result\reasoning.py：核心文件，加载量化后的参数，对权重参数反量化后推理，同时send_image_over_uart线程发送图像数据给MCU

运行reasoning.py后，选择图片序号，终端打印预测概率，关闭窗口后send_image_over_uart线程发送图像给MCU端，发送完成后会监听下位机返回数据，并在终端打印。

细节：

1.不量化行不行：STM32F103C8T6又64K的ROM和20K的RAM，不量化权重参数会占用：（784x10+10+10x10+10）x4=31840 Bytes=31KB。量化后权重参数占用空间：7.7KB。

2.为什么网络参数是输入层到隐藏层10个神经元，隐藏层到输出层10个神经元，原始网络分别是20，10。这样的话很容易超出RAM大小。