语音模型流式结构修改要点

对于端侧语音信号处理模型来说,核心结构都是基于CNN+RNN(LSTM/GRU),训练时一般基于非流式模型,效率高易于收敛。训练完成后在移动端部署,受实时率和延迟的要求,一般需要修改流式结构。下面主要阐述,Conv和LSTM/GRU算子修改的原理。

流式推理的核心是把"一次性处理整个序列"改成"逐帧处理 + 缓存历史状态",数学上完全等价,但支持实时推理。

一、Conv

需要缓存历史的input。假设一下场景进行解释:

cpp 复制代码
### 假设场景
1D 卷积,kernel_size=3,输入序列 `[a, b, c, d, e]`

### 非流式卷积:一次处理整个序列


输入:     [a, b, c, d, e]
左侧pad:  [0, 0, a, b, c, d, e]   # 因果 padding,只 pad 左边

卷积计算 (kernel 滑动):
  输出[0] = kernel * [0, 0, a]
  输出[1] = kernel * [0, a, b]
  输出[2] = kernel * [a, b, c]
  输出[3] = kernel * [b, c, d]
  输出[4] = kernel * [c, d, e]

输出:     [y0, y1, y2, y3, y4]   # 一次得到全部


### 流式卷积:逐帧处理,用 cache 存历史


初始 cache = [0, 0]   # 存最近 kernel_size-1 = 2 帧

--- 第 1 帧: 输入 [a] ---
拼接: cache + 输入 = [0, 0, a]
卷积: kernel * [0, 0, a] = y0
更新 cache = [0, a]

--- 第 2 帧: 输入 [b] ---
拼接: cache + 输入 = [0, a, b]
卷积: kernel * [0, a, b] = y1
更新 cache = [a, b]

--- 第 3 帧: 输入 [c] ---
拼接: cache + 输入 = [a, b, c]
卷积: kernel * [a, b, c] = y2
更新 cache = [b, c]

--- 第 4 帧: 输入 [d] ---
拼接: cache + 输入 = [b, c, d]
卷积: kernel * [b, c, d] = y3
更新 cache = [c, d]

--- 第 5 帧: 输入 [e] ---
拼接: cache + 输入 = [c, d, e]
卷积: kernel * [c, d, e] = y4
更新 cache = [d, e]



## 
非流式
   def forward(self, x):
        ...



流式: (cache的是历史帧输入)
   def forward(self, x, cache):
        torch.cat([cache, x], dim=..)
        ...

带卷积的模型转为流式时,非流式模型的卷积设计必须是因果卷积,换而言之就是在左侧做padding,而不能在右侧padding。

至于,什么样的卷积需要改,什么不需要改,大概提一下,也就是kernel_size与时间维度无关,纯在频域维度做的卷积就不需要改,其他的...自己领悟咯。。。

二、LSTM/GRU

这类算子没什么好说的,RNN 的递归特性,当前输出依赖上一时刻的隐藏状态,天生具备流式结构,只需要缓存rnn的status就行了...

cpp 复制代码
非流式:
    def forward(self, x):
        ...
        at = self.att_gru(zt.transpose(1,2))[0]
        ...

流式:
    def forward(self, x, h_cache):
         ...
         at, h_cache = self.att_gru(zt.transpose(1,2), h_cache)
         ... 
相关推荐
STLearner8 分钟前
WSDM 2026 | 时空数据(Spatial Temporal)论文总结
人工智能·python·深度学习·机器学习·数据挖掘·智慧城市·推荐算法
空中湖11 分钟前
大模型修炼秘籍 第十二章:人师指路——RLHF之精髓
人工智能·深度学习·transformer
QQ676580083 小时前
智慧工厂之扬尘识别 铲车装载识别 工程重型机械识别 磁铁识别 深度学习YOLO格式图像识别第10435期
人工智能·深度学习·yolo·扬尘识别·铲车装载·工程重型机械·磁铁识别
思绪无限3 小时前
YOLOv5至YOLOv12升级:行人跌倒检测系统的设计与实现(完整代码+界面+数据集项目)
深度学习·yolo·目标检测·yolov12·yolo全家桶·行人跌倒检测系统
AI医影跨模态组学4 小时前
PLOS Medicine 中山大学肿瘤防治中心蔡木炎等团队:基于多视角深度学习的组织病理学分析用于II期结直肠癌的预后与治疗分层
人工智能·深度学习·论文·医学·医学影像
Aray12344 小时前
大模型推理全栈技术解析:从Transformer到RoPE/YaRN的上下文优化
人工智能·深度学习·transformer
思绪无限4 小时前
YOLOv5至YOLOv12升级:行人车辆检测与计数识别系统的设计与实现(完整代码+界面+数据集项目)
人工智能·深度学习·yolo·目标检测·yolov12·yolo全家桶·行人车辆检测与计数
hsg774 小时前
简述:torchgeo
人工智能·深度学习
程序媛徐师姐5 小时前
Python基于深度学习的手写输入识别系统【附源码、文档说明】
python·深度学习·python深度学习·手写输入识别系统·python手写输入识别系统·python手写输入识别·深度学习手写输入识别
思绪无限5 小时前
YOLOv5至YOLOv12升级:个人防具检测系统的设计与实现(完整代码+界面+数据集项目)
深度学习·yolo·目标检测·yolov12·yolo全家桶·个人防具检测