否
是
聊天页发送语音
FileTransferSendPipeline.sendFile(...)
Voice Model 是否开启
raw 原始字节流直传
AudioProcessor.buildVoiceTransferData(audioPath)
readWaveFile(): 读取 PCM WAV
resampleLinear(): 重采样到 24kHz
extractMelSpectrogram(): 提取 100-bin log-Mel
按 100 帧一块切 patch
组装输入张量 [patchCount,1,100,100]
voice encoder 前向推理
得到 encoded floatData + shape
写 TCP 头: fileName!fileSize!senderId!VOICE!model
写 body: shapeLength + shape + totalOriginalLength + frameInfos + floatData
发送完成后发 UDP 文本通知 IPMSG_SENDMSG
接收端 FileTransferReceivePipeline
读 TCP 头并判断 mode=model
读 body: shape + totalOriginalLength + frameInfos + floatData
voice decoder 前向推理
得到解码后的频谱 patch
AudioProcessor.reconstructSpectrogram(...)
重建完整频谱 [time, mel]
保存 .wav.specbin 调试文件
toVocosInput(): 转成 [1, melBins, time]
audio decoder/vocos 前向推理
得到 24kHz 浮点波形
writeFloatWav(..., 24000)
落盘成 .wav
更新聊天消息路径/状态
刷新聊天页与最近会话
发送语音流程图
oyezitan2026-03-31 14:33
相关推荐
eastyuxiao4 天前
思维导图拆解项目范围 3 个真实落地案例T畅N5 天前
审批流设计器(前端)eastyuxiao5 天前
如何用思维导图拆解项目范围eastyuxiao6 天前
流程图 + 配置清单 落地应用于团队 / 公司日常文档处理场景eastyuxiao6 天前
OpenClaw 自动处理流程图 + 配置清单 可应用场景RuoyiOffice6 天前
2026 年开源 BPM/工作流引擎大盘点:Flowable vs Camunda vs Activiti vs Turbo——谁才是企业级首选?eastyuxiao6 天前
流程图 + 配置清单 在团队 / 公司项目管理场景的落地应用eastyuxiao6 天前
流程图 + 配置清单 在团队 / 公司运维场景的落地应用方法eastyuxiao6 天前
流程图 + 配置清单 在团队 / 公司知识管理场景的应用落地longxibo7 天前
【Flowable 7.2 源码深度解析与实战】