否
是
聊天页发送语音
FileTransferSendPipeline.sendFile(...)
Voice Model 是否开启
raw 原始字节流直传
AudioProcessor.buildVoiceTransferData(audioPath)
readWaveFile(): 读取 PCM WAV
resampleLinear(): 重采样到 24kHz
extractMelSpectrogram(): 提取 100-bin log-Mel
按 100 帧一块切 patch
组装输入张量 patchCount,1,100,100
voice encoder 前向推理
得到 encoded floatData + shape
写 TCP 头: fileName!fileSize!senderId!VOICE!model
写 body: shapeLength + shape + totalOriginalLength + frameInfos + floatData
发送完成后发 UDP 文本通知 IPMSG_SENDMSG
接收端 FileTransferReceivePipeline
读 TCP 头并判断 mode=model
读 body: shape + totalOriginalLength + frameInfos + floatData
voice decoder 前向推理
得到解码后的频谱 patch
AudioProcessor.reconstructSpectrogram(...)
重建完整频谱 time, mel
保存 .wav.specbin 调试文件
toVocosInput(): 转成 1, melBins, time
audio decoder/vocos 前向推理
得到 24kHz 浮点波形
writeFloatWav(..., 24000)
落盘成 .wav
更新聊天消息路径/状态
刷新聊天页与最近会话
发送语音流程图
oyezitan2026-03-31 14:33
相关推荐
mxwin10 天前
次世代角色 PBR 贴图制作 + Unity URP 接入 极简流程图lipengxs15 天前
PlantUML、Mermaid、SQL ER、OpenAPI 在线预览工具整理程思扬17 天前
Android 大厂编码规范相忘于江湖42654319 天前
【deepseek + draw.io 】生成流程图blue_dou19 天前
架构与能力边界解析:七款CRM产品四大核心维度对比测评zincsweet23 天前
Linux 命名管道(FIFO)详解:原理分析、源码封装与通信流程图解优思学苑25 天前
价值流程图:看到流程,而不只是步骤【精益管理CLMP】bug总结1 个月前
前端流程图vueflow米饭不加菜1 个月前
Mermaid 流程图语法参考四米饭不加菜1 个月前
Mermaid 流程图语法参考三