Flow Matching 训练的输入分布问题:从 VAE Latent 统计性质到归一化工程实践——以 VoxFlash-TTS 为例摘要:本文从 OT-CFM 插值路径的统计性质出发,系统推导 Flow Matching 模型输入分布与输出速度场分布的均值和方差,分析 VAE KL 散度权重对 latent 点云分散程度的影响,并借鉴图像生成领域的 SNR 失配理论,从理论角度论证逐通道归一化对 Flow Matching 训练收敛的必要性。全文以 VoxFlash-TTS(9 Hz 超压缩 latent 空间)为贯穿案例,给出具体的工程建议。需要指出,文中部分结论属于理论推测,实际效果有赖于实验验证。