在消费电子领域,智能音箱的开发是一场硬件、声学与算法的精密协作。从零开始(0-1)研发一款产品,典型的开发周期通常在 9-12 个月。而在前 2 个月的选型期,你做出的每一个决策,都将决定后期 EVT/DVT 阶段的填坑难度。
本篇我们将针对 2.0 声道(两个喇叭)、双麦阵列(两个麦克风)、联发科(MTK)平台 这一经典高性能架构,深度解析选型逻辑。

一、 核心平台:为什么选择联发科 (MediaTek)?
在智能音箱 SoC 的战场上,MTK(如 MT8516 等系列)以其高集成度 和成熟的生态成为了架构师的首选。(其他的芯片也类似)
-
全集成方案: MTK 芯片通常集成了 Wi-Fi、蓝牙、电源管理(PMIC)以及音频 DSP。对于 2.0 音箱而言,内部空间极其紧凑(需要留给两个独立的音腔),高集成度意味着更小的 PCB 尺寸。
-
音频处理能力: 2.0 架构相比单喇叭方案,其 AEC(回声抵消) 的算力需求是成倍增加的。MTK 的音频子系统能稳定处理双声道的参考信号,确保交互延迟控制在毫秒级。
二、 声学架构:2.0 系统的物理挑战
2.0 系统就是两个喇叭,当然用两个喇叭不仅是为了立体声,更是为了音质的质感。但在定义阶段,必须注意以下物理限制:
-
独立腔体: 为了保证声场定位准确,左右单元必须拥有等体积且完全独立的密封腔体。
-
避震与防漏音: 在大音量下的机械振动极强。选型时需预留高阻尼硅胶垫的空间。如果喇叭的振动直接传导至麦克风,麦克风的录音直接全都标红了,那么任何算法都无法挽救唤醒率。
-
音腔容积预估: 在 ID 设计初期,就要根据喇叭单元的F0参数推算所需的最小容积,否则后期音质会显得单薄且浑浊。
三、 双麦阵列:性能与成本的平衡点
虽然 4 麦、6 麦看起来更"高级",但**双麦阵列(2-Mic Array)**是目前性价比最高、技术最成熟的方案。而且实时证明一个智能音箱可以用10+年以上,而且用户的粘度还是比较高的。
-
布局逻辑: 推荐使用线性阵列(Linear Array) ,麦克风间距通常设定在 40mm - 70mm。
-
关键指标:
-
SNR(信噪比): 必须选用 SNR > 64dB 的高性能 MEMS 麦克风。
-
匹配度: 要求供应商提供经过精细匹配(Sensitivity Matching)的对管,相位差越小,波束成形(Beamforming)的指向性就越精准。
-
四、 核心交互:KWS 唤醒与硬件打断 (Barge-in)
这是用户评价产品"聪不聪明"的关键指标。
1. KWS (Keyword Spotting) 本地唤醒
- 零延迟体验: 唤醒词模型必须跑在 MTK 芯片的端侧。选型时需确认 Flash 和 DDR 空间,为后续的模型迭代留出 20% 的冗余。
2. 硬件打断AEC(Barge-in / Full Duplex)
这是智能音箱最容易翻车的地方。
-
必选配置: 音频 PA(功放)必须支持 硬件 Loopback(回采)。
-
原理: 功放将实际输出的电压/电流信号(Reference Signal)实时反馈给 SoC。AEC算法通过这个信号,从麦克风拾取的混合声中"精准减去"正在播放的音乐。
五、 开发周期规划(9-12 Months)
在选型结束时,项目负责人心中必须有一张清晰的时间表:
-
M1-M2(选型与定义): 锁定 SoC、PA 和麦克风型号,完成堆叠方案(Stack-up)。
-
M3-M5(EVT): 首板点亮,验证 2.0 腔体气密性,调通基础唤醒链路。
-
M6-M8(DVT): 正式模具出样,进行跌落/高低温测试,声学参数精调(Tuning)。
-
M9-M12(PVT & MP): 产线良率攻坚,云端服务上线,正式大规模量产。
选型阶段交付 Check-list:
- 确认 MTK 芯片剩余 I/O 是否支持 2.0 功放和双麦的 I2S 需求。
- 功放选型是否具备硬件回采(Loopback)接口。
- 结构定义是否保证了两个独立、等体积的音腔。
- 确定自研业务云与第三方语音生态的对接协议初稿。
下一篇预告:
我们将进入 EVT 阶段。当第一块 PCB 拿到手,面对底噪干扰、Wi-Fi 吞吐量下降以及气密性失效,我们该如何进行现场排雷?