面对面翻译机器人的拾音难题：AU-60双波束双输出模式深度解析

点击查看规格书

一、面对面翻译设备的四大技术痛点

随着跨境交流、国际贸易、国际旅游的快速增长，面对面翻译设备（双分区翻译机器人）的市场需求日益旺盛。但在实际产品落地中，音频拾音环节往往是最大的技术瓶颈，主要面临以下四大痛点：

**痛点1：双向拾音互相串音**

面对面翻译需要同时拾取对话双方的声音，但两个麦克风距离很近（通常只有10-20cm），A说话时B侧的麦克风也会录到，B说话时A侧的麦克风也会录到，导致翻译引擎收到"混合音"，严重影响翻译准确率。

**痛点2：环境噪声干扰严重**

翻译设备往往使用在机场、酒店、展会、餐厅等嘈杂环境中，背景噪声会大幅降低语音识别率。传统的单麦降噪方案效果有限，很难在强噪声环境下提取清晰人声。

**痛点3：设备体积受限，声学设计困难**

便携翻译设备要求小巧轻便，麦克风间距不能太大，这给波束成形、声源分离等算法的实现带来了很大挑战。很多方案为了追求体积，牺牲了拾音效果。

**痛点4：全双工通话体验差**

翻译设备自带的喇叭播放翻译结果时，回音会通过麦克风回传，导致"自己听自己翻译"，甚至产生啸叫。很多廉价方案只能采用半双工模式------播放时关闭麦克风，严重影响交互流畅度。

今天我们来深度解析一款能够系统性解决上述所有问题的语音处理方案------**AU-60语音模组的双波束双输出模式（模式十）**。

二、AU-60双波束双输出技术深度解析

2.1 什么是双波束双输出模式

AU-60的模式十（双数字麦克风+双波束独立定向拾音+双模拟独立输出）是专门为双向拾音场景设计的特殊固件版本。

**核心原理：**

双数字麦克风输入（PDM格式）
DSP内部生成两个独立的定向拾音波束
两个波束分别朝向相反方向（0度和180度）
两个声道独立音频输出，互不串音

与普通的双麦克风方案不同，AU-60不是简单地"两个麦克风各录各的"，而是通过波束成形算法，在两个方向上形成"声学聚焦"------每个波束只拾取自己方向的声音，对另一个方向的声音进行强力抑制。

2.2 波束成形的技术原理

波束成形（Beamforming）的核心思想是利用多麦克风阵列的相位差，对特定方向的声音进行增强，对其他方向的声音进行抵消。

**AU-60的波束参数：**

波束中轴角度：可通过固件配置（模式十默认0度和180度双向）
拾音范围角度：可配置（默认每个波束约60度覆盖范围）
波束数量：2个独立波束，双通道独立输出

**为什么波束成形能解决串音问题？**

假设两个人面对面站着，距离翻译设备各30cm：

A侧波束：聚焦于A方向，对B方向的声音衰减30dB以上
B侧波束：聚焦于B方向，对A方向的声音衰减30dB以上
结果：A侧输出几乎只有A的声音，B侧输出几乎只有B的声音

这比单纯的"两个麦克风分开录"效果好得多------因为两个麦克风物理距离很近（通常只有几厘米），如果不用波束成形，A的声音在两个麦克风上的音量差可能只有3-5dB，根本无法有效分离。

2.3 串音抑制效果实测

根据规格书数据，AU-60双波束模式下的串音抑制效果非常出色：

| 指标 | 参数 | 说明 |

|-----|------|------|

| 波束方向隔离度 | >30dB | 对侧方向声音衰减30dB以上 |

| 波束边界清晰度 | 高 | 角度切换处衰减陡峭 |

| 双通道串扰 | < -40dB | 两个输出通道互相干扰极小 |

**30dB的隔离度是什么概念？**

30dB衰减意味着声音功率降低到1/1000
简单来说：如果A说话音量是80dB，B侧麦克风录到的A的声音只有50dB以下
而B自己说话的声音在B侧麦克风上是80dB
信噪比（B的声音 vs A串过来的声音）高达30dB以上

这对于翻译引擎来说，语音识别准确率会有质的提升。

2.4 AI ENC降噪：叠加buff的噪声压制

除了波束成形的空间降噪，AU-60还叠加了AI ENC（环境噪声消除）技术，对非人声的环境噪声进行二次压制。

**降噪参数：**

AI降噪深度：45dB - 90dB（根据固件配置）
信噪比（SNR）：105dB
可压制噪声类型：风扇声、空调声、人声嘈杂、餐厅背景声等

**双重降噪叠加效果：**

第一层：波束成形的空间降噪（抑制侧向和背向噪声）
第二层：AI ENC的算法降噪（抑制波束内的非人声噪声）

两层降噪叠加后，即使在嘈杂的餐厅或展会环境中，也能提取出清晰的人声信号。

三、硬件设计方案：模式十完整连接指南

3.1 模式十的系统架构

AU-60模式十的硬件连接方案如下：

**输入部分：**

双数字麦克风（PDM格式）
两个麦克风分别朝向0度和180度方向

**输出部分：**

MICOUT：A侧波束降噪后的模拟音频输出（通道1）
USPKOUT：B侧波束降噪后的模拟音频输出（通道2）
两个通道独立输出，互不干扰

**控制部分：**

T1/T2引脚：4档拾音距离切换
SPI端口（可选）：动态参数调节

3.2 详细连接示意图

| AU-60引脚 | 连接对象 | 说明 |

|---------|---------|------|

| 1脚 MICOUT | 主控ADC输入1 | A侧波束音频输出 |

| 3脚 USPKOUT | 主控ADC输入2 | B侧波束音频输出 |

| 14脚 DAT | 数字麦克风DAT | PDM数据输入 |

| 15脚 CLK | 数字麦克风CLK | PDM时钟输出 |

| 19脚 3V3 | 数字麦克风VCC | 数字麦供电（最大30mA） |

| 9脚 T2 | 主控GPIO或下拉电阻 | 距离参数选择2 |

| 11脚 T1 | 主控GPIO或下拉电阻 | 距离参数选择1 |

| 13脚 +5V | 电源5V | 主电源输入 |

| 10脚 GND | 电源地 | 地 |

**注意：** 模式十是特殊固件版本，需要在采购时说明选用"双波束双输出固件"。

3.3 数字麦克风选型与布局

**麦克风选型建议：**

类型：PDM数字麦克风
信噪比：≥64dB（越高越好）
灵敏度：-26dBFS ~ -38dBFS（根据需求选择）
尺寸：推荐3.5mm×2.65mm×1.5mm或更小

**PCB布局要点：**

**麦克风朝向**：两个麦克风分别朝向设备的正反两面（0度和180度）
**麦克风间距**：建议6mm-10mm（AU-60推荐的双麦间距约6mm）
**声学隔离**：两个麦克风之间建议增加声学隔离墙，减少物理串音
**走线长度**：PDM的CLK和DAT线尽量短，减少干扰
**供电方式**：如果外部有稳定3.3V，建议外部给数字麦供电，不使用模组19脚输出

3.4 拾音距离参数配置

模式十同样支持T1/T2四档距离切换：

| T1状态 | T2状态 | 拾音距离 | 翻译设备适用场景 |

|-------|-------|---------|----------------|

| 高 | 高 | 0.5-2米（中距离） | 通用面对面翻译 |

| 高 | 低 | 0.1-0.2米（近距离） | 贴身翻译、智能工牌 |

| 低 | 高 | 0.5-5米（远距离） | 会议翻译、大空间场景 |

| 低 | 低 | 0.5-8米（超远距离） | 演讲翻译、远距离对话 |

**翻译设备推荐配置：**

便携翻译机：T1=高 T2=高（0.5-2米）
桌面翻译机：T1=低 T2=高（0.5-5米）
智能工牌：T1=高 T2=低（0.1-0.2米）

3.5 AEC回声消除：解决喇叭回音问题

翻译设备播放翻译结果时，喇叭的声音会通过麦克风回传，导致"自己听自己翻译"。AU-60的AEC回声消除功能可以完美解决这个问题。

**AEC参数：**

回音消除深度：高达100dB
可消除回音延迟：100ms

**参考信号接法：**

从功放输入端取参考信号（推荐）：直接连接AECIN（26脚）
从功放输出端取参考信号：串联104电容+10K电阻后连接AECIN

**全双工体验：**

AU-60的AEC算法支持真正的全双工------播放翻译结果的同时，麦克风依然正常拾音，不会出现"播放时对方说话听不见"的半双工问题。

四、调试经验与优化技巧

4.1 串音问题排查与优化

串音是双分区翻译设备最常见的问题。如果调试中发现A侧输出里B的声音还是太大，可以按以下步骤排查：

**第一步：检查麦克风物理朝向**

确认两个数字麦克风是否分别朝向正确的方向（0度和180度）
麦克风是否有遮挡？音孔是否对齐外壳开孔？
两个麦克风之间是否有足够的声学隔离？

**第二步：检查波束角度配置**

如果串音严重，可以联系供应商调整固件，收窄波束角度（比如从60度收窄到45度）
波束越窄，方向性越强，串音抑制越好，但拾音范围也会变小
需要在"串音抑制"和"拾音宽容度"之间找到平衡

**第三步：检查声学结构设计**

两个麦克风之间建议增加硅胶隔音墙或泡棉隔离
麦克风音孔周围建议做密封处理，防止声音从设备内部传导
PCB板上两个麦克风之间可以开槽，减少固体传声

**第四步：软件层面优化**

如果硬件已经定型，还可以在后端做进一步的软件降噪
利用两个声道的相关性，做自适应回声消除（AEC）来进一步抑制串音
但注意：软件处理会增加延迟和CPU开销

4.2 距离参数调试技巧

不同的使用场景需要不同的拾音距离，调试时可以参考以下经验：

**便携翻译机（手持使用）：**

推荐距离：0.5-2米（T1高 T2高）
原因：手持使用时距离较近，近距离参数可以更好地抑制远处的环境噪声

**桌面翻译机（会议使用）：**

推荐距离：0.5-5米（T1低 T2高）
原因：会议场景距离稍远，需要更大的拾音范围

**智能工牌（贴身使用）：**

推荐距离：0.1-0.2米（T1高 T2低）
原因：贴身佩戴，说话距离很近，近距离参数效果最佳

**调试技巧：**

可以用GPIO动态切换T1/T2状态，根据使用场景自动切换距离档位
比如：检测到设备被拿起时切换到近距离，检测到放在桌面上时切换到中距离

4.3 AEC回声消除调试

翻译设备的喇叭回音是另一个常见问题。调试要点：

**参考信号接法选择：**

优先从功放输入端取参考信号，信号干净，无需分压
如果只能从功放输出端取信号，一定要串联隔直电容和分压电阻
C1 = 104（0.1μF）
R1 = 1K-10K（根据功放功率调整，5W以下用10K）

**回音消除效果不佳时的排查：**

参考信号是否接反了？（正负极不要接反）
参考信号幅度是否合适？（太大或太小都会影响AEC效果）
喇叭与麦克风的物理隔离是否足够？（建议增加泡棉密封）
声学结构是否有共振？（箱体共振会导致回音难以消除）

**全双工测试方法：**

播放一段白噪声，同时对着麦克风说话
听输出的声音，判断自己说话的声音是否清晰、是否有断字
如果播放时自己说话的声音被切掉了，说明AEC算法有半双工问题

4.4 数字麦克风布线注意事项

PDM数字麦克风的布线对音质影响很大，注意以下几点：

**1. CLK和DAT走线**

尽量短，尽量等长
远离高频信号线（如SPI、SDIO等）
建议用地线包地，减少干扰

**2. 电源滤波**

数字麦的VCC引脚旁边增加100nF去耦电容
尽量靠近麦克风引脚放置
如果用模组19脚供电，注意电流不要超过30mA

**3. 地线处理**

数字麦的GND与模组GND单点连接
避免地环路
模拟地和数字地建议单点接地

4.5 模拟输出幅度匹配

AU-60的模拟输出幅度是1.07Vrms，如果后端ADC的输入范围较小，需要增加分压电路：

```

AU-60输出 → R1(1K-10K) → 后端ADC输入

↓

R2(5.1K) → AGND

↓

C1(1nF) → AGND

```

**分压比计算：**

Vout = Vin × R2 / (R1 + R2)
根据后端ADC的满量程输入电压调整R1和R2的比值
建议保留30%以上的余量，避免大音量时削顶

**注意：** 两个通道（MICOUT和USPKOUT）都需要做匹配，参数保持一致。

五、性能参数与方案优势总结

5.1 核心性能参数汇总

| 参数类别 | 参数项 | 数值 | 说明 |

|---------|-------|------|------|

| | 信噪比 | 105dB | 高保真音质 |

| **拾音距离** | 档位1（近） | 0.1-0.2米 | T1高T2低 |

| | 档位2（中） | 0.5-2米 | T1高T2高 |

| | 档位3（远） | 0.5-5米 | T1低T2高 |

5.2 为什么选择AU-60模式十做翻译设备

**优势1：真正的双向独立拾音**

不是简单的"两个麦克风分开录"，而是通过波束成形算法实现真正的空间分离，串音抑制>30dB，翻译准确率大幅提升。

**优势2：双重降噪叠加，嘈杂环境也能用**

波束成形的空间降噪 + AI ENC的算法降噪，双重降噪叠加，即使在机场、餐厅等嘈杂环境也能提取清晰人声。

**优势3：全双工通话，交互流畅**

100dB深度的AEC回声消除，播放翻译结果时麦克风不关闭，真正的全双工体验，对话更自然。

**优势4：体积小巧，易于集成**

37.5mm×16mm的邮票半孔设计，SMT贴片工艺，轻松嵌入便携翻译机、智能工牌等小型设备。

**优势5：接口灵活，适配各种主控**

双模拟输出直接接ADC，或者也可以选择I2S数字输出版本，适配各种类型的主控方案。

**优势6：可量产，成本可控**

不需要复杂的声学结构设计，不需要昂贵的多麦阵列，一颗模组解决所有语音前端问题，BOM成本可控。

5.3 适用产品形态

AU-60双波束双输出模式特别适合以下产品：

**1. 面对面翻译机**

便携手持翻译设备
桌面翻译机器人
旅游翻译神器

**2. 智能工牌/胸牌**

员工胸牌式翻译设备
展会接待工牌
多语言交流助手

**3. 双通道录音设备**

会议录音笔（双向）
访谈录音设备
双语教学录音

**4. 双分区通话设备**

窗口对讲系统
银行/医院呼叫系统
隔离舱通话设备

5.4 选型建议

如果你正在开发面对面翻译设备，还在为双向拾音串音、环境噪声大、回音啸叫等问题困扰，AU-60的双波束双输出模式绝对值得一试。

**建议的开发流程：**

先申请样片和DEMO板，实测效果
根据产品形态确定麦克风布局和波束角度
调试T1/T2距离参数，找到最佳配置
优化声学结构，进一步提升串音抑制效果
小批量试产，验证量产一致性

**参考资料：**

AU-60全功能AI语音处理模组规格书 Rev1.0