👨💻 Google Assistant 对话系统架构组。
我们的目标不是做一个"能回应"的语音助手,而是让它拥有理解上下文、做出合理推理和行动决策的能力 。
今天,我们拆开这台 AI 助理的每一层大脑给你看。
🗣️ 一、一次"Hey Google"触发背后,发生了什么?
用户说出:"Hey Google,提醒我明天 8 点参加会议。"
此时我们系统触发了如下完整的对话处理链:
语音 → 识别 → 意图识别 → 多轮上下文分析 → 动作规划 → 响应生成
完整结构图如下:

🧩 二、NLU(自然语言理解)如何准确识别你的意图?
你说了一句话:
"帮我订明早 8 点的滴滴。"
Google Assistant 做了哪些处理?
✅ 1. 分词 + 实体识别(NER)
css
{
"text": "帮我订明早8点的滴滴",
"intent": "BookRide",
"entities": {
"time": "2025-06-05T08:00:00",
"app": "滴滴"
}
}
内部我们使用 Transformer + BERT + 位置感知向量建模上下文:
ini
from transformers import BertTokenizer, BertForTokenClassification
tokens = tokenizer.tokenize("帮我订明早8点的滴滴")
model = BertForTokenClassification.from_pretrained('bert-base-chinese')
outputs = model(**tokenizer(...))
模型训练数据是人类标注的 100w+ 对话语料,结合异步人审和交互反馈不断强化。
🤖 三、Dialog Manager 是对话引擎的大脑
这个模块负责多轮记忆和状态管理。
举例:
用户:帮我订机票
助手:去哪儿?
用户:北京
助手:几号?
用户:后天
我们用 FSM(状态机)+ Belief State(信念状态)+ Slot Filling(槽位填充)来实现:
makefile
state = {
"intent": "BookFlight",
"slots": {
"destination": "北京",
"date": "2025-06-06"
}
}
状态管理引擎支持:
- ✅ 多轮记忆和容错(如模糊时间识别"后天"、"下周一")
- ✅ 支持切换话题(topic switching)
- ✅ 支持模糊意图的容错匹配(fuzzy match)
🔧 四、Action Executor:如何自动触发第三方 API?
Assistant 实际接的是 Google Actions 平台:
vbnet
intent: BookFlight
trigger: https://api.airline.com/book
params:
- destination
- date
支持插件能力:可自动接入 Calendar、Maps、Uber、SmartHome 等服务。
如你说"打开客厅灯",Assistant 实际走的流程:
json
{
"action": "turn_on_device",
"device": "living_room_light",
"auth": "OAuth2 + Device Graph"
}
🧠 五、NLG:为什么 Assistant 回应不像死板脚本?
我们在响应生成层,采用了三层结构:
层级 | 说明 |
---|---|
模板匹配 | 高频命令走模板生成响应 |
条件语法树 | 半结构生成(条件 + 上下文填充) |
大语言模型生成 | 稀有句型走 GPT 变体模型 |
示例代码:简单模板引擎 + GPT fallback
kotlin
if intent == "BookFlight":
if all_slots_filled:
return f"已为你预订去{slots['destination']}的机票。"
else:
return "你想去哪儿?"
else:
return gpt_model.generate_response(query)
🗣️ 六、语音合成:让 Assistant 说话像人类
使用的是 Google WaveNet 和 FastSpeech2:
- 支持 100+ 种语言
- 支持上下文语调调节(提问、肯定、疑惑)
- 可定制明星语音、个性化音色(Pixel 配置中可选)
⚠️ 七、一个真实问题:如何防止"上下文误解"?
用户说:
"我下周三要开会,帮我定一下。"
Assistant 有时会误判为"预定会议室",但实际上用户可能想"订滴滴接送"。
我们引入如下纠错逻辑:
- 基于 Dialog History Attention Layer 建模最近上下文
- 引入 User Profile Memory(用户之前偏好选择)
- 开启 反问机制:"你是要订车还是会议室?"
📈 八、我们做了哪些工程加速优化?
优化点 | 技术方案 |
---|---|
延迟优化 | 使用 TensorRT + TPU 模型加速 |
多端一致性 | 使用 Dialog State Sync API |
异常恢复 | Intent fallback + NLU 模型 ensemble 投票 |
用户打断 + 转换话题支持 | FSM 状态自动挂起,记录中断点恢复 |
🧾 九、结语:我们如何评估一个"好"助手?
"能听懂话,更能读懂人。"
我们评估指标:
- 意图识别准确率(90%+)
- 多轮成功率(80%+)
- 响应满意度(通过用户打分+文本情感分析)