在人机交互(HMI)中, 意图假设 与 意图筛选是理解用户需求的核心环节,尤其在自然语言交互(如语音助手、聊天机器人)或多模态交互(如结合视觉、动作)场景中至关重要。二者的核心目标是:从用户模糊、不完整或隐含的输入中,准确推断其真实目标(意图),并排除干扰项,确保系统响应符合用户预期。
一、意图假设:生成可能的用户目标
意图假设是指系统基于用户输入(如语言、动作、表情)、上下文(如对话历史、场景)及用户画像(如历史行为、偏好), 生成一组可能的用户意图集合。这一过程需解决"用户可能想做什么"的问题,通常包含以下关键步骤:
1. 输入解析
将用户原始输入(如文本、语音、手势)转化为可计算的特征。例如:
-
文本:通过分词、实体识别(如"北京""明天")提取关键信息;
-
语音:通过ASR(自动语音识别)转文本,结合语调、停顿判断情绪(如急切、犹豫);
-
多模态:结合图像(如用户指向某商品)、动作(如点击按钮)补充语义。
2. 上下文建模
用户意图常依赖当前场景或历史对话。例如:
-
单轮对话:"附近的咖啡馆"→ 假设意图为"搜索附近咖啡馆";
-
多轮对话:用户先问"上海到北京的火车",再问"明天的票"→ 结合上下文,假设意图为"查询上海到北京明天的火车票"。
常用技术包括对话状态跟踪(DST, Dialogue State Tracking)和记忆网络(Memory Network)。
3. 用户画像与知识库关联
利用用户历史行为(如常购品类、常用地点)或领域知识(如"订酒店"需关联"日期+地点+人数")扩展假设。例如:
-
用户常点奶茶→ 输入"点杯喝的"时,优先假设"点奶茶";
-
医疗场景中,用户说"头疼"→ 结合症状知识库,假设"咨询头痛原因/开药"。
4. 歧义性处理
用户表达可能存在多义性(如"苹果"可指水果或品牌)或模糊性(如"便宜点的"需结合预算)。此时需生成多个候选意图,例如:
-
输入"苹果多少钱"→ 假设意图可能是"查询苹果(水果)价格"或"查询苹果手机价格"。
二、意图筛选:从候选中确定最优解
意图筛选是在生成的候选意图集合中,通过 概率计算、规则匹配或机器学习,选择最符合用户真实目标的意图。其核心是解决"用户最可能想做什么"的问题,常用策略包括:
1. 基于规则的逻辑推理
通过预定义的业务规则(如关键词、正则表达式、逻辑条件)排序候选意图。例如:
-
输入含"订""买"→ 优先筛选"交易类意图";
-
输入含"怎么""如何"→ 优先筛选"咨询类意图"。
规则可结合领域知识(如医疗、电商)设计,适用于明确、低歧义的场景。
2. 统计学习与概率模型
通过历史数据训练分类模型(如SVM、随机森林)或序列标注模型(如CRF),计算每个候选意图的概率。例如:
-
用用户历史对话数据训练意图分类器,输入"明天会下雨吗"时,模型输出"查询天气"的概率最高。
深度学习方法(如BERT、GPT)可捕捉更复杂的语义关联,提升长文本或模糊输入的筛选效果。
3. 上下文与用户偏好的强化
结合实时上下文(如设备位置、时间)和用户长期偏好(如默认城市、常用服务)调整概率。例如:
-
用户在"上海"且时间为"18:00"时,输入"去机场"→ 优先假设"查询去上海虹桥/浦东机场的路线";
-
用户常选"经济舱"→ 输入"订机票"时,优先筛选"经济舱预订"而非"商务舱"。
4. 主动澄清与用户反馈
当候选意图概率接近(如均>30%)时,系统可主动询问用户确认,或通过选项引导用户选择。例如:
-
输入"我要订酒店"→ 系统追问"您需要订几晚?哪个城市?";
-
输入"苹果"→ 系统展示选项"您想了解苹果(水果)的价格,还是苹果手机的信息?"。
三、关键挑战与优化方向
1. 歧义性与动态性
用户表达可能随场景变化(如"冷"在空调控制中可能指"调高温度",在穿衣建议中可能指"加衣服")。需通过 细粒度意图分类 (如将"调温"细分为"制热""制冷")和 动态上下文更新(如记录最近操作)降低歧义。
2. 多意图与复合意图
用户可能同时表达多个需求(如"订明天的机票,顺便查酒店")。需支持 多意图检测(MID, Multi-Intent Detection),将输入拆分为子意图并分别处理。
3. 小样本与冷启动
新领域或新用户缺乏历史数据时,意图假设与筛选效果下降。可通过 迁移学习 (利用通用领域预训练模型)或 少样本学习(仅需少量标注数据微调)快速适应。
4. 可解释性与用户信任
系统需向用户说明意图筛选的依据(如"根据您最近的搜索记录,推荐此结果"),避免"黑箱"感,提升交互可信度。
四、应用场景示例
-
智能语音助手(如Siri、小爱同学):用户输入"提醒我下周三开会"→ 假设意图为"设置日程提醒",筛选时结合日历权限、用户历史提醒类型(如工作/生活)确认。
-
电商客服机器人:用户说"这件衣服有货吗"→ 假设意图为"查询库存",筛选时结合当前页面商品ID、用户所在地区(是否支持配送)返回结果。
-
车载交互系统:用户说"我有点热"→ 假设意图为"调低空调温度"或"打开车窗",筛选时结合车内温度、车速(高速时优先关窗)决定。
总结
意图假设与筛选是人机交互的"理解中枢",其本质是通过 多源信息融合 (输入、上下文、用户、知识)和 智能决策算法,将用户模糊的表达转化为明确的系统行动。随着大模型(如大语言模型LLM)的发展,未来可能通过更强大的语义理解和上下文推理能力,实现更自然、精准的意图推断,推动人机交互向"以用户为中心"的深度协同演进。
进一步的参考文献详见下面链接: