《智能终端与边缘计算》第8章 智能终端与边缘计算应用与案例分析
知识总览

8.1 实时语音识别
1. 核心概念与技术
- 定义:将语音信号转换为文本的技术。
- 核心技术 :结合语音信号处理 、声学建模 、语言建模 、深度学习进行优化,以提高识别准确率和实时性。
2. 常见应用场景
- 语音助手:如 Siri、Google Assistant、小爱同学。
- 语音输入法:如讯飞输入法、Gboard。
- 会议记录与字幕生成:如腾讯会议自动字幕、Zoom AI 会议助手。
3. 前沿案例分析:基于知识蒸馏和生成对抗网络的远场语音识别 (软件学报, 2019)
- 研究背景 :近场语音识别错误率已大幅降低,但远场语音 受背景噪声、混响、人声干扰影响,识别准确率远低于近场,是实用化的关键瓶颈。
- 注:PPT中介绍部分提及了智能家居边缘计算、非接触式呼吸监测、联邦迁移学习等内容,可能存在PPT排版错位,但重点方法与语音识别高度相关,需重点掌握以下方法:
- 重点方法(三大核心机制) :
- 多任务学习框架 :联合优化语音增强 和声学建模 任务。神经网络输出分两支:一支预测后验概率,一支将远场语音特征映射为近场语音特征,实现优化目标协同。
- 知识蒸馏 :用复杂的教师模型 (近场语音训练)指导简单的学生模型 (远场语音训练)。学生模型通过最小化与教师模型的后验概率分布差异(使用相对熵),将近场知识迁移到远场模型中。
- 生成对抗网络(GAN) :在多任务框架中增加鉴别网络 ,判断增强后的语音特征是否属于真实的近场语音特征。通过对抗训练,使增强后的远场特征分布逐步逼近真实近场数据特征,提升增强效果。

8.2 图像处理与计算机视觉
1. 核心概念与技术
- 定义:让机器具备类似人类的视觉能力(图像分类、目标检测、场景理解等)。
- 核心技术 :依赖CNN 、Transformer 、GANs 等模型,结合图像处理算法(如边缘检测、滤波、分割)完成任务。
2. 常见应用场景
- 人脸识别:如手机解锁、身份验证。
- 目标检测与物体跟踪:如智能摄像头、无人机视觉。
- 增强现实(AR):如AR试妆、AR导航。
3. 前沿案例分析:Towards Effective Adversarial Textured 3D Meshes on Physical Face Recognition (物理人脸识别上的有效对抗性纹理3D网格) (CVPR, 2023)
- 研究背景:物理对抗攻击可识别人脸识别系统的弱点并评估鲁棒性,但现有方法易被发现或对商业系统无效。本文旨在开发可靠技术,对商业系统的对抗鲁棒性进行端到端评估。
- 核心概念 :AT3D(对抗性纹理化3D网格),通过3D打印粘贴在脸上,逃避防御并欺骗黑盒模型。
- 重点方法(三大核心机制) :
- 对抗性纹理化3D网格(AT3D) :在3D面部模型上设计精细拓扑结构+纹理化网格,生成高质量的物理可实现 对抗性面具。3D打印后直接应用于面部,有效绕过面部反欺诈机制。
- 低维优化 :传统基于高维网格空间优化易过拟合。本文提出在低维系数空间 进行优化,利用3D形态模型(3DMM)对高维数据降维。避免了过拟合,显著提高了攻击的转移性 和视觉效果。
- 面部识别与防御绕过 :AT3D能绕过多种商业系统(面部识别API、反欺诈API、智能手机、自动门禁),通过低维系数扰动提高黑盒攻击效果,具有优异的稳定性和转移性。

8.3 推荐系统
1. 核心概念与技术
- 定义:利用用户行为数据,结合AI模型预测用户偏好,提供个性化推荐。
- 核心技术 :协同过滤 、基于内容的推荐 、深度学习推荐。
2. 常见应用场景
- 电商推荐:如淘宝、京东个性化商品推荐。
- 新闻推荐:如今日头条、Google News。
- 视频推荐:如抖音、B站、YouTube视频流推荐。
3. 前沿案例分析:Negative Transfer in Cross-Domain Recommendation via Knowledge Transferability Enhancement (通过知识可迁移性增强解决跨域推荐中的负迁移问题/TrineCDR) (KDD, 2024)
- 研究背景 :跨域推荐(CDR)通过跨域传输知识缓解数据稀疏性。但源域的有害噪音和不相关特征 会导致负迁移,简单的特征分解不足以应对多域场景。
- 核心模型 :TrineCDR(三级知识可迁移性增强模型),通过多级别知识转移增强,过滤源域噪音,获得更准确表示。
- 重点方法(三大增强模块) :
- 特征级知识转移增强(FKTE) :设计特征选择模块 ,根据目标域需求选择并加权相关特征,消除不相关特征,避免负迁移。
- 交互级知识转移增强(IKTE) :利用图注意力机制 ,筛选掉源域的噪音交互,增强表示鲁棒性,减少低质量源域数据的负面影响。
- 领域级知识转移增强(DKTE) :评估源域与目标域间的转移能力 ,根据领域相似性加权集成信息,阻止差异过大的源域信息进入目标域,减少领域间分歧,提高精度。

课后习题
- 实时语音识别技术需要结合语音信号处理、__________、语言建模和深度学习进行优化;而计算机视觉技术主要依赖卷积神经网络(CNN)、__________和GANs等模型。
答案: 声学建模;Transformer
- 请简述智能终端上的AI应用主要涵盖的三个领域,以及各自的核心技术。
答案:
- 实时语音识别:核心技术包括语音信号处理、声学建模、语言建模、深度学习。
- 图像处理与计算机视觉:核心技术依赖CNN、Transformer、GANs等模型,结合边缘检测、滤波、分割等图像处理算法。
- 推荐系统:核心技术包括协同过滤、基于内容的推荐、深度学习推荐。