神经网络------ 人工神经网络导论
01 人工智能(AI)
什么是"智能"?
- 是智慧与能力的总称。
- 是人类大脑的基本属性。
- 内涵:知识+思维
- 外延:发现并运用规律的能力、分析问题并提出问题的能力、解决问题的能力
- 智能:理解、学习与推理的能力
- 智能行为:感知、理解、推理、学习、交流、行动能力
什么是"人工智能"?
人工智能是指通过计算机模拟或实现的智能,是研究如何使机器具备智能的技术,尤其研究如何在计算机上实现或复现人工智能。它是计算机科学的一个分支,融合了计算机科学、脑科学、神经生理学、心理学、语言学、逻辑学、认知科学、思维科学、行为科学、数学、信息论、控制论和系统论等多个领域的知识。
人工智能的研究目标
长期目标
- 制造具备以下能力的智能机器:
- 阅读、聆听、表达、书写等感知交互能力
- 联想、推理、理解、学习等思维能力
- 分析问题、解决问题及创新能力
短期目标
- 实现机器智能,即具备部分或一定程度的智能
- 已取得多项成果:深蓝超级计算机、五子棋程序、沃森问答系统、专家系统、自动驾驶技术、阿尔法围棋(AlphaGo)、阿尔法零(AlphaZero)等
人工智能的研究方法
人工智能的研究需借鉴自然智能(人类大脑)的研究成果,根据研究侧重点的不同,可分为三类:
- 结构模拟:神经计算,属于生理学派,对应连接主义
- 功能模拟:符号推演,属于心理学派,对应符号主义
- 行为模拟:控制进化,属于控制论学派,对应行为主义、进化主义
方法一:结构模拟------神经计算(生理学派)
- 特点:依据人类大脑的生理结构和工作机制,对计算机智能进行局部、近似的模拟(即通过人工神经网络实现)。
- 优势:利用神经网络的自学习能力获取知识,进而运用知识解决问题;具有高度的并行性、分布性,以及较强的鲁棒性和容错性;擅长模拟人类大脑的形象思维,便于实现人类大脑的低级感知功能,如图像和语音的识别与处理。
方法二:功能模拟------符号推演(心理学派)
- 核心:模拟人类大脑的高级认知功能(如推理、决策等)。依据人类大脑的心理模型,将知识或问题表示为某种逻辑网络,通过符号推演实现搜索、推理、学习等功能,例如自动机器推理、定理证明、专家系统、机器博弈等。
- 优势:擅长模拟人类大脑的逻辑思维,从而实现高级认知功能。
方法三:行为模拟------控制进化(控制论学派)
- 原理:基于"感知-行动"模型,模拟人类在控制过程中的智能活动和行为特征,包括自优化、自适应、自学习、自组织能力。
- 特点:也可称为"情境化人工智能"(Situated AI),强调智能系统与环境的交互;认为智能和行为的产生无需依赖知识,人类智能与机器智能均可通过逐步进化获得,但必须与现实环境进行交互;认为智能依赖于感知与行动。
人工智能的研究领域
- 计算机视觉(CV):图像识别、目标检测、图像分割等
- 自然语言处理(NLP):机器翻译、情感分类、文本生成等
- 数学定理证明
- 数据挖掘与知识发现
- 博弈论
- 机器人学
- ......
案例1:深蓝(Deep Blue)
- 简介:深蓝是美国IBM公司研发的超级国际象棋计算机,重达1270千克,拥有32个"大脑"(微处理器),每秒可计算2亿步。它存储了过去百年来众多优秀棋手的200多万局棋谱。
- 里程碑事件:1997年5月11日,"深蓝"击败了人类历史上最伟大的国际象棋大师加里·卡斯帕罗夫,这场举世闻名的"人机大战"以计算机的胜利告终。
- 核心算法:基于暴力穷举思想,生成所有可能的走法后,尽可能深入地搜索,并不断评估棋局,以寻找更优走法。算法包含走棋模块、评估模块和搜索控制器三部分。
案例2:沃森(Watson)
- 成就:2011年,沃森参与了综艺节目《危险边缘》(Jeopardy!)的智力竞赛,最终赢得100万美元奖金。
- 核心技术:集成了语音识别、语义理解与问答系统。工作流程分为三步:首先识别用户的语音输入;其次理解问题含义(因语料库中的问题与主持人提问可能并非完全匹配);最后在语料库中查找对应的答案。
案例3:小度(Xiaodu)
- 研发背景:小度机器人诞生于百度自然语言处理部门,依托百度强大的人工智能技术,融合了自然语言处理、对话系统、语音视觉等多种技术。
- 重要事件:2014年9月16日,小度机器人亮相江苏卫视《芝麻开门》节目,答对了音乐、影视、历史、文学等领域的40道问题;2017年1月,参与江苏卫视《最强大脑》第四季节目。
案例4:阿尔法围棋(AlphaGo)
- 研发团队:由谷歌旗下子公司DeepMind研发。
- 关键赛事:2016年3月,阿尔法围棋与世界围棋冠军、职业九段棋手李世石对弈并获胜;2016年底至2017年初,以"Master"为注册账号在中国围棋网站上与中、日、韩数十位围棋大师进行快棋对战,60局连胜无败绩;2017年5月,击败中国棋手柯洁;2017年10月,阿尔法零(AlphaGo Zero)发布。
- 核心技术:深度学习与强化学习。
神经网络的四大支撑技术
神经网络是神经科学、大数据、超级计算和纳米技术四大领域原理的结合体。
1. 神经科学
- 研究内容:聚焦人类的思维过程及神经系统的功能。
- 与神经网络的关联:认知计算设备的架构与人类大脑架构相似。基于该架构的设备由电子神经元和突触构成,被称为"神经突触芯片",其内部网络结构与大脑网络类似。
2. 大数据
- 作用:无论针对何种主题,大数据都能为人类和计算机提供充足的学习信息。
- 重要性:在大数据时代之前,可用于算法训练和测试的数据量极少;而大数据丰富了学习算法的数据池,为神经网络的训练提供了基础。
3. 超级计算
- 核心作用:确保认知计算中的算法与硬件能够实现高性能运算。
- 必要性:若缺乏超级计算能力,即便拥有大数据,认知计算处理数据的过程也会耗时极长,难以实用。
4. 纳米技术
- 定义:纳米技术是研究尺寸在10的-9次方米(纳米)级别材料的科学领域。
- 与神经网络的关联:要嵌入大量处理器和突触以构建类人脑系统,需借助纳米技术实现------通过纳米技术可在芯片上集成大量处理器。
02 人工神经网络(ANN)
什么是"人工神经网络"?
人工神经网络(简称ANN)是一种信息处理系统,其设计灵感源于生物大脑,基于对生物大脑结构与功能的模拟,通过数学和物理方法开展研究。它由大量结构简单的处理单元组成,这些处理单元以某种方式并行连接,能根据自身状态对外部输入信息做出动态响应。
生物大脑与人工神经网络的关联
- 生物基础:人类大脑由大量神经细胞(即神经元)构成,每个神经元可视为一个小型处理单元。这些神经元通过特定方式相互连接,形成大脑中的生物神经网络。神经元会根据接收的多个激励信号的综合强度,呈现兴奋或抑制状态。
- 学习机制:大脑的学习过程本质是神经元间突触连接强度随外部激励信息自适应变化的过程,而大脑处理信息的结果则通过神经元的状态体现。
人工神经网络的核心特点
- 并行分布式处理结构
- 处理单元的输出可任意分支,且分支规模相同
- 输出信号可采用任意数学模型表示
- 处理单元仅完成局部运算
人工神经网络的关键组成(鲁梅尔哈特、麦克莱兰、辛顿提出)
- 一组处理单元(PE或AN)
- 处理单元的激活状态(aia_iai)
- 每个处理单元的输出函数(fif_ifi)
- 处理单元间的连接方式
- 传递规则(∑wijoi\sum w_{ij}o_i∑wijoi)
- 激活规则:结合处理单元的输入与当前状态,生成激活值
- 学习规则:通过系统运行的经验环境(样本采集)调整连接强度
- 系统运行的经验环境(样本采集)
人工神经网络的特点
1. 固有并行结构与并行处理特性
- 计算功能分布在多个处理单元上,同一层的处理单元并行运作;人工神经网络中的信息处理在大量单元中并行、分层进行。
2. 知识的分布式存储
- 知识并非存储在特定的存储单元中,而是分布在整个网络的所有连接权重中。
3. 良好的容错性
- 当输入信息存在模糊、变形等不完整情况时,人工神经网络可通过联想恢复完整记忆,从而实现对不完整输入信息的正确识别。
4. 高度非线性与计算不精确性
- 网络结构的并行性与知识的分布式存储,使其信息存储和处理呈现空间分布、时间并行的特点,进而导致网络具有非线性;由于能处理不精确、不完整的模糊信息,其求解结果通常是满意解而非精确解。
5. 自学习、自组织与自适应能力
- 自学习:当外部环境变化时,经过一段时间的训练或感知,神经网络能针对给定输入产生期望输出。
- 自组织:神经网络可通过训练自行调整连接权重(即调整神经元间的突触连接),具备可塑性,能逐步构建适应不同信息处理需求的网络结构。
人工神经网络的别名
- 人工神经系统(ANS)
- 神经网络(NN)
- 自适应系统/自适应网络
- 连接主义(Connectionism)
- 神经计算机(Neurocomputer)
人工神经网络与传统人工智能技术的对比
| 对比维度 | 传统人工智能 | 人工神经网络 |
|---|---|---|
| 基本实现方式 | 串行处理;由程序控制 | 并行处理;基于样本数据进行多目标学习;通过人工神经元间的交互实现控制 |
| 核心开发方法 | 设计规则、框架与程序;利用样本数据调试(根据已知环境构建模型) | 定义人工神经网络的结构原型;通过样本数据,依据基本学习算法完成学习------从样本数据中自动提取内涵(自动适应应用环境) |
| 适用领域 | 精确计算:符号处理、数值计算 | 不精确计算:模拟处理、感知任务、大规模数据并行处理 |
| 模拟对象 | 左脑(逻辑思维) | 右脑(形象思维) |
人工神经网络的核心能力
1. 学习能力
- 定义:人工神经网络可根据环境调整自身行为。
- 分类:不同人工神经网络模型采用不同的学习/训练算法,主要包括自联想网络(auto-associative)和异联想网络(hetero-associative)。
2. 基本特征自动提取能力
- 优势:借助运算的不精确性,实现"去噪容缺",自然完成模式的自动分类。
- 延伸能力:具备泛化能力与抽象能力。
3. 联想记忆能力
- 原理:凭借分布式信息存储与并行计算特性,神经网络能对外部激励信息和输入模式进行联想与记忆,这一能力通过神经元间的协作结构及信息处理的集体行为实现。
- 记忆方式:神经网络通过突触权重和连接结构体现对信息的记忆,分布式存储使其能存储更复杂的模式,并实现记忆信息的恢复。
- 具体类型:
- 自联想记忆:网络预先存储多种模式信息,当输入某一存储模式的部分信息或受噪声干扰的信息时,可通过动态联想过程回忆起该模式的全部信息。
- 异联想记忆:网络预先存储多组模式对(每组模式对包含两部分),当输入某一模式对的一部分(即使输入信息不完整或含噪声)时,能回忆起与之对应的另一部分。
4. 非线性映射能力
- 功能:设计合理的神经网络,可通过自动学习系统的输入输出样本对,以任意精度逼近复杂的非线性映射。
5. 分类与识别能力
- 本质:对输入样本的分类,实则是在样本空间中寻找满足分类要求的分割区域,每个区域内的样本属于同一类别。
6. 信息的分布式存储
- 容错性保障:由于信息分布存储于整个网络,即便网络中某个或某几个节点损坏,仍可访问信息,局部损坏时系统仍能正常工作。
- 局限性:网络学习并非可随意修改------若网络完成初始学习后再学习新内容,可能会破坏已掌握的知识(即"灾难性遗忘"问题)。
7. 适应性
- 擅长任务:
- 对大量数据进行分类(仅需少量样本案例)
- 学习复杂的非线性映射
- 当前应用:主要用于语音处理、视觉识别、知识处理、决策支持;在数据压缩、模式匹配、系统建模、模糊控制,以及求解组合优化问题的近似最优解等领域也有良好应用。
03 人工神经网络的应用与展望
人工神经网络的应用领域
1. 文本处理
- 核心应用:
- 文本识别:印刷体/手写体文本识别、车牌识别。
- 办公自动化:机器翻译。
- 银行自动化:支票识别。
- 邮政自动化:信件分拣。
2. 生物特征识别
- 识别类型:指纹识别、人脸识别、虹膜识别、语音识别、签名识别、步态识别。
- 技术核心:通过神经网络提取生物特征的关键信息,实现高精度匹配与识别。
3. 生物医学
- 具体应用:
- 医学检测:全血细胞计数(CBC)、染色体分类。
- 医学影像分析:心电图(ECG)、脑电图(EEG)处理,整形外科辅助诊断,癌症检测与分级(如通过显微组织数据实现癌症检测与分级)。
4. 遥感技术
- 应用场景:
- 资源调查:地形地貌分析、湖泊面积计算。
- 图像识别:地图识别。
- 军事领域:军事目标检测。
5. 文档分类
- 应用场景:搜索引擎(如谷歌)的文档检索与分类,按主题(商业、新闻、游戏、健康、教育等)对网页或文档进行自动归类。
6. 预测与决策
- 作用:通过分析历史数据,建立非线性映射模型,实现对未来趋势的预测(如经济指标预测、环境参数预测),为决策提供支持。
7. 机器人学
- 机器人的定义:可编程的多功能操作设备。
- 发展阶段:远程操控机器人→可编程机器人→自适应机器人→智能机器人。
- 神经网络的作用:为机器人的感知(如视觉、触觉)、决策与行动提供智能支持,实现复杂环境下的自适应与自主导航。
8. 其他领域
- 图像与视频处理:电视图像优化、视频监控智能分析(如异常行为检测)。
- 网络数据处理:网络流量分析、异常检测。
- 工业领域:设备故障诊断、生产过程优化。
人工神经网络面临的挑战
挑战1:对大量数据的依赖
- 问题:要训练出性能优异且泛化能力强的神经网络,需要大规模训练数据集(例如ImageNet数据集包含超过100万张图像);在一定程度上,神经网络系统的性能受限于数据集规模。
- 影响:对于数据稀缺的领域(如部分小众医学疾病诊断),神经网络的应用受到限制。
挑战2:数据标签的弱监督问题
- 问题:现实中多数任务的人工数据标注成本高昂,难以获取所有样本的准确、完整标签。
- 弱监督的形式:
- 不完整监督:仅部分训练数据有标签。
- 不确切监督:标签粒度较粗(例如,构建目标定位网络时,标签仅告知图像中存在的类别,而非具体位置)。
- 不精确监督:标签存在噪声(即标签并非完全正确)。
挑战3:过拟合(Overfitting)
- 定义:神经网络在训练数据上优化效果良好,但在未知测试数据上性能大幅下降;本质是网络"死记硬背"训练样本,而非学习到泛化规律。
- 原因:训练策略不当(如模型过于复杂、训练轮次过多)、训练数据量不足或数据分布不均。
挑战4:超参数调优(Hyperparameter Tuning)
- 区别:神经网络的参数(如连接权重)可在训练过程中自动学习,而超参数(如学习率、批大小、网络层数)需在训练前手动设置。
- 问题:超参数的微小调整可能导致模型性能大幅波动,且超参数的选择通常依赖研究者的经验,缺乏统一的理论指导(常用调优方法包括网格搜索、随机搜索)。
挑战5:不透明性(Opacity)
- 问题:现代神经网络的隐藏层包含数百万个节点,本质上是"黑箱"模型------给定输入后,仅能观察到输出,内部的学习与推理过程对人类完全不可见。
- 影响:在对可靠性要求极高的领域(如医疗诊断、自动驾驶),黑箱特性可能导致严重后果(如无法解释错误决策的原因)。
挑战6:灵活性不足
- 问题:当前多数神经网络系统为特定任务设计,即使在原任务上性能优异,也无法直接应用于新任务。
- 本质:此类神经网络属于"弱人工智能"(Weak AI),与具备通用智能的"强人工智能"(Strong AI)差距甚远。
- 案例:阿尔法围棋(AlphaGo)仅能处理围棋对弈任务,无法应用于其他游戏或领域。
人工神经网络的前沿研究方向
前沿1:自监督学习(Self-Supervised Learning)
- 目标:避免对大规模标注数据的依赖。
- 原理:标注数据集需耗费大量人力与时间,自监督学习通过设计合理的"辅助任务"(如预测视频的下一帧、补全文本句子),从海量无标注样本中自动学习判别性特征,有望替代全监督学习。
前沿2:半监督学习(Semi-Supervised Learning)
- 适用场景:现实中常存在"大量无标注数据+少量标注数据"的情况。
- 优势:既解决了全监督学习标注成本高的问题,又克服了无监督学习性能较差的缺陷,通过结合标注与无标注数据提升模型泛化能力。
前沿3:弱监督学习(Weakly Supervised Learning)
- 目标:解决"任务所需标签粒度与实际数据标签粒度不匹配"的问题,同时应对标注数据不完全、不准确等场景,降低高质量标注数据的获取成本,让模型在"不完美标注"环境下依然高效学习。
- 核心类型与原理 :
- 不完全监督(Partial Supervision):标注数据仅为全部数据的一小部分,模型需依托少量标注数据挖掘数据内在规律,进而对未标注数据进行预测。例如在图像分类任务中,仅对10%的图像进行类别标注,模型需基于这些标注图像识别剩余90%未标注图像的类别。常用解决思路包括半监督学习(结合少量标注与大量未标注数据训练)和主动学习(模型主动选择高价值未标注数据请求标注,优化数据利用效率)。
- 不精确监督(Imprecise Supervision):标签粒度较粗,无法精确对应任务所需的细粒度目标。比如在目标定位任务中,仅标注图像"包含猫"这一粗粒度信息,而未明确猫在图像中的具体位置,模型需从粗粒度标签中挖掘细粒度特征。多示例学习是典型解决方法,将一组样本(如一张图像中的多个区域)视为"袋子",通过判断"袋子"是否包含目标样本,间接学习目标的细粒度特征;标签传播算法也可用于此场景,通过迭代更新样本标签分布,实现从粗粒度标签到细粒度标签的映射。
- 不准确监督(Inaccurate Supervision):部分标注数据存在错误(噪声标签),模型需具备"去伪存真"的能力,在排除错误标签干扰的同时学习有效特征。常用策略包括去噪学习(通过设计鲁棒性损失函数或数据筛选机制,降低错误标签对模型训练的影响)和对抗训练(引入对抗样本,增强模型对噪声标签的鲁棒性),例如在文本情感分类任务中,筛选出模型预测置信度低的标注样本,结合人工审核修正错误标签后重新用于训练。
- 典型方法 :
- 数据增强:通过对现有标注数据进行多样化变换(如图像旋转、缩放、翻转,文本同义词替换、随机插入等)生成新样本,丰富训练数据多样性,提升模型对标注噪声的容忍度和泛化能力。
- 自我训练与伪标签生成:初始模型用少量标注数据训练后,对未标注数据进行预测,将高置信度预测结果作为"伪标签",与真实标注数据结合构建新训练集,迭代训练模型以逐步提升性能。例如在语音识别任务中,用初始模型为未标注音频生成伪标签,筛选置信度高于阈值的样本加入训练,扩大数据规模。
- 对比学习融合:构建正样本对(如通过数据增强生成的相似样本)和负样本对(不相似样本),利用对比损失函数拉近正样本距离、拉远负样本距离,让模型在无精确标注的情况下学习数据的判别性表示,为弱监督学习提供更优质的特征基础。
前沿4:迁移学习与领域自适应(Transfer Learning and Domain Adaptation)
- 目标:突破模型在特定领域的局限性,实现知识在不同任务或领域间的迁移,提升模型的泛化能力,解决"新任务数据稀缺"或"源领域与目标领域数据分布差异大"的问题,减少新任务的标注成本与训练难度。
- 原理:依托"不同任务或领域间存在相似性"的特性,将在数据充足的源领域(或已训练完成的任务)中学到的知识(如特征提取能力、模型参数)迁移到数据稀缺或全新的目标领域(或任务)。核心是探索源领域与目标领域的相似性,通过对齐数据分布、调整模型参数等方式,让模型在目标领域快速适应并发挥作用。
- 关键策略 :
- 特征迁移:将在源领域预训练好的模型(如在ImageNet数据集上预训练的卷积神经网络)作为特征提取器,固定其浅层(负责提取通用特征,如边缘、纹理)参数,仅对深层(负责学习领域特异性特征)进行微调,使模型快速适配目标领域任务。例如将预训练的ResNet模型用于医疗影像分类,通过微调顶层网络适应医学影像的独特特征。
- 参数迁移:将源领域模型的参数(尤其是通用层参数)作为目标领域模型的初始参数,在此基础上用目标领域数据继续训练,避免模型从零开始训练导致的收敛慢、易过拟合问题。例如在自然语言处理中,将在大规模通用文本上预训练的BERT模型参数,作为特定领域(如法律文本、医疗文本)文本分类模型的初始参数。
- 领域自适应:针对源领域与目标领域数据分布差异的问题,通过设计特定损失函数(如领域自适应损失)或数据变换方法,对齐两个领域的数据分布。例如在跨域图像识别中,利用对抗学习构建领域鉴别器,让模型学习到对领域无关的通用特征,从而在目标领域取得良好性能。
前沿5:神经架构搜索(Neural Architecture Search, NAS)
- 目标:摆脱对人工经验的依赖,实现神经网络结构的自动化设计,高效找到适配特定任务的高性能网络结构,提升模型设计效率与性能上限,尤其适用于非专家用户或复杂任务的模型构建。
- 原理:将"设计神经网络结构"视为一个优化问题,通过定义"搜索空间""搜索策略"和"评估策略"三大核心组件实现自动化搜索。搜索空间限定候选网络结构的范围(如层类型、连接方式、参数规模);搜索策略(如强化学习、遗传算法、梯度下降)用于在搜索空间中高效探索潜在的优质结构;评估策略则快速判断候选结构的性能,指导搜索方向。
- 优势与发展 :
- 性能优异:自动搜索出的网络结构(如MobileNet、EfficientNet的部分变体)在图像分类、目标检测等任务中,性能可媲美甚至超越人工设计的网络,且能更好地平衡性能与计算成本。
- 效率提升:通过优化搜索策略(如one-shot NAS、分层搜索)和利用硬件加速,大幅降低搜索过程的计算开销,缩短搜索时间,使NAS从"理论可行"走向"工程实用"。例如Google的NASNet通过参数共享机制,在保证搜索效果的同时减少计算资源消耗。
- 任务适配性强:可针对不同任务(如图像分割、自然语言生成)和硬件环境(如移动端、边缘设备)定制网络结构,在满足任务性能需求的同时,兼顾模型大小、推理速度等工程指标。
前沿6:神经网络可解释性(Neural Network Interpretability)
- 目标:打破神经网络"黑箱"特性,揭示模型的决策机制,让模型的预测结果"可理解、可追溯、可信任",提升模型在高风险领域(如医疗、金融、自动驾驶)的适用性,同时为模型优化(如发现偏差、减少漏洞)提供指导。
- 核心方向 :
- 可视化技术:通过直观展示模型内部特征或决策依据,帮助理解模型工作过程。例如类激活映射(Class Activation Mapping, CAM)及其变体(如Grad-CAM),通过可视化模型最后一层卷积层对输入图像的响应区域,明确模型在预测时关注的图像像素,解释"模型为何将图像分类为某一类别";特征图可视化则可展示不同网络层提取的特征,从浅层的边缘、纹理到深层的复杂语义特征,清晰呈现特征的演化过程。
- 敏感性分析:通过改变输入特征的取值,观察模型输出的变化,判断不同特征对模型决策的影响程度。例如在信贷审批模型中,分析"收入""信用记录""负债情况"等特征的微小变化对"是否通过审批"预测结果的影响,明确关键决策因素,排查模型是否存在不合理依赖(如过度依赖某一非关键特征)。
- 因果追踪与可解释结构设计:从因果关系角度探索模型决策的本质原因,而非仅依赖数据相关性。例如通过构建因果图分析输入特征与输出结果的因果链路,排除"虚假相关"特征的干扰;同时,设计具有内在可解释性的网络结构(如模块化网络、可解释Transformer),将模型决策过程拆解为清晰的模块交互,降低解释难度。
- 重要意义:在医疗领域,可解释性可帮助医生验证AI辅助诊断结果的合理性(如明确AI判断"肺部结节为恶性"的依据是结节的大小、边缘不规则性等特征);在金融领域,可解释性有助于监管机构审查模型是否存在歧视(如是否因性别、地域等敏感特征影响信贷决策),保障模型的公平性与合规性。
前沿7:因果推理(Causal Inference)
- 目标:突破传统神经网络"依赖数据相关性"的局限,让模型学习到数据背后的因果关系,提升模型在复杂场景(如数据分布变化、存在混淆变量)下的鲁棒性与决策可靠性,避免模型因"虚假相关"导致的错误预测。
- 原理:基于因果关系理论,通过构建因果图、控制混淆变量、进行干预实验等方式,区分数据中的"因果关系"与"相关关系",让模型学习到影响结果的本质原因。核心是回答"如果改变某一变量,结果会如何变化"的干预问题,而非仅基于历史数据的相关性进行预测。
- 应用与方法 :
- 去偏与鲁棒性提升:在存在混淆变量(如"年龄"同时影响"是否使用某APP"和"购买行为")的数据中,通过因果推理控制混淆变量的影响,让模型学习到"使用APP"与"购买行为"的真实因果关系,避免模型因混淆变量导致的预测偏差。例如在推荐系统中,利用因果推理排除"热门商品"与"用户点击"的虚假相关,精准推荐用户真正感兴趣的商品。
- 结合深度学习:将因果推理融入深度学习框架,设计因果导向的模型结构或损失函数。例如因果表征学习,通过分离数据中的因果特征与非因果特征,让模型基于因果特征进行预测,提升模型在数据分布变化时的泛化能力;又如反事实推理,通过构建"如果未发生某事件"的反事实样本,评估模型决策的合理性,增强模型的可靠性。
前沿8:轻量化神经网络(Lightweight Neural Network)
- 目标:在保证模型性能的前提下,减少模型的参数量、计算量与能耗,实现模型在资源受限设备(如移动端、边缘设备、物联网设备)上的高效部署,满足实时推理、低功耗运行的需求,推动AI技术在终端场景的广泛应用。
- 原理:通过优化网络结构、压缩模型参数、简化计算过程等方式,在"性能"与"资源消耗"之间找到平衡。核心是去除模型中的冗余参数与计算操作,保留关键特征提取与决策能力,使模型适配资源受限的硬件环境。
- 核心技术 :
- 网络量化(Network Quantization):将模型中的高精度参数(如32位浮点数)转换为低精度参数(如8位整数、1位二进制数),减少参数存储量与计算量,同时降低硬件对计算精度的要求。例如将传统32位CNN模型量化为8位模型,参数量与计算量可减少约75%,且性能损失较小,适用于移动端图像识别任务。
- 网络剪枝(Network Pruning):去除模型中冗余的神经元、连接或网络层(如权重绝对值接近零的连接、对模型性能贡献小的神经元),简化网络结构。剪枝可分为结构化剪枝(去除整个通道或层)和非结构化剪枝(去除单个连接),其中结构化剪枝更易在硬件上实现加速,例如剪枝ResNet模型中冗余的卷积通道,在保证精度的同时提升推理速度。
- 模型蒸馏(Model Distillation):以性能优异的复杂模型(教师模型)为基础,训练一个结构简单的小模型(学生模型),让学生模型学习教师模型的输出分布(如软标签)或特征表示,使小模型在结构精简的同时继承教师模型的高性能。例如将复杂的Transformer模型蒸馏为轻量级的MobileBERT模型,使其可在移动端高效完成自然语言处理任务。
- 高效网络结构设计:从结构设计层面提升效率,采用分组卷积、深度可分离卷积、瓶颈结构等创新设计,减少计算量。例如MobileNet系列模型采用深度可分离卷积,将标准卷积拆分为深度卷积和点卷积,大幅降低计算量;EfficientNet通过缩放网络的深度、宽度和分辨率,在提升性能的同时保持计算效率。
前沿9:脉冲神经网络(Spiking Neural Network, SNN)
- 目标:模拟生物神经元的脉冲通信机制,构建更贴近生物大脑的神经网络,实现低功耗、高效处理时序数据的能力,推动类脑智能的发展,同时为神经形态硬件(如类脑芯片)提供适配的模型架构。
- 原理:不同于传统神经网络使用连续激活值传递信息,SNN中的神经元通过积累膜电位,当膜电位超过阈值时发射离散的脉冲(Spike),信息编码于脉冲的时序、频率或发放模式中。这种机制天然契合生物神经系统的工作方式,具有低功耗、强时序数据处理能力的优势。
- 关键挑战与进展 :
- 训练难度大:脉冲的离散性导致传统反向传播算法难以直接应用,需探索适配SNN的训练方法。目前主流思路包括基于脉冲时序依赖可塑性(STDP)的无监督学习(模拟生物神经元的学习机制,通过调整突触权重实现学习)、基于资格迹传播(Eligibility Propagation)的监督学习(记录突触对近期活动的贡献,结合全局误差信号更新权重),以及将传统神经网络转换为SNN(利用预训练的深度神经网络参数初始化SNN,降低训练难度)。
- 应用场景拓展:SNN在时序数据处理(如语音识别、视频分析、运动控制)中表现出天然优势。例如在语音识别任务中,SNN可利用脉冲时序编码语音信号的时间动态特征,实现高效识别;在机器人运动控制中,SNN的低功耗特性使其适用于边缘设备,支持实时步态调整。同时,随着神经形态芯片(如Intel Loihi、IBM TrueNorth)的发展,SNN的硬件适配性不断提升,能效比远超传统GPU,为边缘智能提供新方向。
前沿10:Transformer与通用网络结构统一
- 目标:打破传统神经网络在不同领域(如计算机视觉、自然语言处理、语音识别)的结构壁垒,基于Transformer架构构建通用的神经网络模型,实现"多领域任务统一处理",提升模型的通用性与灵活性,推动AI技术向更通用的方向发展。
- 原理:Transformer的核心是自注意力(Self-Attention)机制,能够捕捉序列数据中不同位置的依赖关系,且具有天然的并行性。这种机制不仅适用于自然语言处理(处理文本序列),通过调整输入形式(如将图像分割为patch序列、将语音转换为特征序列),也可适配计算机视觉、语音识别等领域,为跨领域任务统一处理提供可能。
- 发展与应用 :
- 跨领域适配:在计算机视觉领域,Vision Transformer(ViT)将图像分割为固定大小的patch,视为序列输入Transformer,实现图像分类;Swin Transformer通过引入窗口注意力和层级结构,进一步提升图像局部特征捕捉能力,在目标检测、图像分割等任务中取得优异性能。在语音识别领域,Speech Transformer用Transformer替代传统的循环神经网络(RNN),处理语音时序特征,提升识别精度与并行计算效率。
- 多任务统一模型:基于Transformer构建可处理多领域任务的统一模型,通过共享底层通用特征提取层,针对不同任务设计特定顶层结构,实现"一个模型处理多种任务"。例如Google的PaLM、GPT系列模型,通过大规模多任务预训练,可同时处理文本生成、翻译、问答、图像描述等多种任务,展现出强大的通用能力。
- 结构创新与效率优化:针对Transformer参数量大、计算成本高的问题,研究者通过优化注意力机制(如稀疏注意力、线性注意力)、设计轻量化结构(如MobileViT、DeBERTa)等方式,在保证性能的同时降低资源消耗,推动Transformer在更多场景(如移动端、边缘设备)的应用。