通用近似原理及证明-为什么神经网络可以拟合任意函数

​ 通用近似定理(Universal Approximation Theorem)表明:

​ 一个至少有一个隐藏层的神经网络【输入层-隐藏层-输出层】,同时要求激活函数有挤压性质,如 Sigmoid 函数、ReLU 函数,且输出层是线性的。这样的神经网络在隐藏层神经元足够多的情况下,能以任意的精度去近似任何连续函数。

证明:

Step1. 问题定义:设F是一个定义在n维单位立方体 [ 0 , 1 ] n [0,1]^n [0,1]n上的连续函数族, C ( [ 0 , 1 ] n ) C([0,1]^n) C([0,1]n)表示上的连续函数空间,对于 f ∈ F f \in F f∈F,我们希望用一个神经网络来逼近这个函数。

Step2. 构造单层前馈神经网络:输入 x = ( x 1 , x 2 , ⋯   , x n ) ∈ [ 0 , 1 ] n x = (x_1, x_2, \cdots, x_n) \in [0, 1]^n x=(x1,x2,⋯,xn)∈[0,1]n,输出为y,隐藏层有m个神经元,激活函数为 σ \sigma σ,输出层为线性函数y, w i w_i wi是输出权重, v i , j v_{i,j} vi,j是输入权重, b i b_i bi是偏置,则输出函数可表示为,其实 w i w_i wi是我们的要学习的参数
y = ∑ i = 1 m w i σ ( ∑ j = 1 n v i j x j + b i ) y = \sum_{i = 1}^{m} w_{i} \sigma \left( \sum_{j = 1}^{n} v_{ij} x_{j}+b_{i} \right) y=i=1∑mwiσ(j=1∑nvijxj+bi)

Step3. 构造损失函数:
E = ∫ [ 0 , 1 ] n ( y − f ( x ) ) 2 d x E = \int_{[0,1]^n} (y - f(x))^2 dx E=∫[0,1]n(y−f(x))2dx

Step4. Weierstrass 逼近定理表明对于任意给定的在闭区间上连续的函数,可以用 多项式函数 来逼近。由于激活函数 σ \sigma σ是连续的, ∀ ϵ > 0 , ∃ p ( x ) , s.t. ∣ σ ( x ) − p ( x ) ∣ < ϵ , ∀ x ∈ R \forall \epsilon > 0, \exists p(x) \text{ }, \text{ s.t. }|\sigma(x)-p(x)|<\epsilon, \forall x\in\mathbb{R} ∀ϵ>0,∃p(x) , s.t. ∣σ(x)−p(x)∣<ϵ,∀x∈R

​ 进而化简误差函数和目标函数:
y = ∑ i = 1 m w i p ( ∑ j = 1 n v i j x j + b i ) E = ∫ [ 0 , 1 ] n ( ∑ i = 1 m w i p ( ∑ j = 1 n v i j x j + b i ) − f ( x ) ) 2 d x y = \sum_{i = 1}^{m} w_{i}p(\sum_{j = 1}^{n} v_{ij}x_{j}+b_{i}) \\ E = \int_{[0,1]^n} \left( \sum_{i = 1}^{m} w_{i}p \left( \sum_{j = 1}^{n} v_{ij}x_{j}+b_{i} \right) - f(x) \right)^2 dx y=i=1∑mwip(j=1∑nvijxj+bi)E=∫[0,1]n(i=1∑mwip(j=1∑nvijxj+bi)−f(x))2dx

Step5. 由于 f f f是连续函数, p p p是多项式函数,所以函数 ∑ i = 1 m w i p ( ∑ j = 1 n v i j x j + b i ) − f ( x ) \sum_{i = 1}^{m} w_{i}p\left(\sum_{j = 1}^{n} v_{ij}x_{j}+b_{i}\right)-f(x) ∑i=1mwip(∑j=1nvijxj+bi)−f(x)是连续函数。根据连续函数在闭区间上的性质(Weierstrass逼近定理),对于任意的 ϵ > 0 \epsilon > 0 ϵ>0,存在一个正数 M M M,使得对于所有的 x ∈ [ 0 , 1 ] n x\in [0, 1]^{n} x∈[0,1]n
∣ ∑ i = 1 m w i p ( ∑ j = 1 n v i j x j + b i ) − f ( x ) ∣ < ϵ 2 \left|\sum_{i = 1}^{m} w_{i}p\left(\sum_{j = 1}^{n} v_{ij}x_{j}+b_{i}\right)-f(x)\right| < \frac{\epsilon}{2} i=1∑mwip(j=1∑nvijxj+bi)−f(x) <2ϵ

​ 绝对值小于,则去绝对值号可得到 ∫ [ 0 , 1 ] n ( f ( x ) − f ( x ′ ) )   d x < ϵ 2 \int_{[0,1]^n} (f(x) - f(x')) \, dx < \frac{\epsilon}{2} ∫[0,1]n(f(x)−f(x′))dx<2ϵ 得证。其实本质就是根据微分法将定义域区间划分为若干的小立方体,那么在每个小立方体上都可以用一个多项式函数 p i p_i pi来逼近 f ( x ) f(x) f(x)在该小立方体的上取值,将这些多项式函数组合即可得到y。

Step6. 最终可以使得对于所有的 x ∈ [ 0 , 1 ] n x \in [0, 1]^n x∈[0,1]n,有 ∣ y − f ( x ) ∣ < ϵ \vert y - f(x) \vert < \epsilon ∣y−f(x)∣<ϵ,其中 ϵ \epsilon ϵ是一个任意小的正数,表示逼近的精度。得证神经网络可以以任意精度逼近任意非线性函数。

相关推荐
正脉科工 CAE仿真15 分钟前
抗震计算 | 基于随机振动理论的结构地震响应计算
人工智能
看到我,请让我去学习17 分钟前
OpenCV编程- (图像基础处理:噪声、滤波、直方图与边缘检测)
c语言·c++·人工智能·opencv·计算机视觉
码字的字节19 分钟前
深度解析Computer-Using Agent:AI如何像人类一样操作计算机
人工智能·computer-using·ai操作计算机·cua
说私域1 小时前
互联网生态下赢家群体的崛起与“开源AI智能名片链动2+1模式S2B2C商城小程序“的赋能效应
人工智能·小程序·开源
董厂长5 小时前
langchain :记忆组件混淆概念澄清 & 创建Conversational ReAct后显示指定 记忆组件
人工智能·深度学习·langchain·llm
G皮T8 小时前
【人工智能】ChatGPT、DeepSeek-R1、DeepSeek-V3 辨析
人工智能·chatgpt·llm·大语言模型·deepseek·deepseek-v3·deepseek-r1
九年义务漏网鲨鱼8 小时前
【大模型学习 | MINIGPT-4原理】
人工智能·深度学习·学习·语言模型·多模态
元宇宙时间8 小时前
Playfun即将开启大型Web3线上活动,打造沉浸式GameFi体验生态
人工智能·去中心化·区块链
开发者工具分享9 小时前
文本音频违规识别工具排行榜(12选)
人工智能·音视频
产品经理独孤虾9 小时前
人工智能大模型如何助力电商产品经理打造高效的商品工业属性画像
人工智能·机器学习·ai·大模型·产品经理·商品画像·商品工业属性