《机器学习数学基础》补充资料:柯西—施瓦茨不等式以及相关证明

《机器学习数学基础》 153 页,针对图 3-4-3,提出了一个问题:"点 A A A 到 W \mathbb{W} W 上的一个点的距离有无穷多个。现在,我们最关心的是其中最短的那个,怎么找?请参阅 3.6 节。"并且,在 3.6 节,使用最小二乘法,找到了点 A A A 为终点的向量在 W \mathbb{W} W 上的投影向量,那么这两个向量的距离就是"最短的那个"。

但是,书中没有证明此结论。

本文中将在介绍柯西---施瓦茨不等式的基础上,证明此上述结论。

柯西-施瓦茨不等式(Cauchy--Schwarz inequality),又称施瓦茨不等式或柯西-布尼亚科夫斯基-施瓦茨不等式(Cauchy--Bunyakovsky--Schwarz inequality)不等式,是以奧古斯丁·路易·柯西(Augustin Louis Cauchy),赫尔曼·阿曼杜斯·施瓦茨(Hermann Amandus Schwarz)和维克托·雅科夫列维奇·布尼亚科夫斯基(Виктор Яковлевич Буняковский)来命名的 [ 1 ] ^{[1]} [1]。

1. 不等式

1.1 定理 1

已知 a 1 , ⋯   , a n , b 1 , ⋯   , b n a_1,\cdots,a_n,b_1,\cdots,b_n a1,⋯,an,b1,⋯,bn 为实数,则:

( ∑ i = 1 n a i b i ) 2 ≤ ( ∑ i = 1 n a i 2 ) ( ∑ i = 1 n b i 2 ) (1.1) \left(\sum_{i=1}^na_ib_i\right)^2\le\left(\sum_{i=1}^na_i^2\right)\left(\sum_{i=1}^nb_i^2\right) \tag{1.1} (i=1∑naibi)2≤(i=1∑nai2)(i=1∑nbi2)(1.1)

等式成立的成分必要条件是 a i = λ b i , ( i = 1 , ⋯   , n ) a_i=\lambda b_i,(i=1,\cdots,n) ai=λbi,(i=1,⋯,n) 。

这是比较常见的柯西不等式形式。

1.2 定理 2

已知 a 1 , ⋯   , a n , b 1 , ⋯   , b n a_1,\cdots,a_n,b_1,\cdots,b_n a1,⋯,an,b1,⋯,bn 为复数,则:

∣ ∑ i = 1 n a i b i ∣ 2 ≤ ( ∑ i = 1 n ∣ a i ∣ 2 ) ( ∑ i = 1 n ∣ b i ∣ 2 ) (1.2) \left|\sum_{i=1}^na_ib_i\right|^2\le\left(\sum_{i=1}^n|a_i|^2\right)\left(\sum_{i=1}^n|b_i|^2\right) \tag{1.2} i=1∑naibi 2≤(i=1∑n∣ai∣2)(i=1∑n∣bi∣2)(1.2)

等式成立的成分必要条件是 a i = λ b i , ( i = 1 , ⋯   , n ) a_i=\lambda b_i,(i=1,\cdots,n) ai=λbi,(i=1,⋯,n) , λ \lambda λ 为一复数。

若令 a = [ a 1 ⋯ a n ] , b = [ b 1 ⋯ b n ] \pmb{a}=\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix},\pmb{b}=\begin{bmatrix}b_1&\cdots&b_n\end{bmatrix} a=[a1⋯an],b=[b1⋯bn] ,则柯西不等式可表示为:

∣ a ⋅ b ∣ ≤ ∥ a ∥ ∥ b ∥ (1.3) |\pmb{a}\cdot\pmb{b}|\le\begin{Vmatrix}\pmb{a}\end{Vmatrix}\begin{Vmatrix}\pmb{b}\end{Vmatrix}\tag{1.3} ∣a⋅b∣≤ a b (1.3)

1.3 定理 3

已知 A = ( a i j ) \pmb{A}=(a_{ij}) A=(aij) 是正定对称矩阵, x 1 , ⋯   , x n ; y 1 , ⋯   , y n x_1,\cdots,x_n;y_1,\cdots,y_n x1,⋯,xn;y1,⋯,yn 为任意实数(或复数),则:

∣ ∑ i , j = 1 n a i j x i y j ∣ ≤ ∑ i , j = 1 n a i j x i x j ∑ i , j = 1 n a i j y i y j (1.4) \left|\sum_{i,j=1}^na_{ij}x_iy_j\right|\le\sqrt{\sum_{i,j=1}^na_{ij}x_ix_j}\sqrt{\sum_{i,j=1}^na_{ij}y_iy_j}\tag{1.4} i,j=1∑naijxiyj ≤i,j=1∑naijxixj i,j=1∑naijyiyj (1.4)

对(1.4)式,可以用向量表示:

  • ζ ⋅ η = x A y = ∑ i , j = 1 n a i j x i y j \pmb{\zeta}\cdot\pmb{\eta}=\pmb{xAy}=\sum_{i,j=1}^na_{ij}x_iy_j ζ⋅η=xAy=∑i,j=1naijxiyj
  • ∥ ζ ∥ 2 = ζ ⋅ ζ = x A x T = ∑ i , j = 1 n a i j x i x j \begin{Vmatrix}\zeta\end{Vmatrix}^2=\pmb{\zeta\cdot\zeta}=\pmb{xAx}^T=\sum_{i,j=1}^na_{ij}x_ix_j ζ 2=ζ⋅ζ=xAxT=∑i,j=1naijxixj
  • ∥ η ∥ 2 = η ⋅ η = y A y T = ∑ i , j = 1 n a i j y i y j \begin{Vmatrix}\eta\end{Vmatrix}^2=\pmb{\eta\cdot\eta}=\pmb{yAy}^T=\sum_{i,j=1}^na_{ij}y_iy_j η 2=η⋅η=yAyT=∑i,j=1naijyiyj

1.4 定理 4

已知 a i , b i ∈ C a_i,b_i\in\mathbb{C} ai,bi∈C ,则:

∣ ∑ i , j = 1 ∞ a i b j ∣ ≤ ( ∑ i = 1 ∞ ∣ a i ∣ 2 ) 1 2 ( ∑ i = 1 ∞ ∣ b i ∣ 2 ) 1 2 (1.5) |\sum_{i,j=1}^{\infty}a_ib_j|\le\left(\sum_{i=1}^{\infty}|a_i|^2\right)^{\frac{1}{2}}\left(\sum_{i=1}^{\infty}|b_i|^2\right)^{\frac{1}{2}} \tag{1.5} ∣i,j=1∑∞aibj∣≤(i=1∑∞∣ai∣2)21(i=1∑∞∣bi∣2)21(1.5)

等式成立的充分必要条件是 a i = λ b i , ( i = 1 , ⋯   , λ ∈ C ) a_i=\lambda b_i,(i=1,\cdots,\lambda\in\mathbb{C}) ai=λbi,(i=1,⋯,λ∈C) 。

将定理 4 推广到积分形式,即为柯西---施瓦茨不等式

1.5 定理 5

已知 f , g f,g f,g 是区间 [ a , b ] [a,b] [a,b] 上的连续函数, f , g ∈ C [ a , b ] f,g\in\mathbb{C}[a,b] f,g∈C[a,b] ,则:

∣ ∫ a b f ( x ) g ( x ) d x ∣ ≤ ∫ a b ∣ f ( x ) ∣ 2 d x ∫ a b ∣ g ( x ) ∣ 2 d x (1.7) \begin{vmatrix}\int_a^bf(x)g(x)dx\end{vmatrix}\le\int_a^b|f(x)|^2dx\int_a^b|g(x)|^2dx\tag{1.7} ∫abf(x)g(x)dx ≤∫ab∣f(x)∣2dx∫ab∣g(x)∣2dx(1.7)

(1.7)式称为柯西-施瓦茨不等式(Cauchy--Schwarz inequality)、施瓦茨不等式或柯西-布尼亚科夫斯基-施瓦茨不等式(Cauchy--Bunyakovsky--Schwarz inequality)。此不等式是乌克兰数学家 Viktor Yakovlerich Bunyakovsky(1804-1889)与德国数学家(原籍波兰)KarlHerman Amandus Schwarz (1843-1921),分别于1861年和1885年发现。虽然布尼亚克夫斯基比施瓦茨先发现了这个不等式,而在很多数学教材中,常常把他的名字忽略------恐怕不是因为他名字太长,更可能的原因是 19 世纪,数学研究的中心在德国、法国,不在这个中心的人所作出的发现,就很难引起重视。这种现象在当今也难免。

1.6 定理 6

已知 a 1 , ⋯   , a n ; b 1 , ⋯   , b n a_1,\cdots,a_n;b_1,\cdots,b_n a1,⋯,an;b1,⋯,bn 为任意复数,且 p , q ≥ 1 , 1 p + 1 q = 1 p,q\ge1,\frac{1}{p}+\frac{1}{q}=1 p,q≥1,p1+q1=1 ,则:

∣ ∑ i = 1 n a i b i ∣ ≤ ( ∑ i = 1 n ∣ a i ∣ p ) 1 p ( ∑ i = 1 n ∣ b i ∣ q ) 1 q (1.9) |\sum_{i=1}^{n}a_ib_i|\le\left(\sum_{i=1}^{n}|a_i|^p\right)^{\frac{1}{p}}\left(\sum_{i=1}^{n}|b_i|^q\right)^{\frac{1}{q}} \tag{1.9} ∣i=1∑naibi∣≤(i=1∑n∣ai∣p)p1(i=1∑n∣bi∣q)q1(1.9)

(1.9)式称为赫尔德不等式 (H ̈older不等式),如果推广到积分形式,就是下面的定理7。

1.7 定理 7

已知 f , g ∈ C [ a , b ] , p , q ≥ 1 , 1 p + 1 q = 1 f,g\in\mathbb{C}[a,b],p,q\ge1,\frac{1}{p}+\frac{1}{q}=1 f,g∈C[a,b],p,q≥1,p1+q1=1 ,则:

∣ ∫ a b f ( x ) g ( x ) d x ∣ ≤ ( ∫ a b ∣ f ( x ) ∣ p d x ) 1 p ( ∫ a b ∣ g ( x ) ∣ q d x ) 1 q (1.10) \begin{vmatrix}\int_a^bf(x)g(x)dx\end{vmatrix}\le\left(\int_a^b|f(x)|^pdx\right)^{\frac{1}{p}}\left(\int_a^b|g(x)|^qdx\right)^{\frac{1}{q}}\tag{1.10} ∫abf(x)g(x)dx ≤(∫ab∣f(x)∣pdx)p1(∫ab∣g(x)∣qdx)q1(1.10)

还可以写成更一般的形式,定理8所示。

1.8 定理 8

已知 f 1 , ⋯   , f n ∈ C [ a , b ] f_1,\cdots,f_n\in\mathbb{C}[a,b] f1,⋯,fn∈C[a,b] ,且 1 p 1 + 1 p 2 + ⋯ + 1 p n = 1 , p i ≥ 1 \frac{1}{p_1}+\frac{1}{p_2}+\cdots+\frac{1}{p_n}=1,p_i\ge1 p11+p21+⋯+pn1=1,pi≥1 ,则:

∣ ∫ a b f 1 ( x ) f 2 ( x ) ⋯ f n ( x ) d x ∣ ≤ ( ∫ a b ∣ f 1 ( x ) ∣ p 1 d x ) 1 p 1 ⋯ ( ∫ a b ∣ f n ( x ) ∣ p n d x ) 1 p n (1.11) \begin{vmatrix}\int_a^bf_1(x)f_2(x)\cdots f_n(x)dx\end{vmatrix}\le\left(\int_a^b|f_1(x)|^{p_1}dx\right)^{\frac{1}{p_1}}\cdots\left(\int_a^b|f_n(x)|^{p_n}dx\right)^{\frac{1}{p_n}}\tag{1.11} ∫abf1(x)f2(x)⋯fn(x)dx ≤(∫ab∣f1(x)∣p1dx)p11⋯(∫ab∣fn(x)∣pndx)pn1(1.11)

德国数学家赫尔德(Otto Lud-wig H ̈older (1859-1937))在1885年研究傅里叶技术收敛性问题时,发现了上述不等式。

赫尔德不等式,也称为赫尔德---里斯不等式(H ̈older-Riesz)。

当 p = q = 2 p=q=2 p=q=2 ,赫尔德不等式就退化为柯西---施瓦茨不等式。

2. 余弦定理

对柯西---施瓦茨不等式的最直接理解,可以通过余弦定理,如图所示:

由余弦定理,得:

∣ a ∣ 2 + ∣ b ∣ 2 − ∣ a − b ∣ 2 = 2 ∣ a ∣ ∣ b ∣ cos ⁡ θ (2.1) |\pmb{a}|^2+|\pmb{b}|^2-|\pmb{a}-\pmb{b}|^2=2|\pmb{a}||\pmb{b}|\cos\theta \tag{2.1} ∣a∣2+∣b∣2−∣a−b∣2=2∣a∣∣b∣cosθ(2.1)

所以: a ⋅ b = ∣ a ∣ ∣ b ∣ cos ⁡ θ \pmb{a}\cdot\pmb{b}=|\pmb{a}||\pmb{b}|\cos\theta a⋅b=∣a∣∣b∣cosθ

因为: ∣ cos ⁡ θ ∣ ≤ 1 |\cos\theta|\le1 ∣cosθ∣≤1 ,可得:

∣ a ⋅ b ∣ ≤ ∣ a ∣ ∣ b ∣ (2.2) |\pmb{a}\cdot\pmb{b}|\le|\pmb{a}||\pmb{b}|\tag{2.2} ∣a⋅b∣≤∣a∣∣b∣(2.2)

亦即得到了(1.3)式。

3. 柯西---施瓦茨不等式的证明

3.1 判别式

这是一种最常见的证明方法。

向量 a , b \pmb{a},\pmb{b} a,b 不平行,所以: c = b − λ a , λ ∈ R \pmb{c}=\pmb{b}-\lambda\pmb{a},\lambda\in\mathbb{R} c=b−λa,λ∈R 。

计算 c \pmb{c} c 的长度:

∣ c ∣ 2 = c ⋅ c = ( b − λ a ) ⋅ ( b − λ a ) = b ⋅ b − 2 a ⋅ b λ + a ⋅ a λ 2 = ∣ a ∣ 2 λ 2 − 2 a ⋅ b λ + ∣ b ∣ 2 (3.1) \begin{split}|\pmb{c}|^2&=\pmb{c\cdot c}=(\pmb{b}-\lambda\pmb{a})\cdot(\pmb{b}-\lambda\pmb{a})\\&=\pmb{b\cdot b}-2\pmb{a\cdot b}\lambda+\pmb{a\cdot a}\lambda^2\\&=|\pmb{a}|^2\lambda^2-2\pmb{a}\cdot\pmb{b}\lambda+|\pmb{b}|^2\end{split} \tag{3.1} ∣c∣2=c⋅c=(b−λa)⋅(b−λa)=b⋅b−2a⋅bλ+a⋅aλ2=∣a∣2λ2−2a⋅bλ+∣b∣2(3.1)

将(3.1)式视为 λ \lambda λ 的一元二次方程。由于 ∣ c ∣ 2 ≥ 0 |\pmb{c}|^2\ge0 ∣c∣2≥0 ,且 ∣ a ∣ 2 ≥ 0 |\pmb{a}|^2\ge0 ∣a∣2≥0 。所以(3.1)式中的二次函数是开口向上的抛物线,且与横轴无交点( ∣ c ∣ 2 = 0 |\pmb{c}|^2=0 ∣c∣2=0 是极限),即 λ \lambda λ 没有实根,所以判别式小于等于 0 0 0 。

Δ = ( 2 a ⋅ b ) 2 − 4 ∣ a ∣ 2 ∣ b ∣ 2 ≤ 0 \Delta=(2\pmb{a\cdot b})^2-4|\pmb{a}|^2|\pmb{b}|^2\le0 Δ=(2a⋅b)2−4∣a∣2∣b∣2≤0

所以: ∣ a ⋅ b ∣ ≤ ∣ a ∣ ∣ b ∣ |\pmb{a}\cdot\pmb{b}|\le|\pmb{a}||\pmb{b}| ∣a⋅b∣≤∣a∣∣b∣

3.2 投影------最短距离

前述证明中,避免了余弦定理中的角度,使用了向量的点积,对任意维的向量都适用。

由前述假设,可得 λ \lambda λ :

λ = a ⋅ b ∣ a ∣ 2 , c = b − λ a = b − a ⋅ b ∣ a ∣ 2 a (3.2) \lambda=\frac{\pmb{a\cdot b}}{|\pmb{a}|^2}, \quad\pmb{c}=\pmb{b}-\lambda\pmb{a}=\pmb{b}-\frac{\pmb{a\cdot b}}{|\pmb{a}|^2}\pmb{a} \tag{3.2} λ=∣a∣2a⋅b,c=b−λa=b−∣a∣2a⋅ba(3.2)

将(3.2)式代入到(3.1)式,则:

0 ≤ ∣ c ∣ 2 = ∣ a ∣ 2 ( a ⋅ b ∣ a ∣ 2 ) 2 − 2 a ⋅ b ( a ⋅ b ∣ a ∣ 2 ) + ∣ b ∣ 2 (3.3) 0\le|\pmb{c}|^2=|\pmb{a}|^2\left(\frac{\pmb{a\cdot b}}{|\pmb{a}|^2}\right)^2-2\pmb{a\cdot b}\left(\frac{\pmb{a\cdot b}}{|\pmb{a}|^2}\right)+|\pmb{b}|^2 \tag{3.3} 0≤∣c∣2=∣a∣2(∣a∣2a⋅b)2−2a⋅b(∣a∣2a⋅b)+∣b∣2(3.3)

整理得: ( a ⋅ b ) 2 ≤ ∣ a ∣ 2 ∣ b ∣ 2 (\pmb{a\cdot b})^2\le|\pmb{a}|^2|\pmb{b}|^2 (a⋅b)2≤∣a∣2∣b∣2

即得到(1.3)式。

如何理解(3.2)式中的 λ \lambda λ ?

a ⋅ c = a ⋅ ( b − λ a ) = a ⋅ b − λ ∣ a ∣ 2 \pmb{a\cdot c} = \pmb{a}\cdot(\pmb{b}-\lambda\pmb{a})=\pmb{a\cdot b}-\lambda|\pmb{a}|^2 a⋅c=a⋅(b−λa)=a⋅b−λ∣a∣2

因此,可以有如下关系:

a ⋅ c = 0 ⟺ a ⊥ c ⟺ λ = a ⋅ b ∣ a ∣ 2 \pmb{a\cdot c}=0\quad\Longleftrightarrow\quad \pmb{a}\bot\pmb{c} \quad\Longleftrightarrow\quad \lambda=\frac{\pmb{a\cdot b}}{|\pmb{a}|^2} a⋅c=0⟺a⊥c⟺λ=∣a∣2a⋅b

由此可知, λ \lambda λ 的选择,恰好是能够让 λ a \lambda\pmb{a} λa 是 b \pmb{b} b 在 a \pmb{a} a 上的投影, ∣ c ∣ |\pmb{c}| ∣c∣ 则是 b \pmb{b} b 至 a \pmb{a} a 的最短距离。其关系如下图所示:

λ \lambda λ 还称为拉格朗日乘子(Largrange multiplier)。

参考文献

[1]. Wikipedia: Cauchy-Schwarz inequality

[2]. 齐伟. 机器学习数学基础[M]. 北京:电子工业出版社,2023.

相关推荐
望云山1902 分钟前
第二章:12.4 学习曲线
人工智能·深度学习·机器学习
望云山1907 分钟前
第二章:12.1 诊断偏差和方差
python·深度学习·机器学习
tilblackout8 分钟前
机器学习详解(14):模型的保存和部署实例
人工智能·机器学习
电子科技圈19 分钟前
XMOS的多项音频技术创新将大模型与边缘AI应用密切联系形成生态化合
人工智能·mcu·物联网·设计模式·音视频·语音识别·iot
钡铼技术物联网关41 分钟前
从 X86 到 ARM :工控机迁移中的核心问题剖析
大数据·linux·arm开发·人工智能·自动化
苦藤新鸡1 小时前
cv2.Sobel
深度学习·机器学习·计算机视觉
虎鲸不是鱼1 小时前
Win10环境借助DockerDesktop部署Open web UI集成DeepSeek
人工智能·ai·chatgpt·agent·deep seek
奋进小青1 小时前
机器学习随机森林算法——分类问题案例解析(sklearn)
人工智能·深度学习
ZhuBin3651 小时前
2100年芜湖人的一天:张明的生活剪影
人工智能·机器人
AI服务老曹2 小时前
国产化人工智能“产学 研用”一体化创新模式的智慧快消开源了
运维·人工智能·安全·开源