随机矩阵投影长度保持引理及其证明

原论文中的引理 2 \textbf{2} 2

1. \textbf{1. } 1. 引理 1 \textbf{1} 1(前提之一)

1.1. \textbf{1.1. } 1.1. 引理 1 \textbf{1} 1的内容

👉前提: X ∼ N ( 0 , σ ) X\sim{}N(0,\sigma) X∼N(0,σ)即 f ( x ) = 1 2 π σ e -- x 2 2 σ 2 f(x)\text{=}\cfrac{1}{\sqrt{2\pi}\sigma}e^{--\frac{x^{2}}{2\sigma^{2}}} f(x)=2π σ1e--2σ2x2,且 ∀ α < 1 2 σ 2 \forall{}\alpha{}\text{<}\cfrac{1}{2\sigma^{2}} ∀α<2σ21

👉结论: E e α X 2 = 1 1 -- 2 α σ 2 \mathrm{E}\lefte\^{\\alpha{}X\^{2}}\\right\text{=}\cfrac{1}{\sqrt{1--2\alpha{}\sigma^{2}}} EeαX2=1--2ασ2 1

2. \textbf{2. } 2. 引理 1 \textbf{1} 1的证明

↪ E e α X 2 = ∫ -- ∞ ∞ e α x 2 f ( x ) d x = ∫ -- ∞ ∞ e α x 2 ⋅ 1 2 π σ e -- x 2 2 σ 2 d x = ∫ -- ∞ ∞ 1 2 π σ e -- x 2 2 σ 2 ( 1 -- 2 α σ 2 ) d x \displaystyle{}\mathrm{E}\lefte\^{\\alpha{}X\^2}\\right\text{=}\int_{--\infty}^{\infty}e^{\alpha{}x^2}f(x)dx\text{=}\int_{--\infty}^{\infty} e^{\alpha x^2} \cdot \frac{1}{\sqrt{2 \pi} \sigma} e^{--\frac{x^2}{2 \sigma^2}} d x\text{=}\int_{--\infty}^{\infty} \frac{1}{\sqrt{2 \pi} \sigma} e^{--\frac{x^2}{2 \sigma^2}\left(1--2 \alpha \sigma^2\right)} d x EeαX2=∫--∞∞eαx2f(x)dx=∫--∞∞eαx2⋅2π σ1e--2σ2x2dx=∫--∞∞2π σ1e--2σ2x2(1--2ασ2)dx

↪令 σ ′ = σ 1 -- 2 α σ 2 \sigma^{\prime}=\cfrac{\sigma}{\sqrt{1--2 \alpha \sigma^2}} σ′=1--2ασ2 σ,其中必定要求 1 -- 2 α σ 2 >0 1--2 \alpha \sigma^2\text{>0} 1--2ασ2>0即 α < 1 2 σ 2 \alpha{}\text{<}\cfrac{1}{2\sigma^{2}} α<2σ21

↪ E e α X 2 = ∫ -- ∞ ∞ 1 -- 2 α σ 2 2 π σ 1 -- 2 α σ 2 e -- x 2 2 σ 2 ( 1 -- 2 α σ 2 ) d x = 1 1 -- 2 α σ 2 ∫ − ∞ ∞ 1 2 π σ ′ e − x 2 2 σ ′ 2 d x \displaystyle{}\mathrm{E}\lefte\^{\\alpha X\^2}\\right\text{=}\int_{--\infty}^{\infty} \cfrac{\sqrt{1--2 \alpha \sigma^2}}{\sqrt{2 \pi} \sigma \sqrt{1--2 \alpha \sigma^2}} e^{--\frac{x^2}{2 \sigma^2}\left(1--2 \alpha \sigma^2\right)} d x\text{=}\cfrac{1}{\sqrt{1--2\alpha{}\sigma^{2}}}\int_{-\infty}^{\infty} \cfrac{1}{\sqrt{2 \pi} \sigma^{\prime}} e^{-\frac{x^2}{2 \sigma^{\prime 2}}} d x EeαX2=∫--∞∞2π σ1--2ασ2 1--2ασ2 e--2σ2x2(1--2ασ2)dx=1--2ασ2 1∫−∞∞2π σ′1e−2σ′2x2dx

↪考虑到 ∫ − ∞ ∞ 1 2 π σ ′ e − x 2 2 σ ′ 2 d x = 1 \displaystyle{}\int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi} \sigma^{\prime}} e^{-\frac{x^2}{2 \sigma^{\prime 2}}} d x\text{=}1 ∫−∞∞2π σ′1e−2σ′2x2dx=1,所以 E e α X 2 = 1 1 -- 2 α σ 2 \mathrm{E}\lefte\^{\\alpha{}X\^{2}}\\right\text{=}\cfrac{1}{\sqrt{1--2\alpha{}\sigma^{2}}} EeαX2=1--2ασ2 1

2. \textbf{2. } 2. 引理 2 \textbf{2} 2

2.1. \textbf{2.1. } 2.1. 引理 2 \textbf{2} 2的内容

👉前提 1 1 1:设一个随机矩阵 S = ( s i j ) ∈ R t × d S\text{=}(s_{ij})\text{∈}\mathbb{R}^{t\text{×}d} S=(sij)∈Rt×d,每个元素 s i j s_{ij} sij独立同分布于 N ( 0 , 1 ) N(0,1) N(0,1)

👉前提 2 2 2:对任意固定向量 u ∈ R d × 1 u\text{∈}\mathbb{R}^{d\text{×}1} u∈Rd×1(即 u ′ u^{\prime} u′不随机),定义 u ′ = 1 t ( S u ) u^{\prime}\text{=}\cfrac{1}{\sqrt{t}}(Su) u′=t 1(Su)

👉:结论 1 1 1: E ∥ u ′ ∥ 2 = ∥ u ∥ 2 \text{E}\left\\left\\\|u\^{\\prime}\\right\\\|\^2\\right\text{=}\|u\|^2 E∥u′∥2=∥u∥2,即 ∥ u ′ ∥ 2 \left\|u^{\prime}\right\|^2 ∥u′∥2和 ∥ u ∥ 2 \|u\|^2 ∥u∥2在统计学上是相等的

👉结论 2 2 2: Pr ∥ u ′ ∥ 2 ∉ ( 1 ± ε ) ∥ u ∥ 2 ≤ 2 e -- ( ε 2 -- ε 3 ) t 4 \text{Pr}\left\\left\\\|u\^{\\prime}\\right\\\|\^2\\notin{}(1\\text{±}\\varepsilon{})\\\|u\\\|\^2\\right\text{≤}2e^{--\left(\varepsilon{}^2--\varepsilon{}^3\right)\frac{t}{4}} Pr∥u′∥2∈/(1±ε)∥u∥2≤2e--(ε2--ε3)4t,即 ∥ u ′ ∥ 2 \left\|u^{\prime}\right\|^2 ∥u′∥2和 ∥ u ∥ 2 \|u\|^2 ∥u∥2在实际值上偏差极小且可控

2.2. \textbf{2.2. } 2.2. 引理 2 \textbf{2} 2的证明

2.2.1. \textbf{2.2.1. } 2.2.1. 对结论 1 \textbf{1} 1的证明

↪对于 s i j ∼ N ( 0 , 1 ) s_{ij}\sim{}N(0,1) sij∼N(0,1),则有 S ⋅ j u = ∑ i = 1 d s i j u i ∼ N ( 0 , ∥ u ∥ 2 ) \displaystyle{}S_{\cdot{}j}u\text{=}\sum_{i=1}^{d}s_{ij}u_i\sim{}N(0,\|u\|^2) S⋅ju=i=1∑dsijui∼N(0,∥u∥2)

  • 均值 E S ⋅ j u =E ∑ i = 1 d s i j u i = ∑ i = 1 d u i E s i j = 0 \displaystyle{}\text{E}\leftS_{\\cdot{}j}u\\right\text{=}\text{E}\left\\sum_{i=1}\^ds_{ij}u_i\\right\text{=}\sum_{i=1}^du_i\text{E}\lefts_{ij}\\right\text{=}0 ES⋅ju=Ei=1∑dsijui=i=1∑duiEsij=0
  • 方差 Var S ⋅ j u =Var ∑ i = 1 d s i j u i = ∑ i = 1 d Var s i j u i = ∑ i = 1 d u i 2 Var s i j = ∑ i = 1 d u i 2 = ∥ u ∥ 2 \displaystyle{}\text{Var}\leftS_{\\cdot{}j}u\\right\text{=}\text{Var}\left\\sum_{i=1}\^ds_{ij}u_i\\right\text{=}\sum_{i=1}^d\text{Var}s_{ij}u_i\text{=}\sum_{i=1}^du_i^2\text{Var}s_{ij}\text{=}\sum_{i=1}^du_i^2\text{=}\|u\|^2 VarS⋅ju=Vari=1∑dsijui=i=1∑dVarsijui=i=1∑dui2Varsij=i=1∑dui2=∥u∥2

↪正态分布性质 E X 2 = σ 2 \text{E}X\^2\text{=}\sigma{}^2 EX2=σ2,所以 E ( S ⋅ j u ) 2 = ∥ u ∥ 2 \text{E}\left\\left(S_{\\cdot{}j}u\\right)\^2\\right\text{=}\|u\|^2 E(S⋅ju)2=∥u∥2

↪所以 E ∥ S u ∥ 2 =E ∑ j = 1 t ( S ⋅ j u ) 2 = ∑ j = 1 t E ( S ⋅ j u ) 2 = t ∥ u ∥ 2 \displaystyle{}\text{E}\left\\\|Su\\\|\^2\\right\text{=}\text{E}\left\\sum_{j\\text{=}1}\^t\\left(S_{\\cdot{}j}u\\right)\^2\\right\text{=}\sum_{j=1}^t\text{E}\left\\left(S_{\\cdot{}j}u\\right)\^2\\right\text{=}t\|u\|^2 E∥Su∥2=Ej=1∑t(S⋅ju)2=j=1∑tE(S⋅ju)2=t∥u∥2

↪根据 u ′ = 1 t ( S u ) u^{\prime}\text{=}\cfrac{1}{\sqrt{t}}(Su) u′=t 1(Su),得到 ∥ u ′ ∥ 2 = 1 t ∥ S u ∥ 2 \left\|u^{\prime}\right\|^2\text{=}\cfrac{1}{t}\|Su\|^2 ∥u′∥2=t1∥Su∥2

↪所以 E ∥ u ′ ∥ 2 =E 1 t ∥ S u ∥ 2 = 1 t E ∥ S u ∥ 2 = 1 t ( t ∥ u ∥ 2 ) = ∥ u ∥ 2 \displaystyle{}\text{E}\left\\left\\\|u\^{\\prime}\\right\\\|\^2\\right\text{=}\text{E}\left\\cfrac{1}{t}\\\|Su\\\|\^2\\right\text{=}\cfrac{1}{t}\text{E}\left\\\|Su\\\|\^2\\right\text{=}\cfrac{1}{t}\left(t\|u\|^2\right)\text{=}\|u\|^2 E∥u′∥2=Et1∥Su∥2=t1E∥Su∥2=t1(t∥u∥2)=∥u∥2

2.2.2. \textbf{2.2.2. } 2.2.2. 对结论 2 \textbf{2} 2的证明(正半边)

↪考虑到 S ⋅ j u ∼ N ( 0 , ∥ u ∥ 2 ) \displaystyle{}S_{\cdot{}j}u\sim{}N(0,\|u\|^2) S⋅ju∼N(0,∥u∥2),故将其归一化为 X j = S ⋅ j u ∥ u ∥ ∼ N ( 0 , 1 ) X_j\text{=}\cfrac{S_{\cdot{}j}u}{\|u\|}\sim{}N(0,1) Xj=∥u∥S⋅ju∼N(0,1)

↪由此定义 X = ∑ j = 1 t X j 2 \displaystyle{}X\text{=}\sum_{j=1}^tX_j^2 X=j=1∑tXj2(自由度为 t t t的 χ 2 \chi^2 χ2分布),由此 ∥ u ′ ∥ 2 = 1 t ∥ S u ∥ 2 = 1 t ∑ j = 1 t ( S ⋅ j u ) 2 = ∥ u ∥ 2 1 t ∑ j = 1 t X j 2 = 1 t ∥ u ∥ 2 X \displaystyle{}\left\|u^{\prime}\right\|^2\text{=}\cfrac{1}{t}\|Su\|^2\text{=}\cfrac{1}{t}\sum_{j=1}^t\left(S_{\cdot{}j}u\right)^2\text{=}\|u\|^2\cfrac{1}{t}\sum_{j=1}^tX_j^2\text{=}\cfrac{1}{t}\|u\|^2X ∥u′∥2=t1∥Su∥2=t1j=1∑t(S⋅ju)2=∥u∥2t1j=1∑tXj2=t1∥u∥2X

↪由此 Pr ∥ u ′ ∥ 2 ≥ ( 1 + ε ) ∥ u ∥ 2 =Pr X ≥ ( 1 + ε ) t \text{Pr}\left\\left\\\|u\^{\\prime}\\right\\\|\^2\\text{≥}(1\\text{+}\\varepsilon)\\\|u\\\|\^2\\right\text{=}\text{Pr}\leftX\\text{≥}(1\\text{+}\\varepsilon{})t\\right Pr∥u′∥2≥(1+ε)∥u∥2=PrX≥(1+ε)t

↪考虑马可夫不等式的指数形式: Pr X ≥ ( 1 + ε ) t =Pr e α X ≥ e α ( 1 + ε ) t ≤ E e α X e α ( 1 + ε ) t \text{Pr}\leftX\\text{≥}(1\\text{+}\\varepsilon{})t\\right\text{=}\text{Pr}\lefte\^{\\alpha{}X}\\text{≥}e\^{\\alpha{}(1\\text{+}\\varepsilon{})t}\\right\text{≤}\cfrac{\text{E}\lefte\^{\\alpha{}X}\\right}{e^{\alpha{}(1\text{+}\varepsilon{})t}} PrX≥(1+ε)t=PreαX≥eα(1+ε)t≤eα(1+ε)tEeαX

  • 考虑到 X = ∑ j = 1 t X j 2 \displaystyle{}X\text{=}\sum_{j=1}^tX_j^2 X=j=1∑tXj2,所以 E e α X =E e α ( X 1 2 + X 2 2 + ⋯ + X t 2 ) =E e α X 1 2 e α X 2 2 ⋯ e α X t 2 =E ∏ j = 1 t e α X j 2 = ∏ j = 1 t E e α X j 2 \displaystyle{}\text{E}\lefte\^{\\alpha{}X}\\right\text{=}\text{E}\lefte\^{\\alpha{}(X\^2_1\\text{+}X\^2_2\\text{+}\\cdots\\text{+}X\^2_t)}\\right\text{=}\text{E}\lefte\^{\\alpha{}X\^2_1}e\^{\\alpha{}X\^2_2}\\cdots{}e\^{\\alpha{}X\^2_t}\\right\text{=}\text{E}\left\\prod_{j=1}\^te\^{\\alpha{}X\^2_j}\\right\text{=}\prod_{j=1}^t\text{E}\lefte\^{\\alpha{}X_j\^2}\\right EeαX=Eeα(X12+X22+⋯+Xt2)=EeαX12eαX22⋯eαXt2=Ej=1∏teαXj2=j=1∏tEeαXj2
  • 在引理 1 1 1中已经证明 E e α X j 2 = 1 1 -- 2 α σ 2 ( α < 1 2 σ 2 ) \text{E}\lefte\^{\\alpha{}X_j\^{2}}\\right\text{=}\cfrac{1}{\sqrt{1--2\alpha{}\sigma^{2}}}(\alpha{}\text{<}\cfrac{1}{2\sigma^{2}}) EeαXj2=1--2ασ2 1(α<2σ21),考虑到此处 σ ( X j ) = 1 \sigma({X_j})\text{=}1 σ(Xj)=1所以 E e α X j 2 = 1 1 -- 2 α ( α < 1 2 ) \text{E}\lefte\^{\\alpha{}X_j\^{2}}\\right\text{=}\cfrac{1}{\sqrt{1--2\alpha{}}}(\alpha{}\text{<}\cfrac{1}{2}) EeαXj2=1--2α 1(α<21)
  • 所以 E e α X = ∏ j = 1 t ( 1 1 -- 2 α ) = ( 1 1 -- 2 α ) t = 1 ( 1 -- 2 α ) t 2 \displaystyle{}\text{E}\lefte\^{\\alpha{}X}\\right\text{=}\prod_{j=1}^t\left(\cfrac{1}{\sqrt{1--2\alpha{}}}\right)\text{=}\left(\cfrac{1}{\sqrt{1--2\alpha{}}}\right)^t\text{=}\cfrac{1}{(1--2\alpha)^{\frac{t}{2}}} EeαX=j=1∏t(1--2α 1)=(1--2α 1)t=(1--2α)2t1
  • 代入原式得 Pr X ≥ ( 1 + ε ) t ≤ E e α X e α ( 1 + ε ) t = ( 1 -- 2 α ) -- t 2 e α ( 1 + ε ) t = ( e -- 2 ( 1 + ε ) α 1 -- 2 α ) t 2 \text{Pr}\leftX\\text{≥}(1\\text{+}\\varepsilon{})t\\right\text{≤}\cfrac{\text{E}\lefte\^{\\alpha{}X}\\right}{e^{\alpha{}(1\text{+}\varepsilon{})t}}\text{=}\cfrac{{(1--2\alpha)^{--\frac{t}{2}}}}{e^{\alpha{}(1\text{+}\varepsilon{})t}}\text{=}\left(\cfrac{e^{--2(1\text{+}\varepsilon)\alpha}}{1--2\alpha}\right)^{\frac{t}{2}} PrX≥(1+ε)t≤eα(1+ε)tEeαX=eα(1+ε)t(1--2α)--2t=(1--2αe--2(1+ε)α)2t

↪对于 Pr X ≥ ( 1 + ε ) t ≤ ( e -- 2 ( 1 + ε ) α 1 -- 2 α ) t 2 \text{Pr}\leftX\\text{≥}(1\\text{+}\\varepsilon{})t\\right\text{≤}\left(\cfrac{e^{--2(1\text{+}\varepsilon)\alpha}}{1--2\alpha}\right)^{\frac{t}{2}} PrX≥(1+ε)t≤(1--2αe--2(1+ε)α)2t,有必要在 0 < α < 1 2 0\text{<}\alpha{}\text{<}\cfrac{1}{2} 0<α<21的范围内确定 f ( α ) = ( e -- 2 ( 1 + ε ) α 1 -- 2 α ) t 2 f(\alpha)\text{=}\left(\cfrac{e^{--2(1\text{+}\varepsilon)\alpha}}{1--2\alpha}\right)^{\frac{t}{2}} f(α)=(1--2αe--2(1+ε)α)2t的最小值

  • 对于 ln ⁡ ( f ( α ) ) = t 2 -- 2 ( 1 + ε ) α -- ln ⁡ ( 1 -- 2 α ) \ln(f(\alpha))\text{=}\cfrac{t}{2}--2(1\\text{+}\\varepsilon)\\alpha--\\ln(1--2\\alpha) ln(f(α))=2t--2(1+ε)α--ln(1--2α),令 g ( α ) =-- 2 ( 1 + ε ) α -- ln ⁡ ( 1 -- 2 α ) g(\alpha)\text{=}--2(1\text{+}\varepsilon)\alpha--\ln(1--2\alpha) g(α)=--2(1+ε)α--ln(1--2α),如下图( ε = 3 \varepsilon\text{=}3 ε=3)

  • 一阶导 d g ( α ) d α = 2 1 -- 2 α -- 2 ( 1 + ε ) \cfrac{\text{d}g{(\alpha)}}{\text{d}\alpha}\text{=}\cfrac{2}{1--2\alpha}--2(1\text{+}\varepsilon) dαdg(α)=1--2α2--2(1+ε),具有临界点 α ∗ = ε 2 ( 1 + ε ) ∈ ( 0 , 1 2 ) \alpha^*\text{=}\cfrac{\varepsilon}{2(1\text{+}\varepsilon)}\text{∈}\left(0,\cfrac{1}{2}\right) α∗=2(1+ε)ε∈(0,21),故 ε > 0 \varepsilon\text{>}0 ε>0

  • 代入原式即得 Pr X ≥ ( 1 + ε ) t ≤ ( e -- 2 ( 1 + ε ) α 1 -- 2 α ) t 2 ≤ ( ( 1 + ε ) e -- ε ) t 2 \text{Pr}\leftX\\text{≥}(1\\text{+}\\varepsilon{})t\\right\text{≤}\left(\cfrac{e^{--2(1\text{+}\varepsilon)\alpha}}{1--2\alpha}\right)^{\frac{t}{2}}\text{≤}\left((1\text{+}\varepsilon) e^{--\varepsilon}\right)^{\frac{t}{2}} PrX≥(1+ε)t≤(1--2αe--2(1+ε)α)2t≤((1+ε)e--ε)2t

↪进一步对 h ( ε ) = ( ( 1 + ε ) e -- ε ) t 2 h(\varepsilon)\text{=}\left((1\text{+}\varepsilon)e^{--\varepsilon}\right)^{\frac{t}{2}} h(ε)=((1+ε)e--ε)2t的分析

  • 泰勒展开 ln ⁡ ( 1 + ε ) = ε -- ε 2 2 + ε 3 3 + O ( ε 4 ) \ln{}(1\text{+}\varepsilon)\text{=}\varepsilon--\cfrac{\varepsilon^2}{2}\text{+}\cfrac{\varepsilon^3}{3}\text{+}O\left(\varepsilon^4\right) ln(1+ε)=ε--2ε2+3ε3+O(ε4),则 ln ⁡ ( 1 + ε ) -- ε ≤-- ε 2 2 + ε 3 3 ≤-- 1 2 ( ε 2 -- ε 3 ) \ln(1\text{+}\varepsilon)--\varepsilon\text{≤}--\cfrac{\varepsilon^2}{2}\text{+}\cfrac{\varepsilon^3}{3}\text{≤}--\cfrac{1}{2}\left(\varepsilon^2--\varepsilon^3\right) ln(1+ε)--ε≤--2ε2+3ε3≤--21(ε2--ε3)
  • 故在 ln ⁡ ( h ( ε ) ) = t 2 ( ln ⁡ ( 1 + ε ) -- ε ) ≤-- t 4 ( ε 2 -- ε 3 ) \ln(h(\varepsilon))\text{=}\cfrac{t}{2}(\ln(1\text{+}\varepsilon)--\varepsilon)\text{≤}--\cfrac{t}{4}\left(\varepsilon^2--\varepsilon^3\right) ln(h(ε))=2t(ln(1+ε)--ε)≤--4t(ε2--ε3),即 h ( ε ) ≤ e -- t 4 ( ε 2 -- ε 3 ) h(\varepsilon)\text{≤}e^{--\frac{t}{4}\left(\varepsilon^2--\varepsilon^3\right)} h(ε)≤e--4t(ε2--ε3)

↪最后 Pr ∥ u ′ ∥ 2 ≥ ( 1 + ε ) ∥ u ∥ 2 =Pr X ≥ ( 1 + ε ) t ≤ ( e -- 2 ( 1 + ε ) α 1 -- 2 α ) t 2 ≤ ( ( 1 + ε ) e -- ε ) t 2 ≤ e -- t 4 ( ε 2 -- ε 3 ) \text{Pr}\left\\left\\\|u\^{\\prime}\\right\\\|\^2\\text{≥}(1\\text{+}\\varepsilon)\\\|u\\\|\^2\\right\text{=}\text{Pr}\leftX\\text{≥}(1\\text{+}\\varepsilon{})t\\right\text{≤}\left(\cfrac{e^{--2(1\text{+}\varepsilon)\alpha}}{1--2\alpha}\right)^{\frac{t}{2}}\text{≤}\left((1\text{+}\varepsilon) e^{--\varepsilon}\right)^{\frac{t}{2}}\text{≤}e^{--\frac{t}{4}\left(\varepsilon^2--\varepsilon^3\right)} Pr∥u′∥2≥(1+ε)∥u∥2=PrX≥(1+ε)t≤(1--2αe--2(1+ε)α)2t≤((1+ε)e--ε)2t≤e--4t(ε2--ε3)

2.2.3. \textbf{2.2.3. } 2.2.3. 对结论 2 \textbf{2} 2的证明(负半边)

↪考虑到 S ⋅ j u ∼ N ( 0 , ∥ u ∥ 2 ) \displaystyle{}S_{\cdot{}j}u\sim{}N(0,\|u\|^2) S⋅ju∼N(0,∥u∥2),故将其归一化为 X j = S ⋅ j u ∥ u ∥ ∼ N ( 0 , 1 ) X_j\text{=}\cfrac{S_{\cdot{}j}u}{\|u\|}\sim{}N(0,1) Xj=∥u∥S⋅ju∼N(0,1)

↪由此定义 X = ∑ j = 1 t X j 2 \displaystyle{}X\text{=}\sum_{j=1}^tX_j^2 X=j=1∑tXj2(自由度为 t t t的 χ 2 \chi^2 χ2分布),由此 ∥ u ′ ∥ 2 = 1 t ∥ S u ∥ 2 = 1 t ∑ j = 1 t ( S ⋅ j u ) 2 = ∥ u ∥ 2 1 t ∑ j = 1 t X j 2 = 1 t ∥ u ∥ 2 X \displaystyle{}\left\|u^{\prime}\right\|^2\text{=}\cfrac{1}{t}\|Su\|^2\text{=}\cfrac{1}{t}\sum_{j=1}^t\left(S_{\cdot{}j}u\right)^2\text{=}\|u\|^2\cfrac{1}{t}\sum_{j=1}^tX_j^2\text{=}\cfrac{1}{t}\|u\|^2X ∥u′∥2=t1∥Su∥2=t1j=1∑t(S⋅ju)2=∥u∥2t1j=1∑tXj2=t1∥u∥2X

↪由此 Pr ∥ u ′ ∥ 2 ≤ ( 1 -- ε ) ∥ u ∥ 2 =Pr X ≤ ( 1 -- ε ) t =Pr -- X ≥-- ( 1 -- ε ) t \text{Pr}\left\\left\\\|u\^{\\prime}\\right\\\|\^2\\text{≤}(1\\text{--}\\varepsilon)\\\|u\\\|\^2\\right\text{=}\text{Pr}\leftX\\text{≤}(1\\text{--}\\varepsilon{})t\\right\text{=}\text{Pr}\left--X\\text{≥}--(1\\text{--}\\varepsilon{})t\\right Pr∥u′∥2≤(1--ε)∥u∥2=PrX≤(1--ε)t=Pr--X≥--(1--ε)t

↪考虑马可夫不等式的指数形式: Pr -- X ≥-- ( 1 -- ε ) t =Pr e α ( -- X ) ≥ e -- α ( 1 -- ε ) t ≤ E e -- α X e -- α ( 1 -- ε ) t \text{Pr}\left--X\\text{≥}--(1\\text{--}\\varepsilon{})t\\right\text{=}\text{Pr}\lefte\^{\\alpha{}(--X)}\\text{≥}e\^{--\\alpha{}(1\\text{--}\\varepsilon{})t}\\right\text{≤}\cfrac{\text{E}\lefte\^{--\\alpha{}X}\\right}{e^{--\alpha{}(1\text{--}\varepsilon{})t}} Pr--X≥--(1--ε)t=Preα(--X)≥e--α(1--ε)t≤e--α(1--ε)tEe--αX

  • 考虑到 X = ∑ j = 1 t X j 2 \displaystyle{}X\text{=}\sum_{j=1}^tX_j^2 X=j=1∑tXj2,所以 E e -- α X =E e -- α ( X 1 2 + X 2 2 + ⋯ + X t 2 ) =E e -- α X 1 2 e -- α X 2 2 ⋯ e -- α X t 2 =E ∏ j = 1 t e -- α X j 2 = ∏ j = 1 t E e -- α X j 2 \displaystyle{}\text{E}\lefte\^{--\\alpha{}X}\\right\text{=}\text{E}\lefte\^{--\\alpha{}(X\^2_1\\text{+}X\^2_2\\text{+}\\cdots\\text{+}X\^2_t)}\\right\text{=}\text{E}\lefte\^{--\\alpha{}X\^2_1}e\^{--\\alpha{}X\^2_2}\\cdots{}e\^{--\\alpha{}X\^2_t}\\right\text{=}\text{E}\left\\prod_{j=1}\^te\^{--\\alpha{}X_j\^2}\\right\text{=}\prod_{j=1}^t\text{E}\lefte\^{--\\alpha{}X_j\^2}\\right Ee--αX=Ee--α(X12+X22+⋯+Xt2)=Ee--αX12e--αX22⋯e--αXt2=Ej=1∏te--αXj2=j=1∏tEe--αXj2
  • 在引理 1 1 1中已经证明 E e -- α X j 2 = 1 1 + 2 α σ 2 ( α >-- 1 2 σ 2 ) \text{E}\lefte\^{--\\alpha{}X_j\^{2}}\\right\text{=}\cfrac{1}{\sqrt{1\text{+}2\alpha{}\sigma^{2}}}(\alpha{}\text{>}--\cfrac{1}{2\sigma^{2}}) Ee--αXj2=1+2ασ2 1(α>--2σ21),考虑到此处 σ ( X j ) = 1 \sigma({X_j})\text{=}1 σ(Xj)=1所以 E e -- α X j 2 = 1 1 + 2 α ( α >-- 1 2 ) \text{E}\lefte\^{--\\alpha{}X_j\^{2}}\\right\text{=}\cfrac{1}{\sqrt{1\text{+}2\alpha{}}}(\alpha{}\text{>}--\cfrac{1}{2}) Ee--αXj2=1+2α 1(α>--21)
  • 所以 E e -- α X = ∏ j = 1 t ( 1 1 + 2 α ) = ( 1 1 + 2 α ) t = 1 ( 1 + 2 α ) t 2 \displaystyle{}\text{E}\lefte\^{--\\alpha{}X}\\right\text{=}\prod_{j=1}^t\left(\cfrac{1}{\sqrt{1\text{+}2\alpha{}}}\right)\text{=}\left(\cfrac{1}{\sqrt{1\text{+}2\alpha{}}}\right)^t\text{=}\cfrac{1}{(1\text{+}2\alpha)^{\frac{t}{2}}} Ee--αX=j=1∏t(1+2α 1)=(1+2α 1)t=(1+2α)2t1
  • 代入原式得 Pr -- X ≥-- ( 1 -- ε ) t ≤ E e -- α X e -- α ( 1 -- ε ) t = ( 1 + 2 α ) -- t 2 e -- α ( 1 -- ε ) t = ( e 2 ( 1 -- ε ) α 1 + 2 α ) t 2 \text{Pr}\left--X\\text{≥}--(1\\text{--}\\varepsilon{})t\\right\text{≤}\cfrac{\text{E}\lefte\^{--\\alpha{}X}\\right}{e^{--\alpha{}(1--\varepsilon{})t}}\text{=}\cfrac{{(1\text{+}2\alpha)^{--\frac{t}{2}}}}{e^{--\alpha{}(1--\varepsilon{})t}}\text{=}\left(\cfrac{e^{2(1--\varepsilon)\alpha}}{1\text{+}2\alpha}\right)^{\frac{t}{2}} Pr--X≥--(1--ε)t≤e--α(1--ε)tEe--αX=e--α(1--ε)t(1+2α)--2t=(1+2αe2(1--ε)α)2t

↪对于 Pr -- X ≥-- ( 1 -- ε ) t ≤ ( e 2 ( 1 -- ε ) α 1 + 2 α ) t 2 \text{Pr}\left--X\\text{≥}--(1\\text{--}\\varepsilon{})t\\right\text{≤}\left(\cfrac{e^{2(1--\varepsilon)\alpha}}{1\text{+}2\alpha}\right)^{\frac{t}{2}} Pr--X≥--(1--ε)t≤(1+2αe2(1--ε)α)2t,有必要在 α >-- 1 2 \alpha{}\text{>}--\cfrac{1}{2} α>--21的范围内确定 f ( α ) = ( e 2 ( 1 -- ε ) α 1 + 2 α ) t 2 f(\alpha)\text{=}\left(\cfrac{e^{2(1--\varepsilon)\alpha}}{1\text{+}2\alpha}\right)^{\frac{t}{2}} f(α)=(1+2αe2(1--ε)α)2t的最小值

  • 对于 ln ⁡ ( f ( α ) ) = t 2 2 ( 1 -- ε ) α -- ln ⁡ ( 1 + 2 α ) \ln(f(\alpha))\text{=}\cfrac{t}{2}2(1--\\varepsilon)\\alpha--\\ln(1\\text{+}2\\alpha) ln(f(α))=2t2(1--ε)α--ln(1+2α),令 g ( α ) = 2 ( 1 -- ε ) α -- ln ⁡ ( 1 + 2 α ) g(\alpha)\text{=}2(1--\\varepsilon)\\alpha--\\ln(1\\text{+}2\\alpha) g(α)=2(1--ε)α--ln(1+2α),如下图( ε =-- 1 3 \varepsilon\text{=}--\cfrac{1}{3} ε=--31)
  • 一阶导 d g ( α ) d α =-- 2 1 + 2 α + 2 ( 1 + ε ) \cfrac{\text{d}g{(\alpha)}}{\text{d}\alpha}\text{=}--\cfrac{2}{1\text{+}2\alpha}\text{+}2(1\text{+}\varepsilon) dαdg(α)=--1+2α2+2(1+ε),具有临界点 α ∗ = ε 2 ( 1 -- ε ) ∈ ( -- 1 2 , +∞ ) \alpha^*\text{=}\cfrac{\varepsilon}{2(1--\varepsilon)}\text{∈}\left(--\cfrac{1}{2},\text{+∞}\right) α∗=2(1--ε)ε∈(--21,+∞),故 -- 1 < ε < 1 --1\text{<}\varepsilon\text{<}1 --1<ε<1(由于前提限制故截取为 0 < ε < 1 0\text{<}\varepsilon\text{<}1 0<ε<1)
  • 代入原式即得 Pr -- X ≥-- ( 1 -- ε ) t ≤ ( e 2 ( 1 -- ε ) α 1 + 2 α ) t 2 ≤ ( ( 1 -- ε ) e ε ) t 2 \text{Pr}\left--X\\text{≥}--(1\\text{--}\\varepsilon{})t\\right\text{≤}\left(\cfrac{e^{2(1--\varepsilon)\alpha}}{1\text{+}2\alpha}\right)^{\frac{t}{2}}\text{≤}\left((1--\varepsilon) e^{\varepsilon}\right)^{\frac{t}{2}} Pr--X≥--(1--ε)t≤(1+2αe2(1--ε)α)2t≤((1--ε)eε)2t

↪进一步对 h ( ε ) = ( ( 1 -- ε ) e ε ) t 2 h(\varepsilon)\text{=}\left((1--\varepsilon) e^{\varepsilon}\right)^{\frac{t}{2}} h(ε)=((1--ε)eε)2t的分析

  • 泰勒展开 ln ⁡ ( 1 -- ε ) =-- ε -- ε 2 2 -- ε 3 3 + O ( ε 4 ) \ln{}(1--\varepsilon)\text{=}--\varepsilon--\cfrac{\varepsilon^2}{2}--\cfrac{\varepsilon^3}{3}\text{+}O\left(\varepsilon^4\right) ln(1--ε)=--ε--2ε2--3ε3+O(ε4),则 ln ⁡ ( 1 -- ε ) + ε ≤-- ε 2 2 -- ε 3 3 ≤-- 1 2 ( ε 2 -- ε 3 ) \ln(1--\varepsilon)\text{+}\varepsilon\text{≤}--\cfrac{\varepsilon^2}{2}--\cfrac{\varepsilon^3}{3}\text{≤}--\cfrac{1}{2}\left(\varepsilon^2--\varepsilon^3\right) ln(1--ε)+ε≤--2ε2--3ε3≤--21(ε2--ε3)
  • 故在 ln ⁡ ( h ( ε ) ) = t 2 ( ln ⁡ ( 1 -- ε ) + ε ) ≤-- t 4 ( ε 2 -- ε 3 ) \ln(h(\varepsilon))\text{=}\cfrac{t}{2}(\ln(1--\varepsilon)\text{+}\varepsilon)\text{≤}--\cfrac{t}{4}\left(\varepsilon^2--\varepsilon^3\right) ln(h(ε))=2t(ln(1--ε)+ε)≤--4t(ε2--ε3),即 h ( ε ) ≤ e -- t 4 ( ε 2 -- ε 3 ) h(\varepsilon)\text{≤}e^{--\frac{t}{4}\left(\varepsilon^2--\varepsilon^3\right)} h(ε)≤e--4t(ε2--ε3)

↪最后 Pr ∥ u ′ ∥ 2 ≤ ( 1 -- ε ) ∥ u ∥ 2 =Pr -- X ≥-- ( 1 -- ε ) t ≤ ( e 2 ( 1 -- ε ) α 1 + 2 α ) t 2 ≤ ( ( 1 -- ε ) e ε ) t 2 ≤ e -- t 4 ( ε 2 -- ε 3 ) \text{Pr}\left\\left\\\|u\^{\\prime}\\right\\\|\^2\\text{≤}(1\\text{--}\\varepsilon)\\\|u\\\|\^2\\right\text{=}\text{Pr}\left--X\\text{≥}--(1\\text{--}\\varepsilon{})t\\right\text{≤}\left(\cfrac{e^{2(1--\varepsilon)\alpha}}{1\text{+}2\alpha}\right)^{\frac{t}{2}}\text{≤}\left((1--\varepsilon) e^{\varepsilon}\right)^{\frac{t}{2}}\text{≤}e^{--\frac{t}{4}\left(\varepsilon^2--\varepsilon^3\right)} Pr∥u′∥2≤(1--ε)∥u∥2=Pr--X≥--(1--ε)t≤(1+2αe2(1--ε)α)2t≤((1--ε)eε)2t≤e--4t(ε2--ε3)

相关推荐
Bobolink_16 天前
TikTok矩阵账号如何批量养号?工作室级运营方案分享
矩阵·内容运营·跨境电商·tik tok·账号运营
H1785350909616 天前
SolidWorks第四部分_直接实体建模特征9_替换面原理
线性代数·算法·机器学习·3d建模·solidworks
AI_yangxi16 天前
短视频矩阵系统专业公司
大数据·人工智能·矩阵
昇腾CANN16 天前
【cann-samples系列】GroupedMatmul MX量化矩阵乘的深度性能优化实践
线性代数·性能优化·矩阵·昇腾·cann
青山木16 天前
Hot 100 --- 矩阵置零
线性代数·算法·leetcode·矩阵·哈希算法
Jasmine_llq16 天前
《B4264 [GESP202503 四级] 二阶矩阵》
线性代数·算法·矩阵·二维矩阵遍历枚举所有2×2矩阵·交叉乘积等式条件判断·输入输出快读加速·长整型防溢出计数统计
阿泽·黑核17 天前
05 keyflow 扩展设计方案:矩阵键盘/组合键/事件队列/中断驱动
线性代数·矩阵·计算机外设·嵌入式·agent·vibe coding
工头阿乐17 天前
相机坐标系标定与外参矩阵求解
数码相机·线性代数·矩阵
云和数据.ChenGuang17 天前
metrics的解释 人工智能
人工智能·深度学习·学习·机器学习·概率论