人工智能与机器学习原理精解【7】

文章目录

凸优化
参考文献

凸优化

基础

数学优化问题可以写成如下形式
m i n i m i z e f 0 ( x ) s u b j e c t t o f i ( x ) ≤ b i , i = 1 , 2 , . . . m 1. 优化变量： x = ( x 1 , . . . x n ) 2. 目标函数： f 0 = R n → R 3. s u b j e c t : 约束条件 f i : R n → R , i = 1 , . . . , m 被称为不等式约束函数常数 b 1 , . . . b m 称为约束上限和约束边界。 4. 目标就是得到最优解 x ∗ 在所有满足约束 f 1 ( z ) ≤ b 1 ， . . . . . f m ( z ) ≤ b m 的向量 z 中有 f 0 ( z ) ≥ f 0 ( x ∗ ) minimize \quad f_0(x) \\subject \quad to \quad f_i(x) \le b_i,i=1,2,...m \\1.优化变量：x=(x_1,...x_n) \\2.目标函数：f_0=R^n\rightarrow R \\3.subject:约束条件 \\f_i:R^n\rightarrow R, i=1,...,m被称为不等式约束函数 \\常数b_1,...b_m称为约束上限和约束边界。 \\4.目标就是得到最优解x^* \\在所有满足约束f_1(z)\le b_1，.....f_m(z)\le b_m的向量z中 \\有f_0(z)\ge f_0(x^*) minimizef0(x)subjecttofi(x)≤bi,i=1,2,...m1.优化变量：x=(x1,...xn)2.目标函数：f0=Rn→R3.subject:约束条件fi:Rn→R,i=1,...,m被称为不等式约束函数常数b1,...bm称为约束上限和约束边界。4.目标就是得到最优解x∗在所有满足约束f1(z)≤b1，.....fm(z)≤bm的向量z中有f0(z)≥f0(x∗)
线性规则
1. 目标函数 f 0 和约束函数 f i 都是线性函数 2. 对任意 x , y ∈ R n ， α 和 β ∈ R ，有 f i ( α x + β y ) = α f i ( x ) + β f i ( y ) 称为线性规则，否则称为非线性规则 1.目标函数f_0和约束函数f_i都是线性函数 \\2.对任意x,y \in R^n，\alpha 和\beta \in R，有 \\f_i(\alpha x+\beta y) = \alpha f_i(x)+\beta f_i(y) 称为线性规则，否则称为非线性规则 1.目标函数f0和约束函数fi都是线性函数2.对任意x,y∈Rn，α和β∈R，有fi(αx+βy)=αfi(x)+βfi(y)称为线性规则，否则称为非线性规则
凸优化
1. 目标函数和约束函数都是凸函数 2. 对任意 x , y ∈ R n ，任意 α 和 β ∈ R ，且满足 α + β = 1 ， α ≥ 0 , β ≥ 0 ，下面不等式成立 f i ( α x + β y ) ≤ α f i ( x ) + β f i ( y ) 1.目标函数和约束函数都是凸函数 \\2.对任意x,y \in R^n，任意\alpha 和\beta \in R，且满足 \\\alpha+\beta=1，\alpha \ge0,\beta \ge 0，下面不等式成立 \\f_i(\alpha x+\beta y) \le \alpha f_i(x)+\beta f_i(y) 1.目标函数和约束函数都是凸函数2.对任意x,y∈Rn，任意α和β∈R，且满足α+β=1，α≥0,β≥0，下面不等式成立fi(αx+βy)≤αfi(x)+βfi(y)
凸优化比线性优化更一般，只需要满足不等式即可，线性规则问题实质也是凸优化问题，凸优化是线性优化的扩展。
优化问题实质是在向量空间 R n 的一组备选解中选择最好的解，用 x 表示备选解， f i ( x ) ≤ b i 表示 x 必须满足的条件，目标函数 f 0 ( x ) 表示选择 x 的成本， − f x ( 0 ) 表示选择 x 的效益或效用。优化问题实质是在向量空间R^n的一组备选解中选择最好的解， \\用x表示备选解，f_i(x) \le b_i表示x必须满足的条件，目标函数f_0(x)表示选择x的成本，-f_x(0)表示选择x的效益或效用。优化问题实质是在向量空间Rn的一组备选解中选择最好的解，用x表示备选解，fi(x)≤bi表示x必须满足的条件，目标函数f0(x)表示选择x的成本，−fx(0)表示选择x的效益或效用。
优化问题的解即满足约束条件的所有备选解中成本最小或效用最大的那个解
最小二乘问题
1. 没有约束条件， m = 0 2. 目标函数是若干项的平方和，每一项具有形式 a i T x i − b i 具体形式如下 : m i n i m i z e f 0 ( x ) = ∣ ∣ A x − b ∣ ∣ 2 2 = Σ i = 1 k ( a i T x − b i ) 2 A ∈ R k × n ( k ≥ n ) , a i T 是矩阵 A 的行向量， x ∈ R n 是优化变量。 3. ( A T A ) x = A T b x = ( A T A ) − 1 A T b 4. 最小二乘是回归分析 , 向量 x 的最大似然估计等价于最小二乘问题的解。目标函数是二次函数，且该二次函数是否半正定。 A X = Y 方程格式为： A 1 x 1 + A 2 X 2 + . . . . + A n − 1 X n − 1 + A n = Y 完成计算的 J u l i a 程序如下： 1.没有约束条件，m=0 \\2.目标函数是若干项的平方和，每一项具有形式a_i^Tx_i-b_i \\具体形式如下: \\minimize \quad f_0(x)=||Ax-b||^2_2=\Sigma_{i=1}^k(a_i^Tx-b_i)^2 \\A \in R^{k\times n}(k \ge n),a_i^T是矩阵A的行向量，x \in R^n是优化变量。 \\3.(A^TA)x=A^Tb \\x=(A^TA)^{-1}A^Tb \\4.最小二乘是回归分析,向量x的最大似然估计等价于最小二乘问题的解。 \\目标函数是二次函数，且该二次函数是否半正定。 \\AX=Y \\方程格式为：A_1x_1+A_2X_2+....+A_{n-1}X_{n-1}+A_n=Y \\完成计算的Julia程序如下： 1.没有约束条件，m=02.目标函数是若干项的平方和，每一项具有形式aiTxi−bi具体形式如下:minimizef0(x)=∣∣Ax−b∣∣22=Σi=1k(aiTx−bi)2A∈Rk×n(k≥n),aiT是矩阵A的行向量，x∈Rn是优化变量。3.(ATA)x=ATbx=(ATA)−1ATb4.最小二乘是回归分析,向量x的最大似然估计等价于最小二乘问题的解。目标函数是二次函数，且该二次函数是否半正定。AX=Y方程格式为：A1x1+A2X2+....+An−1Xn−1+An=Y完成计算的Julia程序如下：

julia 复制代码

# 生成随机数据 
using Random 
using LinearAlgebra
Random.seed!(123)  
#AX+B=Y
X=hcat(rand(30,5)*10,ones(30,1))
B=randn(30,1)
A= [2.5,-1.6,3,-7.3,-1.3,7.0]
Y=X*A+B
a=inv(X'*X)*X'*Y
println(a)

bash 复制代码

[2.5105224446322887; -1.73882204674754; 3.015912819393726; -7.259884409948638; -1.2967461799913216; 7.411978063294856;;]
 *  Terminal will be reused by tasks, press any key to close it.

5.加权最小二乘问题
（ 1 ）加权最小二乘问题中，最小化加权的最小二乘成本 Σ i = 1 k w i ( a i T x − b i ) 2 w i > 0 ，反映求和项 a i T x − b i 的重要程度在统计应用中，当给定的线性观测值包含不同方差的噪声时，用加权最小二乘来估计向量 x 。（1）加权最小二乘问题中，最小化加权的最小二乘成本 \\\Sigma_{i=1}^kw_i(a_i^Tx-b_i)^2 \\w_i>0，反映求和项a_i^Tx-b_i的重要程度 \\在统计应用中，当给定的线性观测值包含不同方差的噪声时， \\用加权最小二乘来估计向量x。（1）加权最小二乘问题中，最小化加权的最小二乘成本Σi=1kwi(aiTx−bi)2wi>0，反映求和项aiTx−bi的重要程度在统计应用中，当给定的线性观测值包含不同方差的噪声时，用加权最小二乘来估计向量x。

（2）例子

某产品10个地区的广告投入（自变量）、店面繁荣度（自变量）和销售额（因变量），其中，随机生成每个地区的权重、广告投入（自变量）、店面繁荣度（自变量）。
Y = A X = Σ a i x i Y=AX=\Sigma a_ix_i Y=AX=Σaixi

最小化加权误差平方和： Σ i = 1 k w i ( a i T x − y i ) 2 \Sigma_{i=1}^kw_i(a_i^Tx-y_i)^2 Σi=1kwi(aiTx−yi)2

julia 复制代码

# 生成随机数据 
using Random 
using LinearAlgebra
Random.seed!(123)  
X=hcat(rand(10,1)*10000,rand(10,1)*10)
μ = 5 # 均值  
σ = 2# 标准差  
new_randn = μ.+ σ* randn(10)  # 生成10个具有指定均值和标准差的正态分布随机数  
W=diagm(new_randn)
A=[1.5,2.5]
Y=X*A
a=inv(X'*W*X)*X'*W*Y
println(a)

bash 复制代码

[1.5, 2.5]

6.正则化

在成本函数中增加一些多余的项来实现。比如
Σ i = 1 k ( a i T x − b i ) 2 + ρ Σ i = 1 n x i 2 ρ > 0 \Sigma_{i=1}^{k}(a_i^Tx-b_i)^2+\rho\Sigma_{i=1}^n x_i^2 \\\rho>0 Σi=1k(aiTx−bi)2+ρΣi=1nxi2ρ>0

当x的值较大时，增加的项对其施加一个惩罚，得到的解比仅优化第一项时更加切合实际。
ρ \rho ρ的选择取决于使用进，原则是

原始目标函数尽可能小，并保证 Σ i = 1 k x i 2 的值不能太大，在两者之间取得较好平衡。 \Sigma_{i=1}^kx_i^2的值不能太大，在两者之间取得较好平衡。 Σi=1kxi2的值不能太大，在两者之间取得较好平衡。

理论

下面内容由文心一言自动生成

加权正规方程

加权正规方程（Weighted Normal Equations）是在处理线性回归问题时，当观测值具有不同的重要性或可靠性时，用来估计回归系数的一种方法。在普通的最小二乘法中，所有观测值的误差都被视为等权重的，但在实际应用中，这往往不是真实情况。加权正规方程允许我们根据观测值的可靠性或重要性给予不同的权重。

线性回归模型

假设我们有如下的线性回归模型：
y = X β + ϵ y = X\beta + \epsilon y=Xβ+ϵ

其中， y y y 是观测值向量， X X X 是设计矩阵（包含自变量）， β \beta β 是回归系数向量， ϵ \epsilon ϵ 是误差项。

加权最小二乘法

在加权最小二乘法中，我们试图最小化加权误差平方和：
S ( β ) = ∑ i = 1 n w i ( y i − x i T β ) 2 S(\beta) = \sum_{i=1}^{n} w_i (y_i - x_i^T \beta)^2 S(β)=i=1∑nwi(yi−xiTβ)2

其中， w i w_i wi 是第 i i i 个观测值的权重， x i T x_i^T xiT 是设计矩阵 X X X 的第 i i i 行转置。

加权正规方程

为了找到使 S ( β ) S(\beta) S(β) 最小的 β \beta β，我们可以对 S ( β ) S(\beta) S(β) 关于 β \beta β 求导并令其为0。这导致以下方程：
∂ S ( β ) ∂ β = − 2 ∑ i = 1 n w i x i ( y i − x i T β ) = 0 \frac{\partial S(\beta)}{\partial \beta} = -2 \sum_{i=1}^{n} w_i x_i (y_i - x_i^T \beta) = 0 ∂β∂S(β)=−2i=1∑nwixi(yi−xiTβ)=0

整理上式，我们得到：
∑ i = 1 n w i x i y i = ∑ i = 1 n w i x i x i T β \sum_{i=1}^{n} w_i x_i y_i = \sum_{i=1}^{n} w_i x_i x_i^T \beta i=1∑nwixiyi=i=1∑nwixixiTβ

这可以进一步写为矩阵形式：
W T X T y = W T X T X β W^T X^T y = W^T X^T X \beta WTXTy=WTXTXβ

其中， W W W 是一个对角矩阵，其对角线上的元素是 w i w_i wi（即每个观测值的权重）。

解这个方程，我们得到：
β = ( X T W X ) − 1 X T W y \beta = (X^T W X)^{-1} X^T W y β=(XTWX)−1XTWy

这就是加权正规方程的解，它给出了在加权最小二乘法下回归系数的最优估计。

注意

权重 w i w_i wi 应该根据观测值的可靠性或重要性来选择。
当所有权重都相等时（即 w i = 1 w_i = 1 wi=1），加权正规方程退化为普通的最小二乘正规方程。
在实际应用中，权重的选择可能是一个复杂的问题，需要基于数据的具体情况和领域知识来决定。
在Julia中，生成对角矩阵可以通过多种方式实现，但最常用的方法是使用Diagonal函数或diagm函数。这两个函数都允许你基于一个向量来创建对角矩阵，其中向量的元素将成为对角线上的值。

使用`Diagonal`函数

从Julia 1.6版本开始，Diagonal函数提供了一种直接的方式来创建对角矩阵。你只需要提供一个向量，这个向量中的元素将直接放置在对角线上。

julia 复制代码

julia> using LinearAlgebra  # 可能需要加载LinearAlgebra模块

julia> d = [1, 2, 3, 4];

julia> D = Diagonal(d);

julia> D
4×4 Diagonal{Int64, Vector{Int64}} matrix:
 1  ⋅  ⋅  ⋅
 ⋅  2  ⋅  ⋅
 ⋅  ⋅  3  ⋅
 ⋅  ⋅  ⋅  4

注意，Diagonal创建的是一个对角矩阵的视图，而不是一个完整的矩阵。这意味着它只存储对角线上的元素，并且在需要时通过索引和计算来模拟其他元素（它们都是零）。这可以节省内存，但在某些情况下可能会影响性能。

使用`diagm`函数

diagm函数是另一个用于创建对角矩阵的常用函数，它提供了更多的灵活性。你可以指定向量中的元素是应该放在主对角线上，还是放在上对角线或下对角线上。

默认情况下，向量中的元素被放在主对角线上。

julia 复制代码

julia> d = [1, 2, 3, 4];

julia> D = diagm(d);

julia> D
4×4 Matrix{Int64}:
 1  0  0  0
 0  2  0  0
 0  0  3  0
 0  0  0  4

如果你想要创建一个具有非零上对角线或下对角线的矩阵，你可以使用额外的参数。但请注意，这通常不是创建对角矩阵的标准做法，而是用于创建具有特定非零对角线的矩阵。

总结

对于大多数需要创建对角矩阵的场合，Diagonal和diagm函数都是很好的选择。Diagonal提供了内存效率更高的对角矩阵视图，而diagm则提供了更多的灵活性和功能。选择哪一个取决于你的具体需求和偏好。

加权最小二乘法

加权最小二乘法的定义

加权最小二乘法（Weighted Least Squares, WLS）是一种数学优化技术，它通过对观测值进行加权处理，以克服数据中的异方差性或其他非均匀误差分布问题，从而得到更为准确的参数估计。在WLS中，每个观测值根据其重要性或可靠性被赋予一个权重，这些权重在最小化误差平方和的过程中被考虑，以调整不同观测值对参数估计的影响。

加权最小二乘法的算法

加权最小二乘法的算法主要包括以下几个步骤：

确定权重：
- 根据观测值的可靠性、精度、重要性或其他相关标准，为每个观测值确定一个权重。权重通常是一个正数，且权重越大表示观测值在回归分析中的影响越大。
构建加权目标函数：
- 构建加权残差平方和作为目标函数，即最小化 ∑ i = 1 n w i ( y i − y ^ i ) 2 \sum_{i=1}^{n} w_i (y_i - \hat{y}_i)^2 ∑i=1nwi(yi−y^i)2，其中 n n n是观测值的数量， y i y_i yi是第 i i i个观测值， y ^ i \hat{y}_i y^i是模型对第 i i i个观测值的预测值， w i w_i wi是第 i i i个观测值的权重。
求解参数估计值：
- 通过最小化加权目标函数，求解模型参数的估计值。这通常涉及到求解一个加权正规方程，即 ( X T W X ) − 1 X T W Y (X^T WX)^{-1}X^T WY (XTWX)−1XTWY，其中 X X X是设计矩阵（包含自变量值）， Y Y Y是观测值向量， W W W是对角权重矩阵（对角线上的元素为观测值的权重）。
评估模型：
- 使用统计检验（如t检验、F检验）和图形方法（如残差图、拟合优度图）来评估模型的拟合度和假设的有效性。

加权最小二乘法的计算

在计算过程中，关键是求解加权正规方程以得到参数估计值。这通常需要使用数值方法，如高斯消元法、迭代法等。在统计软件和编程语言中（如R、Python、MATLAB等），通常都有现成的函数或库来实现加权最小二乘法，用户只需提供设计矩阵、观测值向量和权重矩阵即可。

加权最小二乘法的原理

加权最小二乘法（Weighted Least Squares, WLS）的原理主要涉及到在回归分析中，通过为不同的观测值分配不同的权重来克服数据中的异方差性或其他非均匀误差分布问题，从而得到更为准确的参数估计。以下是加权最小二乘法原理的详细解释：

一、基本思想

加权最小二乘法的基本思想是通过引入权重来平衡不同观测值在回归分析中的影响。在普通最小二乘法（Ordinary Least Squares, OLS）中，所有观测值的误差都被视为等权重的，这可能导致那些误差较大的观测值对参数估计产生过大的影响。而在加权最小二乘法中，通过给误差较小的观测值赋予较大的权重，可以减小这些观测值对参数估计的影响，从而得到更加准确的参数估计。

二、原理详解

异方差性：
- 异方差性是指随机误差项的方差不全相等，即不同观测值的误差分布可能具有不同的方差。这种情况下，如果直接使用普通最小二乘法进行回归分析，可能会导致参数估计不是最优的，因为普通最小二乘法假设所有观测值的误差都是等方差的。
权重分配：
- 在加权最小二乘法中，每个观测值根据其重要性或可靠性被赋予一个权重。权重的选择通常基于数据的可靠性、精度、重要性或其他相关标准。例如，在上面的例子中，高水平班级的数据可能被认为更加可靠，因此被赋予更高的权重。
加权目标函数：
- 加权最小二乘法通过最小化加权残差平方和来求解参数估计值。加权残差平方和定义为 ∑ i = 1 n w i ( y i − y ^ i ) 2 \sum_{i=1}^{n} w_i (y_i - \hat{y}_i)^2 ∑i=1nwi(yi−y^i)2，其中 n n n 是观测值的数量， y i y_i yi 是第 i i i 个观测值， y ^ i \hat{y}_i y^i 是模型对第 i i i 个观测值的预测值， w i w_i wi 是第 i i i 个观测值的权重。
求解参数估计值：
- 最小化加权残差平方和的过程通常涉及到求解一个加权正规方程，即 ( X T W X ) − 1 X T W Y (X^T WX)^{-1}X^T WY (XTWX)−1XTWY，其中 X X X 是设计矩阵（包含自变量值）， Y Y Y 是观测值向量， W W W 是对角权重矩阵（对角线上的元素为观测值的权重）。通过求解这个方程，我们可以得到模型参数的估计值。
模型评估：
- 在得到参数估计值后，我们需要使用统计检验和图形方法（如残差图、拟合优度图）来评估模型的拟合度和假设的有效性。如果模型拟合良好，并且满足所有假设条件（如线性关系、误差项的正态分布和同方差性等），则我们可以认为加权最小二乘法成功地克服了异方差性问题，并得到了准确的参数估计。

三、总结

加权最小二乘法通过为不同的观测值分配不同的权重，克服了数据中的异方差性或其他非均匀误差分布问题，从而得到了更为准确的参数估计。这种方法在经济学、金融学、统计学等领域有着广泛的应用，特别是在处理具有异方差性的数据时具有显著的优势。

加权最小二乘法的例子

以下是一个加权最小二乘法的例子：

背景：某公司想要研究其产品在不同地区的销售额与广告投入之间的关系。他们收集了10个地区的数据，包括每个地区的广告投入（自变量）和销售额（因变量）。由于不同地区的市场规模、竞争环境等因素存在差异，因此他们决定使用加权最小二乘法进行回归分析，以考虑这些差异对结果的影响。

步骤：

确定权重：
- 根据每个地区的市场规模、竞争环境或其他相关因素，为每个地区的数据确定一个权重。例如，市场规模较大的地区可能具有更高的权重。
构建加权目标函数：
- 构建加权残差平方和作为目标函数，并尝试最小化这个函数。
求解参数估计值：
- 使用统计软件或编程语言中的加权最小二乘法函数求解销售额（因变量）和广告投入（自变量）之间的回归方程的参数估计值。这些参数估计值将考虑不同地区的权重。
评估模型：
- 通过检查残差图、R方值等统计指标来评估模型的拟合度和假设的有效性。在这个例子中，他们可能会发现加权后的模型比未加权的模型具有更好的拟合度和解释力。

请注意，这个例子是一个简化的说明，实际应用中加权最小二乘法的步骤和细节可能会更加复杂。

加权最小二乘法

当然可以。以下是一个具体的加权最小二乘法（Weighted Least Squares, WLS）的例子：

背景

假设我们研究的是某个城市不同区域的房价（因变量Y）与该区域到市中心的距离（自变量X）之间的关系。我们收集了10个区域的数据，但由于不同区域的发展程度、交通便利性、教育资源等因素的差异，我们预期到市中心的距离对房价的影响在不同区域可能不是完全相同的。因此，我们决定使用加权最小二乘法来估计房价与距离之间的关系，其中权重根据区域的发展程度或数据质量来确定。

数据

假设我们有以下数据（为了简化，这里只列出5个区域的示例）：

区域	距离市中心（公里）	房价（万元/平米）	权重
A	5	10	1.5
B	10	8	1.2
C	15	7	1.0
D	20	6.5	0.8
E	25	6	0.6

注意：这里的权重是假设的，实际中可能需要基于更复杂的标准来确定。

R 复制代码

# 假设df是包含上述数据的R数据框  

# 其中列名为'Distance', 'Price', 'Weight'  

  

# 执行加权最小二乘回归  

model <- lm(Price ~ Distance, data=df, weights=df$Weight)  

  

# 查看回归结果  

summary(model)

在Python中，我们可以使用statsmodels库中的WLS函数：

python 复制代码

import statsmodels.api as sm  

import numpy as np  

  

# 假设X和Y分别是自变量和因变量的numpy数组  

# W是权重的numpy数组  

  

X = df[['Distance']].values  # 假设df是pandas DataFrame  

Y = df['Price'].values  

W = df['Weight'].values  

  

# 添加常数项以拟合截距  

X = sm.add_constant(X)  

  

# 执行加权最小二乘回归  

model = sm.WLS(Y, X, weights=W).fit()  

  

# 查看回归结果  

print(model.summary())

结果分析

执行上述代码后，我们将得到回归模型的参数估计值（截距和斜率），以及模型的统计检验结果（如R方值、t统计量、p值等）。这些结果将帮助我们评估房价与距离之间的关系，并了解权重如何影响这些关系的估计。

请注意，由于这里的数据和权重是假设的，因此实际分析中的结果将会有所不同。

加权最小二乘法计算

在加权最小二乘法中，我们需要最小化加权残差平方和：

∑ i = 1 n w i ( y i − ( β 0 + β 1 x i ) ) 2 \sum_{i=1}^{n} w_i (y_i - (\beta_0 + \beta_1 x_i))^2 i=1∑nwi(yi−(β0+β1xi))2

其中， n n n 是观测值的数量， y i y_i yi 和 x i x_i xi 分别是第 i i i 个观测值的因变量和自变量， w i w_i wi 是第 i i i 个观测值的权重， β 0 \beta_0 β0 和 β 1 \beta_1 β1 是我们要估计的模型参数（截距和斜率）。

当然可以。以下是一个加权最小二乘法的具体例子：

例子：学生考试成绩预测

假设我们有一所学校的数据，包括不同班级的学生在期末考试中的数学成绩和他们在之前一次小测验中的成绩。我们知道，由于不同班级的教学水平、学生基础等因素的差异，小测验成绩与期末考试成绩之间的关系可能不是完全线性的，并且不同班级的观测值应该具有不同的权重。

数据（简化版）：

班级A（高水平班）：小测验成绩 = [70, 75, 80, 85]，期末考试成绩 = [90, 92, 94, 96]，权重 = [1.5, 1.5, 1.5, 1.5]（因为数据可靠，且班级整体水平高）
班级B（普通班）：小测验成绩 = [60, 65, 70, 75]，期末考试成绩 = [75, 78, 80, 82]，权重 = [1, 1, 1, 1]（数据可靠，但班级整体水平中等）
班级C（基础班）：小测验成绩 = [50, 55, 60, 65]，期末考试成绩 = [65, 68, 70, 72]，权重 = [0.5, 0.5, 0.5, 0.5]（数据可能有一定误差，且班级整体水平较低）

目标：

我们想要建立一个线性回归模型，使用小测验成绩来预测期末考试成绩，并考虑到不同班级的权重差异。

加权最小二乘法应用：

数据整理：将所有班级的数据合并，并为每个观测值分配权重。
模型构建 ：假设线性模型为 y = β 0 + β 1 x y = \beta_0 + \beta_1 x y=β0+β1x，其中 y y y 是期末考试成绩， x x x 是小测验成绩。
求解加权正规方程 ：使用加权正规方程 ( X T W X ) − 1 X T W Y (X^T WX)^{-1}X^T WY (XTWX)−1XTWY 来求解 β 0 \beta_0 β0 和 β 1 \beta_1 β1。在这里， X X X 是包含常数项（对应 β 0 \beta_0 β0）和小测验成绩的设计矩阵， Y Y Y 是期末考试成绩向量， W W W 是对角权重矩阵。
计算参数 ：通过求解加权正规方程，我们得到 β 0 \beta_0 β0 和 β 1 \beta_1 β1 的估计值。
模型评估：使用加权残差图、R方值等统计指标来评估模型的拟合度和假设的有效性。

注意：

在实际计算中，我们可能会使用统计软件（如R、Python的statsmodels库等）来自动完成加权正规方程的求解和模型评估。
权重的选择应该基于数据的可靠性和重要性。在这个例子中，我们假设了不同班级的权重，但在实际应用中，权重的确定可能需要更多的考虑和验证。

这个例子展示了如何在存在不同权重的情况下使用加权最小二乘法来建立回归模型。通过考虑不同观测值的权重，我们可以得到更加准确和可靠的参数估计。由于这里的数据和权重是假设的，因此实际分析中的结果将会有所不同。

Julia`randn`函数

在Julia中，randn 函数用于生成符合标准正态分布（均值为0，标准差为1）的随机数或随机数组。这个函数是Julia标准库中的一部分，非常适合用于需要正态分布随机数的科学计算和模拟。

基本用法

生成一个标准正态分布的随机数：

julia 复制代码

x = randn()

生成一个包含N个标准正态分布随机数的向量：

julia 复制代码

v = randn(N)

生成一个M行N列的矩阵，其中每个元素都是独立的标准正态分布随机数：

julia 复制代码

A = randn(M, N)

自定义正态分布

虽然randn直接生成的是标准正态分布随机数，但你可以很容易地通过缩放和平移来生成具有不同均值（μ）和标准差（σ）的正态分布随机数。

julia 复制代码

# 生成均值为mu，标准差为sigma的正态分布随机数
mu, sigma = 5, 2
x_custom = mu + sigma * randn()

# 或者生成一个包含多个这样随机数的向量
vec_custom = mu.+ sigma * randn(N)

# 对于矩阵也同样适用
M, N = 3, 4
mat_custom = mu + sigma * randn(M, N)

注意事项

当你需要生成大量的正态分布随机数时，randn函数通常比手动生成（即使用rand函数并应用适当的变换）更快、更高效。
Julia的randn函数内部使用了优化的算法来生成高质量的随机数，确保它们符合正态分布的特性。
如果你想生成其他类型的分布（如泊松分布、二项分布等），你可能需要使用Julia的Distributions包，它提供了广泛的概率分布和相应的随机数生成功能。

结论

randn是Julia中用于生成标准正态分布随机数的强大工具，通过简单的缩放和平移，你可以轻松地生成具有不同均值和标准差的正态分布随机数。这使得randn在科学计算、模拟、统计分析和机器学习等领域中非常有用。

数学优化概述

数学优化（Mathematical Optimization），也称为最优化问题，是一个广泛应用的数学领域，旨在解决在一定约束条件下寻找目标函数的最优值（最大值或最小值）的问题。以下是对数学优化的定义、方法和理论的详细描述：

一、数学优化的定义

数学优化问题的定义为：给定一个目标函数（也称为代价函数） f : A → R ，寻找一个变量（也称为参数） x ∗ ∈ D ，使得对于所有 D 中的 x ，都有 f ( x ∗ ) ≤ f ( x ) （最小化问题）或 f ( x ∗ ) ≥ f ( x ) （最大化问题）。其中， D 是变量 x 的约束集，也称为可行域； D 中的变量被称为可行解。数学优化问题的定义为：给定一个目标函数（也称为代价函数）f: A → R，寻找一个变量（也称为参数）x* ∈ D，使得对于所有D中的x，都有f(x*) ≤ f(x)（最小化问题）或f(x*) ≥ f(x)（最大化问题）。其中，D是变量x的约束集，也称为可行域；D中的变量被称为可行解。数学优化问题的定义为：给定一个目标函数（也称为代价函数）f:A→R，寻找一个变量（也称为参数）x∗∈D，使得对于所有D中的x，都有f(x∗)≤f(x)（最小化问题）或f(x∗)≥f(x)（最大化问题）。其中，D是变量x的约束集，也称为可行域；D中的变量被称为可行解。

二、数学优化的方法

数学优化的方法多种多样，根据问题的不同性质和目标，可以选择不同的求解方法。以下是一些常见的数学优化方法：

暴力搜索法（穷举法）
- 定义：通过枚举问题的所有可能解，并计算得出每个解对应的目标函数值，最后找到最优解。
- 特点：简单直接，但计算量大，不适用于大规模问题。
数学规划法
- 定义：利用数学模型解决优化问题的方法，包括线性规划、非线性规划等。
- 特点：通过建立数学方程组或不等式组，将优化问题转化为求解方程组或不等式组的问题。
- 具体方法 ：
  - 线性规划：目标函数和约束条件都是线性的，常用单纯形法求解。
  - 非线性规划：目标函数或约束条件中至少有一个是非线性的，常用梯度下降法、牛顿法等求解。
启发式搜索算法
- 定义：基于直观或经验构造的算法，在可接受的计算成本内给出待解决组合优化问题的一个可行解，该可行解与最优解的偏离程度一般不能被预计。
- 具体方法 ：
  - 梯度下降法：通过迭代的方式逐步接近最优解，通过计算目标函数的梯度方向来确定搜索方向。
  - 遗传算法：基于自然选择和遗传机制的优化算法，通过模拟进化过程来求解优化问题。
  - 模拟退火算法：一种随机搜索算法，通过模拟固体物质退火过程中的晶格结构演化来求解优化问题。
动态规划法
- 定义：适用于具有最优子结构的问题，通过将原问题划分为多个子问题，利用子问题的最优解推导出原问题的最优解。
- 特点：需要建立状态转移方程和选择最优策略，通过填表法来计算最优解。

三、数学优化的理论

数学优化理论是一门研究如何找到最优解的数学分支，它涵盖了优化问题的定义、性质、求解方法以及在实际应用中的表现等多个方面。以下是一些数学优化理论的关键点：

最优性条件：研究在何种条件下，一个解是最优的。例如，在凸优化问题中，局部最优解也是全局最优解。
算法复杂度分析：评估不同优化算法的计算复杂度和时间复杂度，以便在实际应用中选择合适的算法。
收敛性分析：研究优化算法是否收敛以及收敛的速度和稳定性。
对偶理论：在优化问题中，原问题和其对偶问题之间存在着紧密的联系。对偶理论为研究这种联系提供了有力的工具。
灵敏度分析：研究优化问题的解对参数变化的敏感程度，以便在实际应用中调整参数以获得更好的解。

综上所述，数学优化是一门涉及多个方面的数学分支，它通过定义、方法和理论的研究，为实际问题的解决提供了有力的支持。

参考文献

《凸优化》
文心一言

人工智能与机器学习原理精解【7】

文章目录

凸优化

基础

理论

加权正规方程

线性回归模型

加权最小二乘法

加权正规方程

注意

使用Diagonal函数

使用diagm函数

总结

加权最小二乘法

加权最小二乘法的定义

加权最小二乘法的算法

加权最小二乘法的计算

加权最小二乘法的原理

一、基本思想

二、原理详解

三、总结

加权最小二乘法的例子

加权最小二乘法

背景

数据

加权最小二乘法计算

例子：学生考试成绩预测

数据（简化版）：

目标：

加权最小二乘法应用：

注意：

Juliarandn函数

基本用法

自定义正态分布

注意事项

结论

数学优化概述

一、数学优化的定义

二、数学优化的方法

三、数学优化的理论

参考文献

使用`Diagonal`函数

使用`diagm`函数

Julia`randn`函数