函数\(f(\mathbf{X})\) 在局部极小值点应满足什么条件?反之,满足什么条件的是局部极小点?这就是凸优化的基本问题。下面针对多元函数的情形给出各类极小值点的定义。
定义 5.1 对于任意给定的实数\(\forall \delta>0\),满足不等式 \(||\mathbf{X}-\mathbf{X}_0||<\delta\) (\(\mathbf{X,X_0}\in\mathbf{R}^{n}\))的集合称为点 \(\mathbf{X}_0\) 的领域,记为:
\[N(\mathbf{X}_0,\delta)=\{\mathbf{X}|\space||\mathbf{X}-\mathbf{X}_0||<\delta,\delta>0\} \tag{1} \]
定义 5.2 设 \(f:\mathbf{D}\subseteq\mathbf{R}^n\rightarrow\mathbf{R}\),若存在点\(\mathbf{X}^{*}\in\mathbf{D}\) 和正数\(\delta>0\),\(\forall \mathbf{X}\in{N(\mathbf{X}^{*},\delta)}\cap\mathbf{D}\) 都有\(f(\mathbf{X}^*)\leq f(\mathbf{X})\) ,则称\(\mathbf{X}^{*}\) 为\(f(\mathbf{X})\) 局部极小值点(非严格)。
定义5.3 设 \(f:\mathbf{D} \subseteq{\mathbf{R}^n}\rightarrow{\mathbf{R}}\) ,若存在点\(\mathbf{X}^{*}\in{\mathbf{D}}\)和正数\(\delta>0\),\(\forall {\mathbf{X}}\in{N(\mathbf{X}^{*},\delta)}\cap\mathbf{D}\) 且 \(\mathbf{X}\neq{\mathbf{X}^{*}}\) ,都有\(f(\mathbf{X}^{*})<f(\mathbf{X})\) ,则称\(\mathbf{X}^{*}\) 为\(f(\mathbf{X})\) 在点\(\mathbf{D}\) 的严格局部极小值点。
定义5.4 设\(f:\mathbf{D}\subseteq{\mathbf{R}^n}\rightarrow\mathbf{R}^1\),若存在点\(\mathbf{X}^{*}\in{\mathbf{D}},\forall \mathbf{X}\in{\mathbf{D}}\) 都有\(f(\mathbf{X}^{*})<f(\mathbf{X})\) ,则称\(\mathbf{X}^{*}\) 为\(f(\mathbf{X})\) 在\(\mathbf{D}\) 上的全局极小值(非严格)。
定义5.5 设\(f:\mathbf{D}\subseteq{\mathbf{R}^n\rightarrow{\mathbf{R}^1}}\) ,若存在点 \(\mathbf{X}^{*}\in{\mathbf{D}}\) ,\(\forall \mathbf{X}\in{\mathbf{D}}\) 但 \(\mathbf{X}\neq \mathbf{X}^*\) ,都有\(f(\mathbf{X}^{*})<f(\mathbf{X})\) ,则称\(\mathbf{X}^{*}\) 为\(f(\mathbf{X})\) 在\(\mathbf{D}\) 上的严格全局极小值点。
由于以上定义看到,\(\mathbf{X}^{*}\) 是局部极小值点 ,是指在以下\(\mathbf{X}^{*}\) 为中心的一个领域中\(f(\mathbf{X})\) 在点\(\mathbf{X}^{*}\) 处取得最小的值;而\(\mathbf{X}^{*}\) 是全局极小值点 ,是指在定义域\(\mathbf{D}\) 中\(f(\mathbf{X})\) 在点\(\mathbf{X}^{*}\) 处取得最小的值。全局极小值点可能在某个局部极小值点,也可能在\(\mathbf{D}\) 的边界上取得。
由此,实际问题上通常是求取全局极小值点,但到目前为止,最优化中绝大多数方法都是求局部极小值点的,解决这一矛盾的一种方法是求出所有的局部极小值点,再求出全局极小值点。
定 理 5.1 设\(f:\mathbf{D}\subseteq {\mathbf{R}^n}\rightarrow\mathbf{R}^1\) 具有连续的一阶偏导数。若\(\mathbf{X}^{*}\) 是\(f(\mathbf{X})\) 的局部极小值点并且是\(\mathbf{D}\) 的内点,则
\[\nabla{f(\mathbf{X}^{*})}=\mathbf{0}_{n\times{1}} \tag{2} \]
证 明 :设\(\mathbf{e}\) 是任意单位向量,由于\(\mathbf{X}^{*}\)是\(f(\mathbf{X})\) 的局部极小值点,所以存在\(\delta>0\),当\(|t|<\delta\)或\(\mathbf{X}^{*}+t\mathbf{e}\in{N(\mathbf{X}^{*},\delta)}\) 时总有
\[f(\mathbf{X}^{*}+t\mathbf{e})\geq f(\mathbf{X}^{*}) \tag{3} \]
引入辅助一元函数\(\phi(t)=f(\mathbf{X}^*+t\mathbf{e})\),此时,由式(3)可得,\(\phi(t)\geq\phi(0)\)。 由于\(\mathbf{X}^{*}\) 是\(\mathbf{D}\) 的内点,所以与它对应的\(t=0\)是\(\phi(t)\) 的局部极小值点。又根据一元函数极小值点的必要条件,得到\(\phi^{\prime}(t)=0\) 即利用梯度性质得到\(\nabla{f(\mathbf{X})}^T\mathbf{e}=0\)。再由单位向量\(\mathbf{e}\) 的任意性可得,\(\nabla{f(\mathbf{X}^{*})}=\mathbf{0}\)。
这里式(2)仅仅是\(\mathbf{X}^{*}\) 是\(f(\mathbf{X})\) 的局部极小值点的必要条件,而不是充分条件,例如 \(f(x_1,x_2)=x_1x_2\) 在点\(\mathbf{X}^{*}=[0,0]^T\) 处的梯度为\(\nabla{f(\mathbf{X}^*)}=[0,0]^T\), 但是\(\mathbf{X}^{*}\) 是双曲面的鞍点,而不是极小值点。
定 义5.6 设\(f:\mathbf{D}\subseteq{\mathbf{R}^{n}}\rightarrow\mathbf{R}^{1}\) 具有连续二阶偏导数,\(\mathbf{X}^{*}\) 是\(\mathbf{D}\) 的一个内点,若\(\nabla{f(\mathbf{X^*})}=0\),则称\(\mathbf{X}^{*}\) 为\(f(\mathbf{X})\) 驻点。
定 理 5.2 设\(f:\mathbf{D}\subseteq{\mathbf{R}^n\rightarrow{\mathbf{R^{1}}}}\) 具有连续二阶偏导数,\(\mathbf{X}^{*}\) 是\(\mathbf{D}\) 的一个内点,若\(\nabla{f(\mathbf{X}^{*})}=0\) ,并且\(\nabla^2f(\mathbf{X}^{*})\)是正定的,则\(\mathbf{X}^{*}\) 是\(f(\mathbf{X})\) 的严格极小值点。
证 明: 因为\(\nabla^2f(\mathbf{X}^*)\) 是正定矩阵,则必存在\(\lambda>0\),使得对于所有\(\mathbf{P}\in\mathbf{R}^n\)都有
\[\mathbf{P}^T\nabla^2f(\mathbf{X}^{*})\mathbf{P}>\lambda||\mathbf{P}||^2 \tag{4} \]
(其参看高等代数二次型理论)。现在将\(f(\mathbf{X})\)在点\(\mathbf{X}^{*}\) 处按照Taylor 展开的,并注意到\(\nabla f(\mathbf{X}^*)=0\), 于是可得:
\[\begin{aligned} f(\mathbf{X})-f(\mathbf{X}^{*})&=\frac{1}{2}(\mathbf{X}-\mathbf{X^*})^T\nabla^2f(\mathbf{X}^*)(\mathbf{X}-\mathbf{X}^{*})+o(||\mathbf{X}-\mathbf{X}^{*}||^2)\\ &\geq \frac{1}{2}||\mathbf{X}-\mathbf{X}^{*}||^2+o(||\mathbf{X}-\mathbf{X}^{*}||^2) \end{aligned} \tag{5} \]
当其\(\mathbf{X}\) 充分接近\(\mathbf{X}^{*}\) (但\(\mathbf{X}\neq \mathbf{X}^{*}\)) 时,上式左端的符号取决于右端的第一项,因此,\(f(\mathbf{X})>f(\mathbf{X}^{*})\) 。
一般来说,这个定理具备理论意义。因为对于复杂的目标函数,Hessian矩阵不易求得,它的正定性就更难判定了。
定理 5.3 若多元函数在其极小点处的\(Hessian\) 矩阵是正定的,则它在这个点附近的等值面近似地呈现为同心椭球面簇。
证 明: 设\(\mathbf{X}^{*}\) 是多元函数的极小点,并设\(f(\mathbf{X})=\gamma\) 是充分靠近极小点\(\mathbf{X}^{*}\) 的一个等值面,即\(||\mathbf{X}-\mathbf{X}^{*}||\)充分小。把\(f(\mathbf{X})\) 在\(\mathbf{X}^{*}\) 点展开Taylor表达式,即
\[\begin{aligned} f(\mathbf{X})=f(\mathbf{X}^{*})+\nabla{f(\mathbf{X}^{*})^{T}}(\mathbf{X}-\mathbf{X}^{*})+\frac{1}{2}(\mathbf{X}-\mathbf{X}^{*})^T\nabla^2f(\mathbf{X}^*)(\mathbf{X}-\mathbf{X}^{*})+o(||\mathbf{X}-\mathbf{X}^*||^2) \end{aligned} \tag{6} \]
右端第二项因\(\mathbf{X}^{*}\) 是极小值点有\(\nabla{f(\mathbf{X}^{*})}=\mathbf{0}\) 而消失。如果略去高阶小项,那么
\[f(\mathbf{X})\approx f(\mathbf{X}^{*})+\frac{1}{2}(\mathbf{X}-\mathbf{X}^{*})^T\nabla^2f(\mathbf{X}^{*})(\mathbf{X}-\mathbf{X}^{*})+O(||\mathbf{X}-\mathbf{X}^{*}||^2) \tag{7} \]
又因为\(f(\mathbf{X})=\gamma\) ,所以得到如下近似等式:
\[f(\mathbf{X}^{*})+\frac{1}{2}(\mathbf{X}-\mathbf{X}^{*})^T\nabla^2f(\mathbf{X}^{*})(\mathbf{X}-\mathbf{X}^{*})=\gamma \tag{8} \]
其中\(f(\mathbf{X}^{*})\)为已知常量 ,整理可得:
\[(\mathbf{X}-\mathbf{X}^{*})^T\nabla^2f(\mathbf{X}^{*})(\mathbf{X}-\mathbf{X}^{*})=2(\gamma-f(\mathbf{X}^{*}))=constant \tag{9} \]
按假设\(\nabla^2f(\mathbf{X}^{*})\) 正定,由二次型理论可知,式(9)是以\(\mathbf{X}^{*}\) 为中心的椭球面方程。