Basic Theory of Optimization Algorithms

凸集
凸集的几何定义 在
特别, 当
如果过集合
可以证明,线性方程组
如果连接集合
显然仿射集都是凸集。
凸集具有以下性质:
- 若
是凸集,则 是凸集。 - 若
和 均是凸集,则 是凸集。 - 若
和 均是凸集,则 是凸集,进而,任意多凸集的交都是凸集。 - 凸集的内部和闭包都是凸集。
从凸集中可以引出凸组合和凸包的概念:
- 凸组合:设
是一个非空集合, , 且 ,则称 为 的凸组合. - 凸包:设
是一个非空集合, ,则称 的凸包为所有 的凸组合所构成的集合,即
可以证明若
仿射集和凸集的定义很像, 除了
- 仿射组合:设
是一个非空集合, , 且 ,则称 为 的仿射组合。 - 仿射包:设
是一个非空集合, ,则称 的仿射包为所有 的仿射组合所构成的集合,即
与凸包类似,
锥组合和凸锥
- 锥:我们称集合
是一个锥,如果对于任意 ,有 。 如果 是凸集,那么称其是凸锥。 - 锥组合:设
是一个非空集合, , ,则称 为 的锥组合。
等价地,若集合
常见凸集
- 超平面:任取非零向量
,形如
的集合称为超平面。 - 半空间:任取非零向量
,形如
的集合称为半空间。超平面是仿射集和凸集, 半空间是凸集但不是仿射集。 - 多面体:把满足线性等式和不等式组的点的集合称为多面体, 即
其中是 的矩阵, , 是 的矩阵, 。多面体是有限个半空间和超平面的交, 因此由凸集的性质可知, 其为凸集。 - 范数球:设空间中到某一定点
(称为中心)的距离小于等于定值 (称为半径)的点的集合为(范数)球, 即 - 椭球:形如
的集合为椭球, 其中为椭球中心, 对称正定, 且 非奇异。 - 范数锥: 形如
的集合称为范数锥。锥是凸集, 但不是仿射集。
保凸运算
- 仿射变换:设
是仿射变换(包括缩放、平移、投影等),即
其中, ,则凸集在 下的像是凸集,且凸集在 下的原像也是凸集。 - 透视变换:设
为
是透视变换,则凸集在下的像和原像都是凸集。 - 分式线性变换:设
为
是分式线性变换,则凸集在下的像和原像都是凸集。
广义不等式与对偶锥
如果凸锥
是闭的; 是实心的,即 ; 是尖的,即 内部没有直线:若 , ,则 ;
那么称
常见的适当锥包括非负卦限
等。
给定适当锥
类似的严格偏序关系为
这样的偏序关系称为广义不等式 (generalized inequality),注意这样的偏序关系不保证所有对象都具有可比较性。
广义不等式具有以下性质:
- 自反:
; - 反对称:
; - 传递:
; - 可加:
; - 非负缩放:
;
设
对偶锥是相对于锥
对偶锥具有以下性质:
是锥,即使 不是锥也同样如此; 是闭凸集; - 若
,则 是尖的,即 内部不含直线; - 若
的闭包是尖的,则 ; - 若
是适当锥,则 也是适当锥; - 二次对偶:
是 的凸包的闭包。特别地,当 是闭凸锥时, 。
既然适当锥的对偶锥仍是适当锥, 则可以用适当锥
我们在下文简称其为”对偶广义不等式”,满足如下性质:
对于任意 都成立; 对于任意 都成立。
使用对偶广义不等式的好处是, 对偶锥始终是闭且凸的, 并可将一个偏序问题转换为满足一个偏序条件的全序问题。
分离超平面定理
超平面是空间中一类特殊的凸集(仿射集), 可以证明
超平面分离定理表明,如果要软划分
我们在超平面分离时提到了软划分的概念,其表明若集合仅是凸集,则定理中等号可能成立,即某一凸集与超平面相交。很多时候进一步要求超平面与任何凸集都不交,为此我们需要加强定理的条件。
此定理的退化形式即
支撑超平面 给定集合
为
根据以上定义,点
根据凸集成立的分离超平面定理, 凸集上任何的边界点都满足支撑超平面存在的条件, 则对于凸集成立如下的定理:
凸函数
基础定义
矩阵内积 定义矩阵
根据Cauchy不等式可知
其中
矩阵变量函数的导数 多元函数梯度的定义可以推广到变量是矩阵的情形。对于以
其中
其中
在实际应用中,矩阵Fréchet可微的定义和使用往往比较繁琐,为此我们需要介绍另一种定义 — Gâteaux可微。对于矩阵变量函数
则称
Example. 现在给出几种常见的矩阵变量函数的Gâteaux梯度:
- 线性函数
,对于任意的 有
因此 。 - 二次函数
,注意到
因此
类似地可得 - ln-det函数
,其中 ,给定 ,对于任意的 以及 都有
因为 ,因此可被合同对角化,设它的特征值为 ,则
因此 。
广义实值函数与适当函数 令
给定广义实值函数
- 存在
使得 ; - 对于任意的
都有 ;
则称函数
下水平集与上方图 对于广义实值函数
定义
闭函数 设
回忆对于广义实值函数
则
事实上,闭函数的定义等价于要求下半连续 — 设
的任意 -下水平集都是闭集; 是下半连续的; 是闭函数。
闭(下半连续)函数间的简单运算会保持原有性质:
- 加法: 若
与 均为适当的闭(下半连续)函数,并且 ,则 也是闭(下半连续)函数。其中适当函数的条件是为了避免出现未定式 的情况; - 仿射映射的复合: 若
为闭(下半连续)函数, 则 也为闭(下半连续)函数; - 取上确界: 若每一个函数
均为闭(下半连续)函数,则 也为闭(下半连续)函数。
凸函数 给定适当函数
是凸集;- 对于任意的
和 都有
则称
常见的凸函数包括:仿射函数,指数函数,幂函数,绝对值的幂,负熵
强凸函数 若存在
是凸函数,则称
对任意的
凸函数的判定
降维 最简单的判定一个函数是否为凸函数的方法是将函数限制在任意直线上,然后判断对应的一维函数是否是凸的:
是凸函数当且仅当对于任意的 和 ,函数 是关于 的凸函数,其中考察上方图 另外,也可以借助上方图来进行判定:函数
为凸函数当且仅当其上方图 是凸集。凸性的一阶条件 对于定义在凸集上的可微函数
, 是凸函数当且仅当
对于任意的 都成立。梯度单调性 设
为可微函数,则 为凸函数当且仅当 为凸集且 为单调映射,即
对于任意的 都成立。凸性的二阶条件 设
为定义在凸集上的二阶连续可微函数,则 是凸函数当且仅当
- 如果
对于任意的 都成立,则 是严格凸函数。
对于可微函数而言,上述二阶条件通常可以很方便地判定它是否是凸函数。
Example. 下面使用二阶条件考虑几个经典的凸函数:
- 最小二乘函数
,因为
因此对于任意 , 都是凸函数。 - quadratic-over-linear函数
,直接计算可知
因此 是 上的凸函数。 - log-sum-exp函数
,同样直接计算可知
其中 。为了说明 ,只需证明对于任意 都有
也即
由Cauchy不等式可知
因此 是凸函数。 - 几何平均函数
是 上的凹函数。 - ln-det函数
在 是凸函数。任取 和 ,将 限制在 上,要求 使得 ,则
其中 是 的第 个特征值。由于
因此 关于 是凸函数,又由第一条判定定理可知 是凸函数。
保凸运算
除了利用上一小节中的判定定理来判断一个函数是否是凸函数,也可以通过说明该函数可由简单的凸函数通过一些保凸的运算得到,这些保凸的运算包括:
非负加权和:
- 若
是凸函数,则 是凸函数,其中 ; - 若
都是凸函数,则 也是凸函数;
例子:线性不等式的对数障碍函数
- 若
与仿射函数的复合:若
是凸函数,则 也是凸函数;例子:仿射函数的任意范数
。逐点取极大值:若
是凸函数,则 是凸函数。例子:
- 分段线性函数
; 的前 个最大分量之和
- 分段线性函数
逐点取上界:若对每个
而言, 是关于 是凸函数,则
是凸函数;例子:
- 集合
的支撑函数 ; - 集合
到给定点 的最远距离 ; - 对称矩阵
的最大特征值 。
- 集合
与标量函数的复合:给定函数
和 ,定义 。如果 的定义域非全空间,则对于 定义 的延拓 ,令 ,则 是凸函数, 是凸函数且 单调不减时,或者 是凹函数, 是凸函数且 单调不增时,
得到的 是凸函数。
例子:
- 如果
是凸函数,则 是凸函数; - 如果
是正值凹函数,则 是凸函数。
与向量函数的复合:给定函数
和 ,定义
如果 的定义域非全空间,则对于 定义 的延拓 ,令 ,则 都是凸函数, 是凸函数且 单调不减时,或者 都是凹函数, 是凸函数且 单调不增时,
得到的 是凸函数。
例子:
- 如果
是凸函数,则 是凸函数; - 如果
是正值凹函数,则 是凹函数。
取下确界:若
关于 整体是凸函数, 是凸集,则
是凸函数。例子:
- 函数
在满足 与 的情况下是凸函数,关于 取最小值可得
是凸函数。进一步地, 的Schur补 ; - 点
到凸集 的距离 是凸函数。
- 函数
透视函数:定义
的透视函数 为
若 是凸函数,则 是凸函数。例子:
是凸函数,因此 是区域 上的凸函数; 是凸函数,因此相对熵函数 是 上的凸函数;- 若
是凸函数,则
是区域 上的凸函数。
共轭函数:适当函数
的共轭函数定义为
无论原函数 是否为凸函数,共轭函数 恒为凸函数。
例子:
- 负对数
,注意到 - 强凸二次函数
,其中 , 的对偶函数为
典型优化问题
回顾最优化问题的一般形式为
按照目标和约束函数的简易程度分,可以分为线性规划和非线性规划。线性规划是指所有的目标函数和约束函数都是线性的,非线性规划是指目标函数和约束函数中至少有一个是非线性的。
另外也可按照问题最优解的性质,分为凸优化问题与非凸优化问题。凸优化问题的任何稳定点都是全局极小点,非凸优化问题的稳定点则可能是局部极小点,全局极小点甚至是鞍点。
凸优化
标准形式的凸优化问题为
其中
值得注意的是,优化问题性质和其定义的形式有关,例如
并不是凸优化问题,因为
凸优化问题的最大优势在于其任意局部极小点都是全局最小点。
线性规划
线性规划问题的一般形式为
其中
在实际中,由于其他形式都可进行转化,故考虑上述问题的两种特殊形式:
- 标准形式:
- 不等式形式:
Example:基追踪问题 基追踪问题是压缩感知中的一个基本问题,可以写为
通过对每个
这正是一个线性规划问题。除此之外,也可以引入
利用
这同样是一个线性规划问题。
此外,常见的线性规划问题还包括:运输问题、数据拟合、计算多面体的Chebyshev中心以及分式线性问题等。
二次锥规划
二次规划问题的一般形式为
其中
常见的二次规划问题包括:
- 最小二乘:
- 随机线性规划:
更一般地,带有二次约束的二次规划问题 (QCQP) 形如
其中
事实上,凸问题中的不等式约束可以使用广义不等式来代替得到更一般的形式:
其中
当目标函数和约束条件都为仿射函数时,上述问题称为锥规划问题:
也可以将线性规划问题延伸到了非多面体锥上。
现在定义二次锥 (SOC)为
在此基础上定义旋转二次锥为
它等价于对二次锥中的
即将
二次锥规划 (SOCP) 的一般形式为
其中不等式约束构建了更一般的二次锥约束,即
其中
对于
Remark. 若是将SOCP的约束两边平方,得到的
LP转化为SOCP 对于线性规划的不等式约束
其中
QP转化为SOCP 对于二次规划问题
其中
其中
QCQP转化为SOCP 对于QCQP问题
等价于二次锥约束
其中
Examples
- 最小范数问题:令
,则 等价于 等价于
- 极小化仿射函数的调和平均值
等价于
半定规划
半定规划(SDP)是线性规划在矩阵空间中的一种推广。它的目标函数和等式约束均为关于矩阵的线性函数,而它与线性规划不同的地方是其自变量取值于半正定矩阵空间。
半定规划问题的一般形式如下:
其中
类似于线性规划问题,半正定规划的标准形式为
与之对应的对偶形式为
由于许多非凸问题松弛为半定规划后,得到的近似问题比线性规划更紧,所以半定规划更普遍。
LP转化为SDP 对于线性规划问题
其中的约束条件等价于
其中
因此对应的SDP形式为
SOCP转化为SDP 首先回忆Schur引理:对于分块矩阵
如果
等价于如下SDP问题
非凸QCQP的半定规划松弛 考虑二次约束二次规划问题
其中
因此上述原问题中的所有的二次项均有如下等价刻画
于是原问题等价于
现在进一步定义
下面将上述等价问题松弛为半定规划问题。在上述问题中唯一的非线性部分为约束
可以证明
最优性理论
本节考虑优化问题
其中
下面首先考虑最优解的存在性,然后考虑如何求出其最优解。
解的存在性
在分析中的Weierstrass定理表明定义在紧集上的连续函数一定存在最大(最小) 值点,然而在许多实际问题中,定义域可能不是紧的,目标函数也不一定连续,因此需要将此定理推广来保证最优化问题解的存在性。
-
有界; - 存在常数
使得下水平集 非空且有界; -
是强制的,即对于任意满足 的点列 都有
Remark. 上述定理的三个条件在本质上都是保证
尽管推广的Weierstrass定理给出了最优解的存在性条件,但其对应的解可能不止一个。当最优解是唯一存在时,我们可以通过比较不同算法收敛至该解的速度来判断算法好坏。但是如果问题有多个最优值点,不同的算法收敛到的最优值点可能不同,那么这些算法收敛速度的比较就失去了参考价值。因此,最优化问题解的唯一性在理论分析和算法比较中扮演着重要角色。
拟强凸函数 给定凸集
则称函数
Remark. 拟强凸函数的性质与凸函数类似但不相同:
- 强拟凸函数不一定是凸函数,但其任意一个下水平集都是凸集,并可以包含一部分性质较好的非凸函数。
- 任意强凸函数均为强拟凸的,但凸函数并不一定是强拟凸的。
- 任何定义在闭有界凸集上的强凸函数,如
,的最优解都是唯一存在的。 - 对于一般的凸函数,其最优解可能不唯一,比如
, 任意 都是 的最优解。
我们将上述第三条注记严格化为如下唯一性定理:
无约束可微问题
无约束可微优化问题通常表示为如下形式:
其中
给定一个点
下降方向 对于可微函数
则称
由下降方向的定义,容易验证: 如果
因此在局部最优点处不能有下降方向。这给出了局部最优点的一阶必要条件:
在没有额外假设时,如果一阶必要条件满足,我们仍然不能确定当前点是否是一个局部极小点。假设
当一阶必要条件满足时上式变为
于是可得二阶最优性条件:
- 必要条件:
如果
是一个局部极小点,则 - 充分条件:
如果
则 是 的一个局部极小点。
若点
注意,二阶最优性条件给出的仍然是关于局部最优性的判断。对于给定点的全局最优性判断, 我们还需要借助实际问题的性质, 比如目标函数是凸的、非线性最小二乘问题中目标函数值为0等。特别地,由于凸问题的局部最优点总是全局最优的,因此
对偶理论
现在考虑一般的约束优化问题
其中
通过将
现在记
令
定义该问题的Lagrange对偶函数为对
从定义出发可以直接得到如下重要结论:
由于
称左侧优化问题
为原问题的Lagrange对偶问题 (Lagrangian dual problem),记该对偶问题的最优值为
注意到对偶问题是一个最大化凹函数问题,因此无论原问题是否是凸优化问题,对应的Lagrange对偶问题总是一个凸优化问题。
Example. 考虑线性规划问题的对偶,原问题为
对应的Lagrange函数为
于是对偶函数为
所以最终的对偶问题为
令
借助共轭函数 考虑更一般的线性约束问题
它的对偶函数为
回忆
所以如果已知
与弱对偶原则
Remark. 一个问题不同等价形式的对偶可能差异巨大,当对偶问题难以推导或没有价值时, 可以尝试改写原问题的形式。常见的改写技巧包括:
- 引入新变量与等式约束;
- 将显式约束隐式化或将隐式约束显式化。
一般约束优化问题
我们下面讨论带约束优化问题的最优条件。和无约束优化问题类似,本节中,我们先讨论一阶必要条件,再讨论二阶条件。
切锥 给定可行域
则称

对于一般的优化问题
我们有以下几何最优性条件:
不过上述几何刻画由极限定义,并不适用于一般计算。为此,我们定义线性化可行锥。
线性化可行锥 设
则称
定义

不难证明,当
不过切锥未必包含线性化可行锥,例如考虑
上述问题等价于
由于问题的可行域没有发生变化,故
从上述例子中可以看出,线性化可行方向锥
线性无关约束品性 (LICQ) 给定可行点
可以证明,如果在某一可行点
Mangasarian–Fromovitz约束品性 (MFCQ) 给定可行点
且等式约束对应的梯度
Mangasarian–Fromovitz约束品性是LICQ的的一个常用推广,简称为MFCQ。LICQ可以推出MFCQ,但是反过来不成立。在MFCQ成立的情况下,我们也可以证明
线性约束品性 若所有的约束函数
当线性约束品性成立时,也有
KKT条件
之前给出的几何最优性条件为
当约束品性成立、线性化可行锥
然而上式依然难以验证, 下面使用Farkas引理进行化简:
Farkas引理 设
的
由Farkas引理,取
其中
如果补充定义,令
这对应Lagrange函数关于
另外,对于任意的
因此
现在给出重要的KKT条件。
-
稳定性条件:
; -
原始等式可行性条件:
; -
原始不等式可行性条件:
; -
对偶可行性条件:
; -
互补松弛条件:
;
称满足上述KKT条件的变量对
Remark. 如果局部最优点处
现在回到一般的优化问题
如果
此时一阶条件无法判断
临界锥 设
由定义可知临界锥是线性化可行方向锥
临界锥定义了依据一阶导数不能判断是否为下降或上升方向的线性化可行方向,必须使用高阶导数信息加以判断。
现在给出一般优化问题的二阶最优性条件:
-
必要条件:设
是问题 的局部最优解,并且 。令 为相应的Lagrange乘子, 是 的KKT对,则 -
充分条件:设在可行点
处存在一个Lagrange乘子 使得 是 的KKT对。如果 则 是 的一个严格局部最优解。
从上述定理中可以发现,与无约束优化问题的二阶最优性条件类似,约束优化问题的二阶最优性条件也要求某种“正定性”,但只需要考虑临界锥
带约束凸优化问题
一般地,带约束凸优化问题形如
其中
为
定义可行域为
并且由于凸优化问题的可行域是凸集,因此等式约束一般只能是线性约束。
凸优化问题有很多好的性质。一个自然的问题是:我们能否像研究无约束问题那样找到该问题最优解的一阶充要条件? 如果这样的条件存在,它在什么样的约束品性下成立? 在通常情况下,优化问题的对偶间隙大于0,即强对偶原理不满足,但对很多凸优化问题,在特定约束品性下可以证明强对偶原理。直观的一种约束品性是存在满足所有约束条件的严格可行解。
首先给出集合
称集合
相对内点是内点的推广,若
Slater约束品性实际上是要求自然定义域
不等式约束是仿射函数时,Slater条件可以放宽。设前
即对线性不等式约束无需要求其存在严格可行点。
Slater约束品性下的最优性条件有如下重要结论:
该定理表明,Slater条件成立时,当
对于一般的约束优化问题,当问题满足特定约束品性时,我们知道KKT条件是局部最优解处的必要条件。而对于凸优化问题, 如果KKT条件成立,KKT条件则变为局部最优解的充要条件(根据凸性,局部最优解也是全局最优解)。
-
稳定性条件:
; -
原始等式可行性条件:
; -
原始不等式可行性条件:
; -
对偶可行性条件:
; -
互补松弛条件:
.
定理的充分性说明,若能直接求解出凸优化问题的KKT对,则其就是对应问题的最优解。实际上,除了Slater约束品性条件外,在前面第二小节中,我们知道LICQ、MFCQ条件也可以保证KKT条件成立。故任一约束品性条件成立时,KKT条件就是最优点的充分必要条件。当Slater条件不满足时,即使原始问题存在全局极小值点,也可能不存在
是一个凸问题,但是最优点
总结
问题 | 一阶条件 | 二阶条件 |
---|---|---|
可微问题 |
|
|
凸问题 | — | |
复合优化问题 | — | |
非凸非光滑问题 | — | |
问题 | 一阶条件 | 二阶条件 | 约束品性 |
---|---|---|---|
一般问题 | KKT 条件(必要) |
|
LICQ |
凸优化问题 | KKT 条件(充要) | — | 任意约束品性条件 |
其中一般约束优化问题的二阶充分条件不需要LICQ为前提,并且约束品性也可以换为其他任意可以保证
- Title: Basic Theory of Optimization Algorithms
- Author: Gypsophila
- Created at : 2025-05-08 12:37:53
- Updated at : 2025-05-26 13:23:43
- Link: https://chenx.space/2025/05/08/OptTheory/
- License: This work is licensed under CC BY-NC-SA 4.0.