Optimization Algorithms - Newton's Methods

考虑无约束问题
使用梯度下降法(GD)求解这一问题的迭代格式为
由于梯度下降的基本策略是沿一阶最速下降方向迭代。当
Newton’s Method
Newton法最初是为了求解非线性方程组而提出的,后来被推广到无约束最优化问题。注意到寻找足够光滑的向量值函数
给定任意点
其中
这样就得到了以下迭代格式
现在我们将以上的思路应用到无约束最优化问题中。对于可微二次函数
仿照上述思路考虑目标函数
舍弃高阶项
这一方程称为Newton方程,其解向量
其中
不难发现,对于二次函数,Newton法仅需一次迭代就可以收敛到最优解。对于非二次函数,牛顿法并不能保证经有限次迭代求得最优解。但由于目标函数在极小点附近可用二次函数较好地近似,故当初始点靠近极小点时,牛顿法的收敛速度一般会很快。
另外,Newton法具有仿射不变性。令
于是
具有与在原基底下的Newton法相同的迭代形式
并且若
现在我们讨论Newton法的收敛性。首先,Newton法的快速收敛依赖于初始点的选择,特别当
修正Newton法
回忆经典Newton法的迭代格式
该格式具有以下缺陷:
- 需要计算Hessian矩阵
并求逆,这在高维问题中计算量过大,同时内存消耗过大。 - Hessian矩阵
可能是奇异的或近似奇异的,此时Newton方向不可用。 - 初始点距离极小点较远时迭代不稳定,此时算法可能不收敛。
为了弥补以上缺陷,可以尝试从以下两方面改进Newton法:
- 对
进行修正以使其正定; - 使用线搜索来选择步长
以提高算法稳定性;
我们将使用以上两种策略改进Newton法得到的迭代算法称为修正Newton法(Modified Newton Method, MNM)。修正Newton法的迭代格式为:
- 确定矩阵
以使得 正定且条件数较小; - 求解修正Newton方程
获得Newton方向 ; - 使用线搜索确定步长
; - 更新迭代点

为了保证修正Newton法的收敛和稳定性,算法的关键在于选择合适的修正矩阵
最常使用的修正矩阵形式为
其中
则
当
其中
最后,可以证明修正Newton法在满足一定条件下具有全局收敛性。
非精确Newton法
如之前所述,当处理大规模问题时,Newton法的计算量和内存消耗都很大,特别是需要计算Hessian矩阵
设置迭代法求解Newton方程的终止条件为
其中
- 如果存在
使得 满足 ,且初始点 充分靠近 ,并且迭代序列最终收敛到 ,则梯度序列 以 -线性收敛速度收敛到0。 - 如果当
时有 ,则梯度序列 以 -超线性收敛速度收敛到0。 - 如果1或2成立,且
在 的邻域内Lipschitz连续,参数 ,则梯度序列 以 -二次收敛速度收敛到0。
在非精确求解Newton方程时,最常用的方法是使用共轭梯度法(Conjugate Gradient Method, CG)来求解线性方程组
使用CG法求解Newton方程的最大优势在于只需使用到Hessian矩阵

Quasi-Newton method
除了之前介绍的修正Newton法与非精确Newton法之外,还有一种常用的Newton方法变体称为拟Newton法(Quasi-Newton Method)。拟Newton法的基本思想是通过构造一个近似Hessian矩阵来代替真实的Hessian矩阵,或构造近似Hessian矩阵的逆矩阵来代替真实的Hessian矩阵的逆,从而避免直接计算Hessian矩阵及其逆。
设
令
现在舍弃高阶项
或近似Hessian逆矩阵
称上述两个方程为拟Newton法的割线方程。
类似于Newton法需要Hessian矩阵正定以保证收敛性,拟Newton法也需要近似Hessian矩阵
称上述要求为曲率条件。
如果线搜索使用Wolfe准则,即
其中
因此曲率条件

拟Newton矩阵
拟Newton法的关键在于如何构造近似Hessian矩阵
现在我们来推导为使割线方程成立,
注意到
将这一关系重新代入上式,得到
再令
综上,
类似地可以得到
上述两个更新格式在形式上互为对偶。事实上有
可以从
然而秩一更新方式存在严重的缺陷:
基于上述原因,通常在实际应用中使用BFGS(Broyden-Fletcher-Goldfarb-Shanno)更新方式来构造近似Hessian矩阵
现在我们来推导为使割线方程成立,
整理可得
我们令
以及
将以上关系代入割线方程就得到了
借助一般的SMW公式
其中
由BFGS更新方式得到
-
正定; - 曲率条件
对于任意 都成立。
另一种常用的拟牛顿矩阵更新方式是DFP(Davidon-Fletcher-Powell)更新方式,它采用与BFGS类似的秩二更新方式,但是使用的割线方程为
对应地使用SMW公式可以得到
不过尽管DFP格式与BFGS对偶,但从实际效果而言,DFP格式的求解效率整体上不如BFGS格式,一个经典的例子是
设置初始值
其中


收敛性分析
根据对BFGS格式有效性的分析,我们先确保初始矩阵
上述全局定理说明在一定假设下,使用BFGS格式确定下降方向,搭配Wolfe线搜索确定步长后是全局收敛的。下面这个定理从局部收敛性给出了其收敛速度。
上述定理表明, 序列
综上,以BFGS格式为代表的拟牛顿类算法由于仅仅使用了海瑟矩阵的近似,因此很难达到二阶收敛速度,最多只能达到Q-超线性收敛速度。但是,由于拟牛顿方法对近似矩阵的更新代价可能远小于牛顿方法计算海瑟矩阵的代价,因此它在大规模问题中的开销可能远小于牛顿算法,较为实用。
References
- Title: Optimization Algorithms - Newton's Methods
- Author: Gypsophila
- Created at : 2025-06-10 15:48:08
- Updated at : 2025-06-19 16:41:30
- Link: https://chenx.space/2025/06/10/NewtonMethod/
- License: This work is licensed under CC BY-NC-SA 4.0.