凸优化 1. 一阶优化 常见的一阶优化算法(SGD, Adam等) 为什么负梯度的方向是函数下降最快的方向? 函数下降最快的方向是唯一的吗? 2. 二阶优化 为什么Hessian半正定,函数为凸函数?是充要条件吗? 牛顿法怎么求Hessian矩阵,了解拟牛顿法么? 牛顿法和拟牛顿法(BFGS 和 L-BFGS) 海森矩阵的逆(绕开求解海森矩阵) 3. 收敛性分析 SGD一定收敛吗?为什么? 分析一阶优化和二阶优化的收敛速度