首先要明确下凸函数的概念:每条弦都位于图像或其上方,就称这个函数是凸函数。
从数轴的$$x=a$$到$$x=b$$中间的所有值可以写成$$\lambda a+(1-\lambda)b$$,其中$$0\leq \lambda \leq 1$$。弦(图中的蓝色直线)上的点可以写成$$\lambda f(a) +(1-\lambda)f(b)$$,凸函数对应的值为$$f(\lambda a +(1-\lambda)b)$$,这样,凸函数的性质可以写成:
根据数学归纳法,可以得到:
如果把$$\lambda_i$$看成是取值为$${x_i}$$的离散变量$$x$$的概率分布的话,那么上述的公式可以写成:
其中$$\mathbb E[\cdot]$$表示的是期望。对于连续变量,可以写成:
Jocobian矩阵是由一阶偏导数构成的
Hessian矩阵是由二阶偏导数构成的
参考:
在机器学习中,我们想要优化对应的损失函数,在损失平面上希望每次移动的方向是朝着下降最快的方向移动,这样才能够最快找到最优解。这一个方向称之为梯度。
梯度的计算就是求函数各个分量的偏导数。
参考:
https://www.math.uwaterloo.ca/~hwolkowi/matrixcookbook.pdf
In these examples, b is a constant scalar, and B is a constant matrix:
Scaler derivative f(x) \ \to \ \frac{\mathrm{d}{f}}{\mathrm{d}{x}} |
Vector derivative f(\mathbf{x}) \ \to \ \frac{\mathrm{d}{f}}{\mathrm{d}{\mathbf{x}}} |
---|---|
\mathbf{x}^T\mathbf{B}\mathbf{x} \ \to \ 2\mathbf{B}\mathbf{x} (矩阵 \mathbf{B}是对称矩) |
矩阵A的零空间就Ax=0的解的集合。