Skip to content

Latest commit

 

History

History
85 lines (43 loc) · 4.08 KB

shu-xue-ji-chu.md

File metadata and controls

85 lines (43 loc) · 4.08 KB

数学基础

Jensen's inequality

首先要明确下凸函数的概念:每条弦都位于图像或其上方,就称这个函数是凸函数。

从数轴的$$x=a$$到$$x=b$$中间的所有值可以写成$$\lambda a+(1-\lambda)b$$,其中$$0\leq \lambda \leq 1$$。弦(图中的蓝色直线)上的点可以写成$$\lambda f(a) +(1-\lambda)f(b)$$,凸函数对应的值为$$f(\lambda a +(1-\lambda)b)$$,这样,凸函数的性质可以写成:

$$ f(\lambda a +(1-\lambda)b)\leq\lambda f(a) +(1-\lambda)f(b) $$

根据数学归纳法,可以得到:

$$ f(\sum _{i=1}^m\lambda_ix_i)\leq\sum _{i=1}^m\lambda_if(x_i) $$

如果把$$\lambda_i$$看成是取值为$${x_i}$$的离散变量$$x$$的概率分布的话,那么上述的公式可以写成:

$$ f(\mathbb{E}[x]) \leq \mathbb{E}[f(x)] $$

其中$$\mathbb E[\cdot]$$表示的是期望。对于连续变量,可以写成:

$$ f\Big(\int \boldsymbol xp( \boldsymbol x) d \boldsymbol x\Big) \leq \int f( \boldsymbol x)p( \boldsymbol x)d \boldsymbol x $$

Jocobian矩阵&Hessian矩阵

Jocobian矩阵是由一阶偏导数构成的

Hessian矩阵是由二阶偏导数构成的

参考:

Jacobian矩阵和Hessian矩阵

梯度

在机器学习中,我们想要优化对应的损失函数,在损失平面上希望每次移动的方向是朝着下降最快的方向移动,这样才能够最快找到最优解。这一个方向称之为梯度。

梯度的计算就是求函数各个分量的偏导数。

参考:

为什么梯度反方向是函数值局部下降最快的方向?

张量

矩阵求导

reference: http://www.gatsby.ucl.ac.uk/teaching/courses/sntn/sntn-2017/resources/Matrix_derivatives_cribsheet.pdf

https://www.math.uwaterloo.ca/~hwolkowi/matrixcookbook.pdf

In these examples, b is a constant scalar, and B is a constant matrix:

Scaler derivative

f(x) \ \to \ \frac{\mathrm{d}{f}}{\mathrm{d}{x}}

Vector derivative

f(\mathbf{x}) \ \to \ \frac{\mathrm{d}{f}}{\mathrm{d}{\mathbf{x}}}

$$bx \ \to \ b$$ $$\mathbf{x}^T\mathbf{B} \ \to \ \mathbf{B}$$
$$bx \ \to \ b$$ $$\mathbf{x}^Tb \ \to \ b$$
$$x^2 \ \to \ 2x$$ $$\mathbf{x}^T\mathbf{x} \ \to \ 2\mathbf{x}$$
$$bx^2 \ \to \ 2bx$$

\mathbf{x}^T\mathbf{B}\mathbf{x} \ \to \ 2\mathbf{B}\mathbf{x}

(矩阵 \mathbf{B}是对称矩)

矩阵的零空间(nullspace)

矩阵A的零空间就Ax=0的解的集合。

reference: https://blog.csdn.net/tengweitw/article/details/40039373?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-6&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-6