Skip to content

Commit

Permalink
small update
Browse files Browse the repository at this point in the history
  • Loading branch information
KevinLee1110 committed Apr 26, 2017
1 parent f799ec4 commit 3d65525
Show file tree
Hide file tree
Showing 4 changed files with 24 additions and 8 deletions.
2 changes: 1 addition & 1 deletion Chapter3/probability_and_information_theory.tex
Original file line number Diff line number Diff line change
Expand Up @@ -603,7 +603,7 @@ \section{\glsentrytext{bayes_rule}}
注意到$P(\RSy)$出现在上面的公式中,它通常使用$P(\RSy) = \sum_x P(\RSy \mid x) P(x)$来计算,所以我们并不需要事先知道$P(\RSy)$的信息。

\gls{bayes_rule}可以从\gls{conditional_probability}的定义直接推导得出,但我们最好记住这个公式的名字,因为很多文献通过名字来引用这个公式。
这个公式是以Reverend Thomas Bayes来命名的,他是第一个发现这个公式特例的人。
这个公式是以牧师Thomas Bayes的名字来命名的,他是第一个发现这个公式特例的人。
这里介绍的一般形式由Pierre-Simon Laplace独立发现。

\section{连续型变量的技术细节}
Expand Down
12 changes: 6 additions & 6 deletions Chapter6/deep_feedforward_networks.tex
Original file line number Diff line number Diff line change
Expand Up @@ -190,7 +190,7 @@ \section{实例:学习XOR}


$f^{(1)}$应该是哪种函数?线性模型到目前为止都表现不错,让$f^{(1)}$也是线性的似乎很有诱惑力。
不幸的是,如果$f^{(1)}$是线性的,那么\gls{feedforward_network}作为一个整体对于输入仍然是线性的。
可惜的是,如果$f^{(1)}$是线性的,那么\gls{feedforward_network}作为一个整体对于输入仍然是线性的。
暂时忽略截距项,假设$f^{(1)}(\Vx)= \MW^\top \Vx$并且$f^{(2)}(\Vh)=\Vh^\top \Vw$,那么$f(\Vx) = \Vw^\top\MW^\top \Vx$
我们可以将这个函数重新表示成$f(\Vx) = \Vx^\top\Vw'$其中$\Vw' = \MW\Vw$

Expand Down Expand Up @@ -323,7 +323,7 @@ \section{基于梯度的学习}
用于非凸损失函数的随机梯度下降没有这种收敛性保证,并且对参数的初始值很敏感。
对于\gls{feedforward_neural_network},将所有的权重值初始化为小随机数是很重要的。
偏置可以初始化为零或者小的正值。
这种用于训练\gls{feedforward_neural_network}以及几乎所有深度模型的迭代的基于梯度的优化算法会在第\chapref{chap:optimization_for_training_deep_models}详细介绍,参数初始化会在\secref{sec:parameter_initialization_strategies}中具体说明。
这种用于训练\gls{feedforward_neural_network}以及几乎所有深度模型的迭代的基于梯度的优化算法会在\chapref{chap:optimization_for_training_deep_models}详细介绍,参数初始化会在\secref{sec:parameter_initialization_strategies}中具体说明。
就目前而言,只需要懂得,训练算法几乎总是基于使用梯度来使得代价函数下降的各种方法即可。
一些特别的算法是对梯度下降思想的改进和提纯(在\secref{sec:gradient_based_optimization}中介绍)还有一些更特别的,大多数是对随机梯度下降算法的改进(在\secref{sec:stochastic_gradient_descent_chap5}中介绍)。

Expand Down Expand Up @@ -988,7 +988,7 @@ \subsection{万能近似性质和深度}

线性模型,通过矩阵乘法将特征映射到输出,顾名思义,仅能表示线性函数。
它具有易于训练的优点,因为当使用线性模型时,许多损失函数会导出凸优化问题。
不幸的是,我们经常希望我们的系统学习非线性函数。
可惜的是,我们经常希望我们的系统学习非线性函数。

乍一看,我们可能认为学习非线性函数需要为我们想要学习的那种非线性专门设计一类模型族。
幸运的是,具有\gls{hidden_layer}的\gls{feedforward_network}提供了一种万能近似框架。
Expand All @@ -1012,7 +1012,7 @@ \subsection{万能近似性质和深度}
\gls{universal_approximation_theorem}说明了,存在一个足够大的网络能够达到我们所希望的任意精度,但是定理并没有说这个网络有多大。
\cite{Barron93}提供了单层网络近似一大类函数所需大小的一些界。
不幸的是,在最坏情况下,可能需要指数数量的\gls{hidden_unit}(可能一个\gls{hidden_unit}对应着一个需要区分的输入配置)。
这在二进制情况下很容易看到:向量$\Vv\in \{0,1\}^n$上的可能的二进制函数的数量是$2^{2^n}$,并且选择一个这样的函数需要$2^n$位,这通常需要$O(2^n)$的自由度。
这在二进制值的情况下很容易看到:向量$\Vv \in \{0,1\}^n$上的可能的二值型函数的数量是$2^{2^n}$,并且选择一个这样的函数需要$2^n$位,这通常需要$O(2^n)$的自由度。

总之,具有单层的\gls{feedforward_network}足以表示任何函数,但是网络层可能大得不可实现,并且可能无法正确地学习和\gls{generalization}。
在很多情况下,使用更深的模型能够减少表示期望函数所需的单元的数量,并且可以减少\gls{generalization}误差。
Expand Down Expand Up @@ -1731,8 +1731,8 @@ \subsection{深度学习界以外的微分}
q_i = \frac{\exp(z_i)}{\sum_i \exp(z_i)},
\end{equation}
其中我们通过指数化、求和与除法运算构建softmax函数,并构造\gls{cross_entropy}损失函数$J=-\sum_i p_i\log q_i$
人类数学家可以观察到$J$$z_i$的导数采用了非常简单的形式:$p_iq_i-p_i$
\footnote{译者注:这里作者误写成了$q_i-p_i$。}
人类数学家可以观察到$J$$z_i$的导数有一个非常简单的形式:$q_i-p_i$
\footnote{译者注:$\frac{\partial J}{\partial z_i} = -\frac{p_i}{q_i}\frac{\partial q_i}{\partial z_i} -\sum_{j \ne i} \frac{p_j}{q_j} \frac{\partial q_j}{\partial z_i} = -\frac{p_i}{q_i}(q_i - q_i^2) - \sum_{j \ne i} \frac{p_j}{q_j}(-q_jq_i) =p_i(q_i - 1) + (1-p_i)q_i = q_i - p_i.$}。
反向传播算法不能够以这种方式来简化梯度,而是会通过原始图中的所有对数和指数操作显式地传播梯度。
一些软件库如Theano~\citep{bergstra+al:2010-scipy-small,Bastien-Theano-2012}能够执行某些种类的代数替换来改进由纯反向传播算法提出的图。

Expand Down
2 changes: 1 addition & 1 deletion README.md
Original file line number Diff line number Diff line change
Expand Up @@ -84,7 +84,7 @@
@weijy026a @RuiZhang1993 @zymiboxpay @xingkongliang @oisc @tielei @yuduowu @Qingmu @HC-2016 @xiaomingabc
@bengordai @Bojian @JoyFYan @minoriwww @khty2000 @gump88 @zdx3578 @PassStory @imwebson @wlbksy @roachsinai @Elvinczp
@endymecy name:YUE-DaJiong @9578577 @linzhp @cnscottzheng @germany-zhu @zhangyafeikimi @showgood163 @gump88
@kangqf @NeutronT @badpoem @kkpoker @Seaball @wheaio @angrymidiao @ZhiweiYang @corenel @zhaoyu611 @SiriusXDJ @dfcv24 EmisXXY FlyingFire vsooda @friskit-china
@kangqf @NeutronT @badpoem @kkpoker @Seaball @wheaio @angrymidiao @ZhiweiYang @corenel @zhaoyu611 @SiriusXDJ @dfcv24 EmisXXY FlyingFire vsooda @friskit-china @poerin @ninesunqian @JiaqiYao

如有遗漏,请务必通知我们,可以发邮件至`echo c3dvcmQueW9ya0BnbWFpbC5jb20K | base64 -d`
这是我们必须要感谢的,所以不要不好意思。
Expand Down
16 changes: 16 additions & 0 deletions acknowledgments_github.md
Original file line number Diff line number Diff line change
Expand Up @@ -175,3 +175,19 @@
2017年3月17日
---------------
- @yaoxiuyong ==> Chapter 5, 5.1.4节特征权重增加/减少校对

2017年4月5日
---------------
- @sailordiary ==> Chapter3, "Reverend"=>"牧师",详见[issue](https://github.com/exacity/deeplearningbook-chinese/issues/53)

2017年4月7日
---------------
- @poerin ==> Chapter6, 去掉"第"

2017年4月9日
---------------
- @ninesunqian ==> Chapter6, "二进制函数"=>"二值型函数"

2017年4月21日
---------------
- @JiaqiYao ==> Chapter6, 公式`q_i - p_i`的推导,详见[issue](https://github.com/exacity/deeplearningbook-chinese/issues/66)

0 comments on commit 3d65525

Please sign in to comment.