update md

peterlau0626 · May 6, 2017 · 5359aac · 5359aac
1 parent 7adec86
commit 5359aac
Show file tree

Hide file tree

Showing 8 changed files with 100 additions and 98 deletions.
diff --git a/README.md b/README.md
@@ -18,7 +18,7 @@
 面向的读者
 --------------------
 
-请直接下载[PDF](https://github.com/exacity/deeplearningbook-chinese/releases/download/v0.5-beta/dlbook_cn_v0.5-beta.pdf.zip)阅读。
+请直接下载[PDF](https://github.com/exacity/deeplearningbook-chinese/releases/download/v0.5-beta/dlbook_cn_v0.5-beta.pdf.zip)阅读(或[百度云](https://pan.baidu.com/s/1o8v19Om))。
 
 这一版准确性已经有所提高，读者可以以中文版为主、英文版为辅来阅读学习，但我们仍建议研究者阅读[原版](http://www.deeplearningbook.org/)。
 
@@ -85,7 +85,7 @@
 @bengordai @Bojian @JoyFYan @minoriwww @khty2000 @gump88 @zdx3578 @PassStory @imwebson @wlbksy @roachsinai @Elvinczp 
 @endymecy name:YUE-DaJiong @9578577 @linzhp @cnscottzheng @germany-zhu  @zhangyafeikimi @showgood163 @gump88
 @kangqf @NeutronT @badpoem @kkpoker @Seaball @wheaio @angrymidiao @ZhiweiYang @corenel @zhaoyu611 @SiriusXDJ @dfcv24 EmisXXY FlyingFire vsooda @friskit-china @poerin @ninesunqian @JiaqiYao
-@Sofring, @wenlei, @wizyoung, @imageslr, @@indam, @XuLYC, @zhouqingping 
+@Sofring @wenlei @wizyoung @imageslr @@indam @XuLYC @zhouqingping @freedomRen @runPenguin
 
 如有遗漏，请务必通知我们，可以发邮件至`echo c3dvcmQueW9ya0BnbWFpbC5jb20K | base64 -d`。
 这是我们必须要感谢的，所以不要不好意思。

diff --git a/docs/_posts/2016-12-01-Chapter1_introduction.md b/docs/_posts/2016-12-01-Chapter1_introduction.md
@@ -46,7 +46,7 @@ Cyc包括一个推断引擎和一个使用CycL语言描述的声明数据库。
 这是一个笨拙的过程。
 人们设法设计出足够复杂的形式化规则来精确地描述世界。
 例如，Cyc不能理解一个关于名为~Fred~的人在早上剃须的故事{cite?}。
-它的推理引擎检测到故事中的不一致性：它知道人没有电气零件，但由于~Fred~正拿着一个电动剃须刀，它认为实体
+它的推理引擎检测到故事中的不一致性：它知道人体的构成不包含电气零件，但由于~Fred~正拿着一个电动剃须刀，它认为实体
 "正在剃须的Fred"\,("FredWhileShaving")含有电气部件。
 因此它产生了这样的疑问——Fred~在刮胡子的时候是否仍然是一个人。
 

diff --git a/docs/_posts/2016-12-03-Chapter3_probability_and_information_theory.md b/docs/_posts/2016-12-03-Chapter3_probability_and_information_theory.md
@@ -613,7 +613,7 @@ P(\RSx \mid \RSy) = \frac{P(\RSx) P(\RSy \mid \RSx)}{P(\RSy)}.
 注意到$P(\RSy)$出现在上面的公式中，它通常使用$P(\RSy) = \sum_x P(\RSy \mid x) P(x)$来计算，所以我们并不需要事先知道$P(\RSy)$的信息。
 
 贝叶斯规则可以从条件概率的定义直接推导得出，但我们最好记住这个公式的名字，因为很多文献通过名字来引用这个公式。
-这个公式是以Reverend Thomas Bayes来命名的，他是第一个发现这个公式特例的人。
+这个公式是以牧师Thomas Bayes的名字来命名的，他是第一个发现这个公式特例的人。
 这里介绍的一般形式由Pierre-Simon Laplace独立发现。
 
 

diff --git a/docs/_posts/2016-12-05-Chapter5_machine_learning_basics.md b/docs/_posts/2016-12-05-Chapter5_machine_learning_basics.md
@@ -426,8 +426,8 @@ Iris（鸢尾花卉）数据集~{cite?}是统计学家和机器学习研究者
 对于某个固定的$\Vw$，训练集误差的期望恰好和测试集误差的期望一样，这是因为这两个期望的计算都使用了相同的数据集生成过程。
 这两种情况的唯一区别是数据集的名字不同。
 
-当然，当我们使用机器学习算法时，我们不会提前固定参数，然后从数据集中采样。
-我们会在训练集上采样，然后挑选参数去降低训练集误差，然后再在测试集上采样。
+当然，当我们使用机器学习算法时，我们不会提前固定参数，然后采样得到两个数据集。
+我们采样得到训练集，然后挑选参数去降低训练集误差，然后采样得到测试集。
 在这个过程中，测试误差期望会大于或等于训练误差期望。
 以下是决定机器学习算法效果是否好的因素：
 \begin{enumerate}
@@ -535,7 +535,7 @@ VC\,维定义为该分类器能够分类的训练样本的最大数目。
 
 为考虑容量任意高的极端情况，我们介绍非参数\emph{模型}的概念。
 至此，我们只探讨过参数模型，例如线性回归。
-参数模型学习到的函数在观测新数据前，参数是有限且固定的向量。
+参数模型学习的函数在观测到新数据前，参数向量的分量个数是有限且固定的。
 非参数模型没有这些限制。
 
 有时，非参数模型仅是一些不能实际实现的理论抽象（比如搜索所有可能概率分布的算法）。
@@ -545,7 +545,7 @@ VC\,维定义为该分类器能够分类的训练样本的最大数目。
 当需要为测试点$\Vx$分类时，模型会查询训练集中离该点最近的点，并返回相关的回归目标。
 换言之，$\hat{y}=y_i$其中$i=\argmin \norm{\MX_{i,:}-\Vx}_2^2$。
 该算法也可以扩展成$L^2$范数以外的距离度量，例如学成距离度量{cite?}。
-如果允许该算法通过平均$\MX_{i,:}$中所有邻近的向量对应的$y_i$来打破联系，那么该算法会在任意回归数据集上达到最小可能的训练误差（如果存在两个相同的输入对应不同的输出，那么训练误差可能会大于零）。
+在有多个最近向量存在的情况下，如果允许该算法通过平均所有最近的$\MX_{i,:}$对应的$y_i$来打破平局，那么该算法会在任意回归数据集上达到最小可能的训练误差（如果存在两个相同的输入对应不同的输出，那么训练误差可能会大于零）。
 
 最后，我们也可以将参数学习算法嵌入另一个增加参数数目的算法来创建非参数学习算法。
 例如，我们可以想象这样一个算法，外层循环调整多项式的次数，内层循环通过线性回归学习模型。

diff --git a/docs/_posts/2016-12-06-Chapter6_deep_feedforward_networks.md b/docs/_posts/2016-12-06-Chapter6_deep_feedforward_networks.md
@@ -190,7 +190,7 @@ f(\Vx; \Vw, b) = \Vx^\top \Vw + b.
 
 
 $f^{(1)}$应该是哪种函数？线性模型到目前为止都表现不错，让$f^{(1)}$也是线性的似乎很有诱惑力。
-不幸的是，如果$f^{(1)}$是线性的，那么前馈网络作为一个整体对于输入仍然是线性的。
+可惜的是，如果$f^{(1)}$是线性的，那么前馈网络作为一个整体对于输入仍然是线性的。
 暂时忽略截距项，假设$f^{(1)}(\Vx)= \MW^\top \Vx$并且$f^{(2)}(\Vh)=\Vh^\top \Vw$，那么$f(\Vx) = \Vw^\top\MW^\top \Vx$。
 我们可以将这个函数重新表示成$f(\Vx) = \Vx^\top\Vw'$其中$\Vw' = \MW\Vw$。
 
@@ -323,7 +323,7 @@ f(\Vx; \MW, \Vc, \Vw, b) = \Vw^\top \max\{ 0, \MW^\top \Vx + \Vc \} +b.
 用于非凸损失函数的随机梯度下降没有这种收敛性保证，并且对参数的初始值很敏感。
 对于前馈神经网络，将所有的权重值初始化为小随机数是很重要的。
 偏置可以初始化为零或者小的正值。
-这种用于训练前馈神经网络以及几乎所有深度模型的迭代的基于梯度的优化算法会在第\chap?详细介绍，参数初始化会在\sec?中具体说明。
+这种用于训练前馈神经网络以及几乎所有深度模型的迭代的基于梯度的优化算法会在\chap?详细介绍，参数初始化会在\sec?中具体说明。
 就目前而言，只需要懂得，训练算法几乎总是基于使用梯度来使得代价函数下降的各种方法即可。
 一些特别的算法是对梯度下降思想的改进和提纯（在\sec?中介绍）还有一些更特别的，大多数是对随机梯度下降算法的改进（在\sec?中介绍）。
 
@@ -988,7 +988,7 @@ softplus表明隐藏单元类型的性能可能是非常反直觉的——因为
 
 线性模型，通过矩阵乘法将特征映射到输出，顾名思义，仅能表示线性函数。
 它具有易于训练的优点，因为当使用线性模型时，许多损失函数会导出凸优化问题。
-不幸的是，我们经常希望我们的系统学习非线性函数。
+可惜的是，我们经常希望我们的系统学习非线性函数。
 
 乍一看，我们可能认为学习非线性函数需要为我们想要学习的那种非线性专门设计一类模型族。
 幸运的是，具有隐藏层的前馈网络提供了一种万能近似框架。
@@ -1012,7 +1012,7 @@ Borel可测的概念超出了本书的范畴；对于我们想要实现的目标
 万能近似定理, %万能逼近定理说明了，存在一个足够大的网络能够达到我们所希望的任意精度，但是定理并没有说这个网络有多大。
 {Barron93}提供了单层网络近似一大类函数所需大小的一些界。
 不幸的是，在最坏情况下，可能需要指数数量的隐藏单元（可能一个隐藏单元对应着一个需要区分的输入配置）。
-这在二进制情况下很容易看到：向量$\Vv\in \{0,1\}^n$上的可能的二进制函数的数量是$2^{2^n}$，并且选择一个这样的函数需要$2^n$位，这通常需要$O(2^n)$的自由度。
+这在二进制值的情况下很容易看到：向量$\Vv \in \{0,1\}^n$上的可能的二值型函数的数量是$2^{2^n}$，并且选择一个这样的函数需要$2^n$位，这通常需要$O(2^n)$的自由度。
 
 总之，具有单层的前馈网络足以表示任何函数，但是网络层可能大得不可实现，并且可能无法正确地学习和泛化。
 在很多情况下，使用更深的模型能够减少表示期望函数所需的单元的数量，并且可以减少泛化误差。
@@ -1724,8 +1724,8 @@ $\CalB$中的计算和$\CalG$中的计算顺序完全相反，而且$\CalB$中
   q_i = \frac{\exp(z_i)}{\sum_i \exp(z_i)},
 \end{equation}
 其中我们通过指数化、求和与除法运算构建softmax函数，并构造交叉熵损失函数$J=-\sum_i p_i\log q_i$。
-人类数学家可以观察到$J$对$z_i$的导数采用了非常简单的形式：$p_iq_i-p_i$。
-\footnote{译者注：这里作者误写成了$q_i-p_i$。}
+人类数学家可以观察到$J$对$z_i$的导数有一个非常简单的形式：$q_i-p_i$
+<!-- %\footnote{译者注：$\frac{\partial J}{\partial z_i} = -\frac{p_i}{q_i}\frac{\partial q_i}{\partial z_i} -\sum_{j \ne i} \frac{p_j}{q_j} \frac{\partial q_j}{\partial z_i}  = -\frac{p_i}{q_i}(q_i - q_i^2) - \sum_{j \ne i} \frac{p_j}{q_j}(-q_jq_i) =p_i(q_i - 1) + (1-p_i)q_i = q_i - p_i.$}。 -->
 反向传播算法不能够以这种方式来简化梯度，而是会通过原始图中的所有对数和指数操作显式地传播梯度。
 一些软件库如Theano~{cite?}能够执行某些种类的代数替换来改进由纯反向传播算法提出的图。