错误听起来像是一件坏事,通常我们更喜欢误差较低的模型,而不是误差较高的模型。然而,我们在上面提到,在模型精确地适应当前数据集的能力和它概括为新数据集的能力之间存在着一种张力,并且结果表明,误差最小的模型在概括为新数据集时往往更糟糕!
为了看到这一点,让我们再次生成一些数据,以便我们知道变量之间的真正关系。我们将创建两个模拟数据集,它们以完全相同的方式生成——它们只是添加了不同的随机噪声。
图 5.6 过拟合示例。两个数据集都是使用相同的模型生成的,每个数据集都添加了不同的随机噪声。左面板显示了用于拟合模型的数据,简单的蓝色线性拟合和复杂的(8 阶多项式)红色拟合。每个模型的均方根误差值如图所示;在这种情况下,复杂模型的 RMSE 比简单模型低。右面板显示了第二个数据集,上面覆盖了相同的模型,并且使用从第一个数据集获得的模型计算了 RMSE 值。在这里,我们看到更简单的模型实际上比更复杂的模型更适合新的数据集,后者过度适合第一个数据集。
图5.6中的左面板显示,更复杂的模型(红色)比简单的模型(蓝色)更适合数据。然而,当相同的模型应用于以相同方式生成的新数据集时,我们看到了相反的情况——这里我们看到,较简单的模型比较复杂的模型更适合新数据。从直观上看,较复杂的模型受第一个数据集中特定数据点的影响较大;由于这些数据点的确切位置受随机噪声的驱动,导致较复杂的模型很难适应新的数据集。这是一个我们称之为 _ 过拟合 _ 的现象,我们将在本课程中反复讨论。稍后,我们将学习一些技术,我们可以使用这些技术来防止过度拟合,同时仍然对数据结构敏感。现在,重要的是要记住,我们的模型适合需要是好的,但不是太好。正如阿尔伯特爱因斯坦(1933)所说:“几乎不能否认,所有理论的最高目标是使不可约的基本要素尽可能简单和少,而不必放弃对单一经验数据的充分表示。”这通常被解释为:“一切应该尽可能简单,但不能简单。”