·发表于 数据科学之道 ·阅读时间 7 分钟·2023 年 9 月 2 日
--
图片由 Ricardo Arce 提供,Unsplash
在数据科学的世界中,度量标准是指导我们模型成功的指南针。虽然许多人对经典的精确度和召回率度量很熟悉,但实际上还有许多其他值得探索的选项。
在本文中,我们将深入探讨 Tversky 指数。这一度量标准是 Dice 和 Jaccard 系数的推广,在尝试平衡精确度和召回率时非常有用。当作为神经网络的损失函数实施时,它可以成为处理类别不平衡的强大工具。
想象一下你是一名侦探,负责捕捉你镇上的罪犯。实际上,有 10 个罪犯在街上游荡。
在你的第一个月里,你带来了 8 个你认为是罪犯的嫌疑人。只有 4 人最终被判定有罪,其余 4 人是无辜的。
如果你是一个机器学习模型,你将根据你的精确度和召回率来进行评估。
精确度问道:“在你抓到的所有人中,有多少人是罪犯?”
召回率问道:“在镇上所有的罪犯中,你抓到了多少个?”
精确度是一个度量标准,它衡量你预测的准确性,而不计算你错过了多少个真正的正例(假阴性)。召回率衡量你捕获了多少个真正的正例,而不管你有多少个假正例。
你的侦探技能在这些度量标准中表现如何?
-
precision = 4 / (4 + 4) = 0.5
-
recall = 4 / (4 + 6) = 0.4
在理想情况下,你的分类器具有高精度和高召回率。作为衡量分类器在这两个方面表现如何的指标,F1 统计量衡量二者之间的调和平均值:
这个指标有时也被称为 Dice 相似性系数(DSC)。
另一种测量两个集合相似性的方法是 Jaccard 相似性系数,它通常用于计算机视觉应用中,目标是识别对象。
一个目标检测算法预测了一个停牌的边界框(红色)。人工标注者标记了期望的边界区域(绿色)。来源:Adrian Rosebrock,CC BY-SA 4.0
Jaccard 系数测量两个集合的交集与它们并集的比率:
直观展示,交集与并集的比率(IoU)是
Jaccard 相似性系数也被称为交集与并集的比率(IoU)。来源:Adrian Rosebrock,CC BY-SA 4.0
Tversky 指数是 Dice 系数(F1 指标)和 Jaccard 系数的一个推广,也用于比较两个集合 X 和 Y 的相似性。
索引可以被公式化为:
如果集合论的语言不太熟悉,让我们来解释一下:
-
| X ∩ Y | 表示集合 X 和 Y 之间的公共元素数量。
-
| X ∖ Y | 表示在 X 中但不在 Y 中的元素数量。它被称为 Y 在 X 中的相对补集。
-
| Y ∖ X | 表示在 Y 中但不在 X 中的元素数量。它被称为 X 在 Y 中的相对补集。
-
α 和 β 是参数,用于确定假阳性和假阴性的相对重要性。
参数 α 和 β 非常重要。如果我们设置 α = β = 0.5,我们得到的是 Dice 系数。如果我们设置 α = β = 1.0,我们得到的是 Jaccard 系数。通常,我们保持 α + β = 1,这允许我们在假阴性和假阳性之间调整权重。
现在,让我们在分类的背景下讨论它。假设 X 是真实情况,而 Y 是我们的预测。在这种情况下:
-
X ∩ Y:真正例(正确预测为正的项)
-
X ∖ Y:假阴性(被预测为负但实际上是正的项)
-
Y ∖ X:假阳性(实际为负例但被预测为正例的项)
让我们回到精确度和召回率的定义:
-
精确度是所有预测为正例中的真正正例的比例。它告诉我们预测为正例的实例中实际有多少是正例。
-
召回率,也称为敏感性或真正率(TPR),是所有实际正例中真正预测的比例。它告诉我们模型正确预测了多少实际正例。
在考虑这些解释后,让我们将 Tversky 指数与精确度和召回率联系起来。
- 当α = 1 且β = 0 时:
这是召回率的定义。
- 当α = 0 且β = 1 时:
这是精确度的定义。
通过调整参数α和β,Tversky 指数可以反映出精确度或召回率,或两者的加权混合。这使得 Tversky 指数成为一个灵活的度量标准,根据应用需求,可以优先考虑召回率或精确度。
Tversky 指数可以作为机器学习应用中的损失函数。在执行分类任务的神经网络中,如语义图像分割,我们可以使用 Tversky 指数来定义损失函数。这是对通常使用的分类交叉熵的一种替代。
由于优化器总是尝试最小化损失,Tversky 损失(TL)仅定义为
其中 TI 是 Tversky 指数。
或者,它可以被定义为
这里它的值始终在 0 和 1 之间。因此,随着损失接近 0,我们的分类器接近完美准确度。
使用 Tversky 损失的优点是我们可以调整α和β参数,以偏向召回率或精确度。
焦点 Tversky 损失是一个先进的损失函数,旨在解决分割任务中的类别不平衡问题,特别是在医学成像中。它定义为
通过结合 Tversky 指数(它是对 Dice 系数的推广,按不同方式权衡假阳性和假阴性)和一个焦点调节(γ),以赋予难以分割的实例更多重要性,这个损失函数对小而模糊的结构变得更敏感。
在某些区域或类别被低估,或某些误分类的代价高于其他情况时,标准的损失函数如分类交叉熵可能无法达到最佳效果。在这种情况下,研究人员可能会选择 Focal Tversky 损失,因为它优先学习具有挑战性和稀有的区域,在存在不平衡和细微特征的情况下提供更好的分割性能。
想了解更多关于 Focal Tversky 损失的信息,请查看这篇来自 Towards Data Science 的文章:
## 使用 Focal Tversky 损失处理类别不平衡的图像数据集
towardsdatascience.com
在分类指标的领域中,Tversky 指数作为一种多功能且适应性强的工具脱颖而出。它弥合了传统指标如 Dice 和 Jaccard 系数之间的差距,为数据科学家提供了一个更为细致的工具来评估模型。通过α和β参数在平衡假阳性和假阴性方面的灵活性,确保它可以根据具体需求进行调整。作为神经网络中的损失函数,尤其是在带有焦点参数的情况下,它也成为训练深度神经网络的强大工具。