ROC/AUC的概念
1. 灵敏度,特异度,真正率,假正率
在正式介绍ROC/AUC之前,我们还要再介绍两个指标,这两个指标的选择也正是ROC和AUC可以无视样本不平衡的原因。这两个指标分别是:灵敏度和(1-特异度),也叫做真正率(TPR)和假正率(FPR)。
灵敏度(Sensitivity) = TP/(TP+FN)
特异度(Specificity) = TN/(FP+TN)
其实我们可以发现灵敏度和召回率是一模一样的,只是名字换了而已。
由于我们比较关心正样本,所以需要查看有多少负样本被错误地预测为正样本,所以使用(1-特异度),而不是特异度。
真正率(TPR) = 灵敏度 = TP/(TP+FN)
假正率(FPR) = 1- 特异度 = FP/(FP+TN)
下面是真正率和假正率的示意,我们发现TPR和FPR分别是基于实际表现1和0出发的,也就是说它们分别在实际的正样本和负样本中来观察相关概率问题。正因为如此,所以无论样本是否平衡,都不会被影响。还是拿之前的例子,总样本中,90%是正样本,10%是负样本。我们知道用准确率是有水分的,但是用TPR和FPR不一样。这里,TPR只关注90%正样本中有多少是被真正覆盖的,而与那10%毫无关系,同理,FPR只关注10%负样本中有多少是被错误覆盖的,也与那90%毫无关系,所以可以看出:如果我们从实际表现的各个结果角度出发,就可以避免样本不平衡的问题了,这也是为什么选用TPR和FPR作为ROC/AUC的指标的原因。
传统概率在实践中被广泛应用
尽管如此,传统概率在实践中被广泛应用于确定事件的概率值,其理论根据是:如果没有足够的论据来证明一个事件的概率大于另一个事件的概率,那么可以认为这两个事件的概率值相等。 如果仔细观察这个定义会发现拉普拉斯用概率解释了概率,定义中用了"相同的可能性"(原文是égalementpossible)一词,其实指的就是"相同的概率"。这个定义也并没有说出,到底什么是概率,以及如何用数字来确定概率。在现实生活中也有一系列问题,无论如何不能用传统概率定义来解释,比如,人寿保险公司无法确定一个50岁的人在下一年将死去的概率等。
Copyright 2015-2022 财富赢家网版权所有 联系邮箱:920 891 263@qq.com