机器学习基础|贝叶斯概率、混淆矩阵、精确率、召回率

参考资料:

《统计学关我什么事:生活中的极简统计学》

场景导入

假设,新冠病毒的感染率为0.1%。感染新冠病毒的人中有99%的概率被诊断为阳性。但另一方面,健康人群也有1%的可能性被误诊为阳性。那么,如果在核酸检测中被诊断为阳性,实际感染新冠病毒的概率为多少呢?

数学推导

条件概率公式:

对条件概率公式进行变形,可得到如下贝叶斯公式:

P(A):没有数据B的支持下,A发生的概率,也叫做先验概率。

P(A|B):在数据B的支持下,A发生的概率,也叫后验概率。即在B事件发生之后,我们对A事件概率的重新评估。

结合上述场景:

混淆矩阵

预测为真预测为假

实际为真

真阳性(TP)

假阴性(FN)

实际为假

假阳性(FP)

真阴性(TN)

主要指标

上式中,分子为正确分类的样本数(包括真阳性TP和真阴性TN),分母为所有的样本数。

然而,使用准确率作为评价指标也有不足之处,尤其时样本不均衡的时候。

例:某样本实际包含100个阳性、900个阴性;混淆矩阵如下:

预测为阳预测为阴

实际为阳

实际为阴

100

900

该模型的达到0.9。但是实际上,模型一个阳性都没有鉴别出来。可见,并不是一个非常好的指标。

精确率召回率

我们假设X为预测值,Y为真实值。那么就可以将精确率召回率按条件概率表示:

精确率 = P(Y=1 | X=1)

召回率 = 灵敏度 = P(X=1 | Y=1)

精确率:预测结果为正例样本中,真实为正例的比例(查得准)

生活中的极简统计学_条件概率公式_召回率

精确率的应用场景:不能接受误检。

人脸识别支付:主要提升精确率,更倾向于不能出现错误的预测。

应用场景:你刷脸支付时就算几次没检测到你的脸,最多会让你愤怒,对银行损失不大,但是如果把你的脸检测成别人的脸,就会出现金融风险,让别人替你买单,对银行损失很大。所以宁愿让你付不了钱,也不会让别人帮你付钱。

召回率:真实为正例的样本中预测结果为正例的比例(查的全,对正样本的区分能力)

生活中的极简统计学_召回率_条件概率公式

召回率的应用场景:宁可错杀一千,绝不放过一个,不能接受漏报。

(1)网贷违约率:相对好用户,我们更关心坏用户,不能错放过任何一个坏用户。因为如果我们过多的将坏用户当成好用户,这样后续可能发生的违约金额会远超过好用户偿还的借贷利息金额,造成严重偿失。召回率越高,代表实际坏用户被预测出来的概率越高。

(2)预测病患

(3)预测地震

假设有一组数据集,一共有66个样本,有的是猫,有的不是猫,对是否是猫进行预测。

预测是猫预测不是猫

实际是猫

10

实际不是猫

45

在总共18只真猫中,我们的模型认为里面只有10只是猫,(猫)= 10/18 = 55.6%;

在模型预测的13只猫中,只有10只真的是猫,(猫)=10/13=76.9%。

F1-Score=(2 * 0.769 * 0.556)/( 0.769 + 0.556) = 64.54%

© 版权声明

相关文章

暂无评论

none
暂无评论...