贝叶斯定理的意义
·辩行记· 非常之事,需有非常之据,事情本身越少见,做判断时就越是要谨慎
贝叶斯定理的意义 周玄毅/文
一台正确率为99%的机器,它的检测结果有多大可信度?
这个问题,我经常在课堂上问学生,大多数人的第一反应是愕然——不是说了99%吗?还能是多少?其实,这道题的正解应该是:那得看你检测的是什么。如果不知道检测对象事实上的分布情况,就只能两手一摊,老老实实地承认“条件不足,无法作答。”
这种说法听起来很怪,不过比较以下这两个例子,你就会大概明白这里的门道。
例1:一位经验丰富的老警察,辨识小偷的正确率达到99%,当他觉得一个人是小偷的时候,这人真是小偷的概率是多少?
例2:美国电影的“黑衣人”特工常年与外星人打交道,辨识外星人的正确率也是99%,请问,当他说你是外星人的时候,你真是外星人的概率是多少?
我相信,没人会觉得这两个例子的几率相同,因为小偷比较常见,而外星人则过于离奇。这个直觉是对的——即使检验者同等精确,由于他们所验证的事情本身在先验概率上的不同,导致其令人信服的程度也是不一样的。更妙的是,这种直觉,完全可以通过计算来印证。
回到最开始的那个例子。用一台正确率为99%的机器来检测疾病,检测结果的可靠性一定不是99%。因为病有不同种类,有些如乙肝病毒携带一样常见,有些如亨廷顿氏舞蹈症一样罕见。假设前者在人群中的分布是十分之一,这就意味着,用这台机器查一万个人(根据先验概率,其中有9000阴性和1000阳性),阴性的会以1%的比率被误判为阳性(误报90人),阳性的同样会以1%的比率被误判为阴性(漏网10人),所以这一万份检测报告中,会有90 (1000-10)=1080个阳性,而真阳性的那1000人中又只990个被检测出来。所以,当机器检测出阳性结果时,真正携带乙肝病毒的可能性,就是990(真阳性)/1080(被检测出阳性),约等于91.67%。
这个结果略小于99%,似乎还不算差太多。这是因为乙肝病毒携带者的数量本来就不少。但是,如果检测的对象是像亨廷顿氏舞蹈症这样的罕见症,情况就很不一样了。假设发病率是万分之一(这已经是大大高估了),按照刚才这套算法,你会惊奇地发现,正确率99%的机器,检测结果的准确性居然只有0.9804%,还不到百分之一!
以上是我自己从常识出发的一种很笨拙的计算方法。其实18世纪的英国数学家贝叶斯,早就整理出了一个简洁优雅的公式:P(A/B)=P(B/A)P(A)/P(B)。用刚才这个例子来说,P(A/B)就是指,当机器检测出阳性时,事实上果然就是阳性的概率。而这个数值,等于机器的准确性P(B/A),乘以该疾病在人群中事实上的分布比例P(A),再除以所有对象被这台机器检测出阳性(漏网和误报相抵)的可能性P(B)。
当然,这只是对于贝叶斯公式最粗略的描述,有兴趣的读者可以进一步自学。而我所关心的,其实是这个公式在现实生活中的意义。那就是,由于任何检测与判断都有误差,所以不管它看起来有多可靠,在小概率事件上看走眼的可能性,都会意想不到的高。说得再明确点,非常之事,需有非常之据,事情本身越少见,做判断时就越是要谨慎。
而在辩论中,这就意味着一个常被忽视的事实,即论战双方的论证义务,在程度上往往是不对等的。主张一个在真实世界中存在概率较低的观点,要达到同等的论证效力,其论证义务也要比主张更符合常识的观点重得多。
下次遇见奇谈怪论的时候,想想贝叶斯定理所揭示的辩论原则,一定能省不少口舌。