我最近连ç»ä»Žå‡ 本书ä¸çœ‹åˆ°åŒæ ·çš„概率典故,ä¸å¾—ä¸æŠŠå®ƒå†™ä¸‹æ¥ã€‚人的直觉是一个éžå¸¸å¼ºå¤§çš„æ¦å™¨ï¼Œåœ¨å¾ˆå¤šæƒ…况下å¯ä»¥å¸®æˆ‘们ä¸éœ€è¦ç²¾å¯†è®¡ç®—就能åšå‡ºæ£ç¡®çš„判æ–。但是在人的众多直觉能力之ä¸ï¼Œä¸åŒ…括概率。下é¢æˆ‘说说这个典故。
  
  现代技术检测 HIV 病毒的准确度已ç»åˆ°äº†æƒŠäººçš„程度。如果一个人真是 HIV 阳性,血液检测的手段有 99.9% 的准确率,也就是说有 99.9% çš„å¯èƒ½æ€§æŠŠä»–这个阳性给检查出æ¥è€Œä¸æ¼ç½‘。如果一个人ä¸æºå¸¦ HIV,那么检测手段的精度更高,达到99.99% – 也就是说有 99.99% çš„å¯èƒ½æ€§ä¸ä¼šå†¤æž‰ä»–。
  
  现在å‡è®¾æˆ‘们éšä¾¿åœ¨è¡—头找一个人给他åšæ£€æŸ¥ï¼Œå‘现检测结果是 HIV 阳性,那么请问这个人真有 HIV çš„å¯èƒ½æ€§æ˜¯å¤šå¤§å‘¢ï¼Ÿ
  
ã€€ã€€åœ¨ä½ å›žç”之å‰ï¼Œæˆ‘è¦æä¾›ä¸€ç‚¹èƒŒæ™¯èµ„æ–™ã€‚å¾·å›½é©¬æ™®ç ”ç©¶æ‰€çš„å¿ƒç†å¦å®¶æ›¾ç»æ‹¿è¿™é“é¢˜è€ƒäº†å¥½å‡ ç™¾äººï¼ŒåŒ…æ‹¬å¦ç”Ÿï¼Œæ•°å¦å®¶å’ŒåŒ»ç”Ÿã€‚结果 95% 的大å¦ç”Ÿå’Œ 40% 的医生(这些医生实际上都å—过这方é¢çš„专门è®ç»ƒï¼‰éƒ½ç»™å‡ºäº†é”™è¯¯çš„ç”案。
  
ã€€ã€€å¦‚æžœä½ çœŸæ‡‚æ¦‚çŽ‡ï¼Œä½ ä¼šæƒ³åˆ°è¦ä½¿ç”¨è´å¶æ–¯å®šç†ï¼Œç„¶åŽä½ 会å‘现这é“题还缺少一个关键信æ¯ï¼šé‚£å°±æ˜¯ä¸€èˆ¬äººæ„ŸæŸ“ HIV 的概率。现在已知一般人感染 HIV 的概率是 0.01%,也就是说一万个人ä¸æ‰æœ‰ä¸€ä¸ªäººæ„ŸæŸ“è¿™ç§ç—…æ¯’ã€‚æ ¹æ®ä»¥ä¸Šä¿¡æ¯ï¼Œè¿™ä½ä¸å¹¸è¢«æ£€æµ‹ä¸º HIV 感染者的朋å‹çœŸæœ‰ HIV çš„å¯èƒ½æ€§æ˜¯å¤šå°‘呢?
  
  æ£ç¡®ç”案是 50%。
  
  我先说è´å¶æ–¯å®šç†çš„算法,然åŽå†ç»™ä¸€ä¸ªæ›´ç›´è§‚的解释。è´å¶æ–¯å®šç†è¯´çš„就是æ¡ä»¶æ¦‚率。如果我们用 A 表示 “真有 HIVâ€ï¼ŒB 表示 “检测出 HIVâ€ï¼Œé‚£ä¹ˆæˆ‘们è¦è®¡ç®—的是 P(A|B)。 已知 P(A) = 0.01%, P(B|A)=99.9%。
  P(B) 需è¦è®¡ç®—一下,它ç‰äºŽ 0.01% x 99.9% [也就是有 HIV 而被查出æ¥çš„]+ 99.99% x 0.01% [也就是没有 HIV 但被冤枉的]。
  è´å¶æ–¯å®šç†è¯´ï¼ŒP(A|B) = P(B|A) x P(A) / P(B),计算结果ç‰äºŽ 0.5.
  
ã€€ã€€ç›´è§‚çš„è§£é‡Šæ˜¯è¿™æ ·çš„ã€‚å‡è®¾æˆ‘们éšæœºåœ°æ‰¾ä¸€ä¸‡ä¸ªäººæ¥åšå®žéªŒã€‚æ ¹æ® HIV 病毒的分布,这一万人ä¸åº”该åªæœ‰ä¸€ä¸ªäººæ˜¯çœŸæœ‰ HIV 的。而由于我们的检测手段很强,这个人会被检测出æ¥ã€‚但剩下的9999人都没有 HIV,å¯æ˜¯æˆ‘们对没有 HIV 的人的检测精度是 99.99%,也就是说有万分之一的å¯èƒ½æ€§ä¼šå†¤æž‰å¥½äººã€‚è¿™æ ·ä¸€æ¥ï¼Œæˆ‘们的检测手段还会在9999人ä¸å†¤æž‰ä¸€ä¸ªäººã€‚
  本æ¥åªæœ‰ä¸€äººæœ‰ HIV,å¯æ˜¯æˆ‘们å´æ£€æµ‹å‡ºæ¥ä¸¤äººã€‚所以如果一个人被检测出 HIV æ¥ï¼Œä»–真有 HIV çš„å¯èƒ½æ€§å…¶å®žåªæœ‰ 50%。
  
ã€€ã€€ä»Žæ ¹æœ¬ä¸Šè¯´ï¼Œé€ æˆè¿™ç§å±€é¢çš„åŽŸå› åœ¨äºŽ HIV 其实是一ç§ç½•è§çš„病毒,åªæœ‰ä¸‡åˆ†ä¹‹ä¸€çš„感染者。在这ç§æƒ…况下å³ä½¿ä½ 的检测手段å†é«˜ï¼Œä¹Ÿå¾ˆæœ‰å¯èƒ½ä¼šå†¤æž‰äººã€‚下é¢å†ç»™ä¸€é“例题:
  
  1%的妇女有乳房癌(简称为C);80% 的有乳房癌的妇女会在乳房 x 射线照相检验 (mammographies, 简称M)ä¸æˆé˜³æ€§ï¼›10%的没有乳房癌的妇女也会检测到M阳性。现在有一个妇女检测到了M阳性,请问她患有乳房癌的概率是多少?
  ç”案:P(C)=0.01; P(M|C)=0.8; P(M)=0.8*0.01+0.1*0.99=0.107,所以
   P(C|M)=P(M|C) P(C)/P(M)=8/107.
  这是一个出乎æ„料的å°æ•°ã€‚
  
  如果一个疾病比较罕è§ï¼Œé‚£ä¹ˆä½ å°±ä¸åº”该对阳性诊æ–特别有信心。
  
  由æ¤æˆ‘è”想到当åˆæ–‡é©æœŸé—´çš„“抓特务â€è¡ŒåŠ¨ã€‚“特务â€è¿™ä¸ªå·¥ä½œçš„è¦æ±‚,其实贵在精而ä¸åœ¨å¤šï¼Œå†è¯´å›½æ°‘党也没那么多钱养,真æ£çš„特务其实是很少的。如果我们看到一个人长得åƒç‰¹åŠ¡ï¼Œè¯´è¯èµ°è·¯ä¹Ÿåƒç‰¹åŠ¡ï¼Œæˆ‘们有多大把æ¡è¯´ä»–就是特务呢?上é¢çš„两个概率例题告诉我们,“误诊率â€å¯ä»¥ç›¸å½“高。“抓特务â€ï¼Œæœ€å¥½çš„办法是冒出æ¥ä¸€ä¸ªæŠ“一个,最å¯æ€•çš„办法是æžâ€œäººäººè¿‡å…³â€ã€‚å¦‚æžœä½ æžâ€œäººäººè¿‡å…³â€ï¼Œå¿…ç„¶æ˜¯ä¸€å¤§å †å†¤å‡é”™æ¡ˆï¼
  
ã€€ã€€è¿™å°±æ˜¯æ¦‚çŽ‡ã€‚å“ªæ€•ä½ çš„åˆè¡·å†å¥½ï¼Œä½ 也会犯错ï¼
  
  –
  本文第一个例åæ¥è‡ª The Social Atom 一书。
  第二个例åæ¥è‡ª Super Crunchers 一书。
  å¦å¤–å¥½åƒ The Drunkard’s Walk 这本书里也有一个类似的例å。
  别人一而å†ï¼Œå†è€Œä¸‰åœ°å¼ºè°ƒï¼Œæˆ‘们岂å¯ä¸çŸ¥å‘¼ã€‚
  
冤å‡é”™æ¡ˆçš„æ•°å¦åŽŸç†
同人于野
(10,776 views)
-------