香嚴書齋: 10/28/16

2016/10/28

數學＿貝葉斯定理

以下是我對貝葉斯定理的理解。

不用數學計算，最簡單的敘述貝葉斯定理(註１)，
則是「動態性地依據最新得到特定相關的事件出現的多少，判斷其本質屬性的概率」。
例如，你"看到"某個人做的善事比惡事越多，在你內心，你認為他是好人機率越高。

這概念可說非常直觀。
這世界很多事，假如不是我們專業領域，很難獲知發生的機率有多高。
如同從一個不知道紅、白球各有幾顆的黑盒子裡抽球，
第一次抽紅球，就想：抽中紅球機率 100%吧；
第二次抽白球，便覺得：機率50%；
第三次抽紅球，則改：機率66.7%；
抽得越多，則越有可能接近真正的機率，但不保證絕對。
畢竟，不曉得紅白球確切數字。

*****
再來舉兩個貼近實際生活，貝葉斯定理的機率題目，
我是參考Wiki(註２)跟＜生活中的貝葉斯定理＞(註３)。

題目一：肝癌檢測
前提一：受檢測人中，有萬分之四(0.04%)，被檢測出罹患肝癌。
前提二（真陰性）：檢測結果是陰性(沒罹癌)，後來確實沒肝癌，機率是99.9%。
前提三（真陽性）：檢測結果是陽性(罹癌)，後來確實有肝癌，機率是99.9%。
　　　　　　　　　常說的機器準確度是指這項。
請問，某一病人，被檢查出罹患肝癌，而真正有肝癌的機率是多少？
一般人應該會說：不是99.9%嗎？實際上，不是。

首先說前提一，這裡專指"受測的人"。沒經受檢而罹肝癌的人，不能列入計算。
(不討論「採樣調查」等不等於「全集調查」的問題)

為了計算方便，我們假設，受測人有１００００人。
根據前提一，１００００人當中，被檢查出有肝癌者４人，沒肝癌者９９９６人。
根據前提二，檢查出沒肝癌者裡面，卻有肝癌，９９９６Ｘ(1-99.9%)＝９.９９６人
根據前提三，檢查出肝癌者者裡面，真的是肝癌，４Ｘ(99.9%)＝３.９９６人
受過檢測人中，１３．９９２人真實有肝癌。
其中的３.９９６人是檢查出肝癌、真實有肝癌。
因此，答案則是３.９９６／１３.９９２=　28.56%

換句話說，在這題中，雖然機器準確度99.9%，
若被檢查出罹癌，事實上，罹癌機率為28.56%，有不小差距。

題目二：愛滋病檢測
前提一：受檢測人中，有萬分之一(0.01%)，被檢測出得愛滋。
前提二（真陰性）：檢測結果是陰性(沒愛滋)，後來確實沒愛滋，機率是99.99%。
前提三（真陽性）：檢測結果是陽性(愛滋)，後來確實有愛滋，機率是99.99%。
請問，某一病人，被檢查出得愛滋，而真正有的機率是多少？

為了計算方便，我們假設，受測人有１００００人。
根據前提一，１００００人當中，被檢查出有愛滋者１人，沒愛滋者９９９９人。
根據前提二，檢查出沒愛滋裡面，卻有愛滋，９９９９Ｘ(1-99.99%)＝0.9999人
根據前提三，檢查出愛滋者裡面，真的是愛滋，１Ｘ(99.99%)＝0.9999人
受過檢測人中，１.９９９８人真實有肝癌。
其中的０.９９９９人是檢查出肝癌、真實有肝癌。
因此，答案則是０.９９９９／１.９９９８=　５０%

在這題目中，即使機器準確率99.99%，失誤率是萬分之一，
檢查出愛滋，真的是愛滋，機率只有五成。

所以重大疾病，還是多到其他醫院再多做幾次檢測。

*****
我覺得到這裡，仍有兩個問題，需要再說清楚。
第一，兩題的前提一的取樣調查，是不是(國人)普遍罹肝癌率？
是，肝癌是檢測發現的(我在講廢話)。但離真實仍有誤差。
他是取樣調查、非全集調查，
一來，沒接受過檢測而有肝癌的人，無法列入計算；二來，有機器準確性的問題。

第二，怎麼得出機器準確性？
它用標準樣本檢測，所計算出的結果。
例如：
找一萬個陽性者受測，結果有１人被檢查出陰性，它的陽性準確度，則是99.99%。
又例如：
找一萬個陰性者受測，結果有２人被檢查出陽性，它的陰性準確度，則是99.98%。

*****
貝葉斯定理的公式在Wiki上能找著(註２)。

我聽說貝葉斯定理，被大量地用在計算大數據、以及人工智慧。
我並非是從業那類型的工作，
實在無法想像怎麼將貝葉斯定理，

運用在多重複雜的事件計算。哈哈。

-----------
註１：MBAlib：貝葉斯定理

註２：wiki：貝葉斯定理

註３：＜生活中的貝葉斯定理＞

訂閱：文章 (Atom)