2016年10月28日 星期五

數學_貝葉斯定理

以下是我對貝葉斯定理的理解。

不用數學計算,最簡單的敘述貝葉斯定理(註1),
則是「動態性地依據最新得到特定相關的事件出現的多少,判斷其本質屬性的概率」。
例如,你"看到"某個人做的善事比惡事越多,在你內心,你認為他是好人機率越高。

這概念可說非常直觀。
這世界很多事,假如不是我們專業領域,很難獲知發生的機率有多高。
如同從一個不知道紅、白球各有幾顆的黑盒子裡抽球,
第一次抽紅球,就想:抽中紅球機率 100%吧;
第二次抽白球,便覺得:機率50%;
第三次抽紅球,則改:機率66.7%;
抽得越多,則越有可能接近真正的機率,但不保證絕對。
畢竟,不曉得紅白球確切數字。


*****
再來舉兩個貼近實際生活,貝葉斯定理的機率題目,
我是參考Wiki(註2)跟<生活中的貝葉斯定理>(註3)。

題目一:肝癌檢測
前提一:受檢測人中,有萬分之四(0.04%),被檢測出罹患肝癌。
前提二(真陰性):檢測結果是陰性(沒罹癌),後來確實沒肝癌,機率是99.9%。
前提三(真陽性):檢測結果是陽性(罹癌),後來確實有肝癌,機率是99.9%。
         常說的機器準確度是指這項。
請問,某一病人,被檢查出罹患肝癌,而真正有肝癌的機率是多少?
一般人應該會說:不是99.9%嗎?實際上,不是。


首先說前提一,這裡專指"受測的人"。沒經受檢而罹肝癌的人,不能列入計算。
(不討論「採樣調查」等不等於「全集調查」的問題)

為了計算方便,我們假設,受測人有10000人。
根據前提一,10000人當中,被檢查出有肝癌者4人,沒肝癌者9996人。
根據前提二,檢查出沒肝癌者裡面,卻有肝癌,9996X(1-99.9%)=9.996人
根據前提三,檢查出肝癌者者裡面,真的是肝癌,4X(99.9%)=3.996人
受過檢測人中,13.992人真實有肝癌。
其中的3.996人是檢查出肝癌、真實有肝癌。
因此,答案則是3.996/13.992= 28.56%

換句話說,在這題中,雖然機器準確度99.9%,
若被檢查出罹癌,事實上,罹癌機率為28.56%,有不小差距。


題目二:愛滋病檢測
前提一:受檢測人中,有萬分之一(0.01%),被檢測出得愛滋。
前提二(真陰性):檢測結果是陰性(沒愛滋),後來確實沒愛滋,機率是99.99%。
前提三(真陽性):檢測結果是陽性(愛滋),後來確實有愛滋,機率是99.99%。
請問,某一病人,被檢查出得愛滋,而真正有的機率是多少?

為了計算方便,我們假設,受測人有10000人。
根據前提一,10000人當中,被檢查出有愛滋者1人,沒愛滋者9999人。
根據前提二,檢查出沒愛滋裡面,卻有愛滋,9999X(1-99.99%)=0.9999人
根據前提三,檢查出愛滋者裡面,真的是愛滋,1X(99.99%)=0.9999人
受過檢測人中,1.9998人真實有肝癌。
其中的0.9999人是檢查出肝癌、真實有肝癌。
因此,答案則是0.9999/1.9998= 50%

在這題目中,即使機器準確率99.99%,失誤率是萬分之一,
檢查出愛滋,真的是愛滋,機率只有五成。

所以重大疾病,還是多到其他醫院再多做幾次檢測。

*****
我覺得到這裡,仍有兩個問題,需要再說清楚。
第一,兩題的前提一的取樣調查,是不是(國人)普遍罹肝癌率?
是,肝癌是檢測發現的(我在講廢話)。但離真實仍有誤差。
他是取樣調查、非全集調查,
一來,沒接受過檢測而有肝癌的人,無法列入計算;二來,有機器準確性的問題。

第二,怎麼得出機器準確性?
它用標準樣本檢測,所計算出的結果。
例如:
找一萬個陽性者受測,結果有1人被檢查出陰性,它的陽性準確度,則是99.99%。
又例如:
找一萬個陰性者受測,結果有2人被檢查出陽性,它的陰性準確度,則是99.98%。


*****
貝葉斯定理的公式在Wiki上能找著(註2)。

我聽說貝葉斯定理,被大量地用在計算大數據、以及人工智慧。
我並非是從業那類型的工作,
實在無法想像怎麼將貝葉斯定理,
運用在多重複雜的事件計算。哈哈。


-----------
註1:MBAlib:貝葉斯定理

註2:wiki:貝葉斯定理

註3:<生活中的貝葉斯定理>