2019年7月16日 星期二

數學_辛普森悖論

有人說:「數據(數字)不會騙人。」
真的是這樣嗎?前幾天的新聞報導(註1)云:
2017年綜合所得稅申報初步核定資料出爐,
 其中平均所得最高的鄉鎮村里落在台北市中正區東門里,以752.9萬元奪冠。
這數字確實沒騙人,不敢說這個里每個人都很有錢,
我們保守一點,就說:這個里"大多數的人"比其他地方的人有錢。這樣說對嗎?
我想得到的答案應該是「未必」。
如這則報導便推測:
該里為鴻海集團創辦人郭台銘舊居,如果郭台銘的戶籍仍未遷出,
 那很有可能就是拉高平均所得的人。
往往平均數有效,會在數據曲線呈現左右對稱的情況,
而看一地的所得如何,通常建議用"中位數"(註2)。

所以說,數據不會騙人,但選擇數據、解讀數據時,可能會。
最常聽到的平均數笑話:「男女平均有一顆睪丸,所以男女每個人有一顆睪丸。」
這也就是數字對,卻挺糟的解讀。


我覺得上述的對錯,相對簡單識別。統計學上還有更難,
到目前為止仍存在爭論,如同「辛普森悖論(Simpson's paradox)」。
維基(註3)對它的定義是:
當人們嘗試探究兩種變量是否具有相關性的時候,會分別對之進行分組研究。
 然而,在分組比較中都占優勢的一方,在總評中有時反而是失勢的一方。
這一定要例子:

例1(註4):
有A、B兩位網球選手,分別跟專業選手、普通選手比賽。
A跟專業比,80場勝8場,勝率10%
A跟普通比,20場勝20場,勝率100%
B跟專業比,20場贏1場,勝率5%
B跟普通比,80場贏40場,勝率50%

同樣對上專業,A的10%勝B的5%;同樣對上普通,A的100%勝B的50%。
然而,總評時,A和B都比賽100場,
A勝了28場,B勝了41場,B的勝率竟然比A高!


例2(註5):
某大學入學考試成績公布後,有多名學生向校長投訴:學校招生有性別歧視,
男、女報考生都是120人,女生錄取50人,男生僅錄取25人,是女生的一半。
校長便詢問辦考試的兩個學院:商學院及工學院他們的院長,此事是否屬實,
兩位院長皆提出數據說:絕無此事。
商學院:
男報考生20名,率取15名,男生錄取率75%
女報考生100名,錄取49名,女生錄取率49%,故男生錄取率比女生高。
工學院:
男報考生100名,率取10名,男生錄取率10%
女報考生人20名,錄取1名,女生錄取率5%,故男生錄取率仍比女生高。
綜合數據如下圖:
這要如何解釋,難不能,若男生來問,就拿工學院、商學院個別數據,
若女生來問,就拿總人數數據?


例3:某醫學單位,測試某藥物是否有治療心臟疾病,
找了男女各60位患者,分成兩組:
第一組吃藥的實驗組:男性20位,女性40位;
第二組沒吃藥的對照組:男性40位,女性20位。
實驗結果:
吃藥的男性有8位心臟病發作,患病率40%(8/20)
吃藥的女性有3位心臟病發作,患病率7﹒5%(3/40)
沒吃藥的男性12位心臟病發作,患病率30%(12/40)
沒吃藥的女性1位心臟病發作,患病率5%(1/20)
單從男性看,沒吃藥30%,吃了藥40%,此藥沒效(可能有害)。
單從女性看,沒吃藥5%,吃了藥7﹒5%,此藥沒效(可能有害)。

但是,彙總來看,吃藥的男女共60名,患病率18%((8+3)/60)
沒吃藥的男女共60名,患病率22%((12+1)/60)
沒吃藥22%,吃了藥18%,反而是降低,此藥卻有效了。
數據彙整如下圖:
藥到底有效無效,該怎麼解決呢?


這三例的關鍵因素,維基有寫,稱:對撞因子(Collider)。
該如此處置,維基一樣有說明,我大略提一下。
像第一例,關鍵因素就是對手的專業等級,我們可以用權重的方式處理。
比如,對上專業選手,勝一場可得3分,對上普通選手,勝一場可得1分。
3分、1分是我為了舉例隨意說的,究竟怎樣訂權重,仍是得問專業人士。

第二例、第三例,關鍵因素是性別,我們可以用平均來處治。
第二例的話,
商學院的男生錄取率和工學院的男生錄取率來平均,
75%和10%平均,得出42﹒5%;
商學院的女生錄取率和工學院的女生錄取率來平均,
49%和5%平均,得出27%。的確,男生率取率高。
第三例的話,
吃藥的男性跟女性的發病率來平均,40%和7﹒5%平均,得出23﹒75%;
沒吃藥的男性跟女性的發病率來平均,30%和5%平均,得出17﹒5%;
確實,此藥沒效(可能有害)。

我知道,有人會依然對這樣的計算不滿意,我前面說了,「仍存在爭論」。



----------------------------------
註:年均所得752.9萬!台北東門里「全國最有錢」 超級富豪是功臣


註2:〈時評〉不要再看平均所得、要看中位數所得
每年政府都會發佈一個沒有感覺,且令人感到憤怒的平均所得,
因為「平均所得」的數字根本沒有用。其他先進國家,
如美國、歐洲等國早在10年前就已經不用平均所得來討論人民的年所得,
這可從圖1可知美國討論所得是用中位數,
因為真正的統計學者都認為「不可用平均來討論所得」。
參考Describing the Shape of Distributions。
那麼我們應該使用什麼樣的統計內容來討論所得呢?
答案就是直接看曲線圖或是觀察中位數。


註3:WIKI:辛普森悖論


註4:科技袁人:为什么我们说不要轻易和懂数学的人吵架


註5:【科普】+辛普森悖论,(修正版 )你还相信数据吗?数据是如何骗人的?