chainsawriot

你玩統計，統計玩你

Posted on Mar 15, 2014 by Chung-hong Chan

嘩，突然人人關注統計，真係多得你喇，李家傑。網誌界也突然多人講起 R 這個「特定軟件」，我又可以順手賣下廣告：香港係有 Hong Kong R User Group 的，想學 R 可以加入。
既然人人都要講兩句，我無奶油執輸，我都要講下 HKUPOP 。
我用一個我認為肯肯定最「準確」的分析法去計出梁振英的評分，那些係人都識講的甚麼 outliers 的影響就變成 non-issue。
方法是用我最鍾意的 resampling technique 。 Algorithm 是這樣

步驟 1. 生成一個 random sample with replacement (bootstrap sample) ，這個 bootstrap sample 中那十二組受訪者（男、女 * 6 年齡組）都最少會有三人次入選。
步驟 2. 計算這個 bootstrap sample 十二組人各自的平均梁振英評分值。再以人口普查人口比例將十二組人的平均評分值組合一起，也即是加權，得出加權平均值 x 。
步驟 3. 重覆步驟 1 和步驟 2 一萬次，得出 x₁, x₂, x₃... x₁₀₀₀₀ 。再將以上一萬個數字計出 median 、 0.05% 及 99.95% Percentile 。 ((也即是 alpha = 0.1 % ，超細吧。))

結果如下：

bootstrap 值是 46.3 。
0.05% 至 99.95% percentile 是： 44.34 至 48.40 。

x 的 distribution 如下：

結論：經過以上分析去除 outliers 影響及經人口普查性別、年齡分佈加權後，數據顯示梁振英評分不過半。 ((講多兩句喇：問題根本不在於 0 和 100 等等 outliers ，而是佔人口比重較多的組群對梁振英評分較低。要統戰，你鬧 HKUPOP 這個 messenger 都無撚用o架，你個死人仆街政府做少 d 陰質野咪人人都比高份你囉。出o黎嘈果 d ，仲要自己唔識 Stat 響度吹吹吹。你係要嘈，唔該都求其收買一、兩個大學統計系o既出o黎講野喇，唔該。這一類評分問題，主要是用來比較多次調查的結果，故此，單獨看 46.3 分是沒有意義的。假如每次調查的抽樣及評分法一樣，上次調查平均分是 57 分，今次是 46.3 分，那就有意義了。))

我全部數據及分析法在 github ，透明度高過行政會議討論發電視牌。