chainsawriot

Home | About | Archive

誤差是甚麼

Posted on Aug 25, 2008 by Chung-hong Chan

是日蘋果批是新界東論壇,陶君行指出蘋果日報等贊助的港大民調,樣本數只有約 300 ,故此誤差為 7-8% 。但蘋果批指他的說法有謬誤,因為港大滾動民調樣本數平均為 316 ((因為我之前所說的問題,這個 316 是除了港大及贊助民調的機構外是無人知道的。)) ,以陶君行支持度 4.5% 來計,「統計學上誤差正負 2.3% 」(原文照錄)。
到底誰人計錯數?不如先講甚麼是誤差。誤差這兩個中文字太壟統,無人知道這個字在統計學上代表那一個 concept 。所以在講誤差時,請講明你是指標準差( Standard Deviation, S.D. )、標準誤差(Standard Error, S.E.,有時譯做「標準誤」),還是信心周間( Confident Intervals, C.I.) 。
同情的理解,這個誤差,應是指西方民調幾乎一定會回報的誤差範圍( Margin of error )或最高誤差範圍( Maximum margin of error)。我們試試根據以上數字計算出誤差範圍。要計算誤差範圍,先要計算陶君行支持度的標準誤差(SE)。

SE=SQRT((p*(1-p))/n)
=SQRT((0.045*(1-0.045))/316)
=0.0116

假定我們要計算 95% 信心,就要將 SE 乘以 1.96 ,即是 0.0227 。似乎蘋果批是指這個數字。注意,這個數字是指陶君行支持度的 95% 信心周間。以貝式統計學的觀點解釋,如果這類民調進行無限次,會有 95% 次數陶君行支持度為 4.5+/- 2.3% ( 2.2 至 6.8 )之間。暗示真正的母數在這個周間之內。
那麼陶君行所指的「誤差」又是怎樣計出來?陶君行所指的,應是最高誤差範圍。外國傳媒在報道總統選舉民調時通常會回報這一個,因為這個數字與每個人支持度無關,是用來評價民調本身的準確度。計算相對簡單,只是將上述的 p 以 0.5 計算。因為同樣樣本數時, SE 在 p 等於 0.5 時最大。而當 p=0.5 時,算式為

1.96 * SE
= 1.96 * SQRT((p*(1-p))/n)

可簡化為
0.98 / SQRT (n)

以此計算數值會是 5.5% 。或許陶是壟統的以 200-300 樣本數計算,所以可能較大。 ((注意:有時樣本數太大時,例如樣本佔整體統計人口的 5% 或以上,會用一個由做 FPC 的數值去矯正。但新界東選民高達八十二萬名,樣本數只取 316 ,實在無需用到 FPC 。)) 我會說兩者都沒有計錯數,只是溝通問題。而在這個情況,蘋果批所使用的數字會較為合理,因為樣本誤差在同等樣本數而支持度低時,的確是會更低。那個數字更能反映現實。
但其實兩者計算的所謂誤差,純粹只解決了樣本誤差( Sampling Error ),而不能解釋其他的誤差,例如低回應率( response rate )以及樣本是否真正隨機,而所使用的樣本架構( Sampling frame ) ((Sampling frame 是指一個例出所有統計人口的列表。以這類電話調查為例,可能是公眾電話薄,或者隨機亂打電話號碼。這是現存最完善的方法,前題是假定人人有家用電話。)) 是否完善。以本人的居所為例,我沒有安裝家用電話,所以樣本架構不會包括我。 ((這是吹毛求疪了。))


Powered by Jekyll and profdr theme