過度廣義化(Overgeneralization) 是廣義化(Generalization)的極端版本。
一想法的廣義化,要經過推演(Inference)的過程。例如我們發現五大洋七大洲,不同政見、不同學歷、不同收入的男人,出生時都有睪丸。因此,我們從此推演,全世界男人,出生時都有睪丸。 ((為了保持我的統計學專業性,我想改一改,是超過 95% 機會全世界的男人出生時都有睪丸。)) 這是從觀察、推演到廣義化的一個例子。
經過觀察研究樣本(Sample)的特性,以統計學分析數據,再經過統計分析結論作出推演統計總體(Statistical Population)的特性,這個我們叫做統計學推演(Statistical Inference)。這是廣義化的一種方法。
研究的結論能否推演到統計總體,除了統計方法之外,還有很多的考慮因素。之前本博客曾經提出樣本的代表性問題,這一方面不再講了。
今日蘋果日報報道「六成青年時薪 30 元以下」。調查的「結論」永遠在報道/報導的第一段,如下:

本港青年人低薪情況嚴重,民間爭取最低工資聯盟調查發現,62%在職青年時薪不足30元,平均每周工時更長達51.8小時,人工低,不少青年不諱言因此而要經常轉工。

每次看到如此的報道/報導,我都會去看研究方法到底佔了幾多個字。這篇報道有關研究方法的內容如下:

調查訪問了 200 名年齡介乎 16 至 30 歲在職青年,受訪者學歷均在預科或以下。

由於這個調查的「結論」是推演到「本港青年人」,或同情地理解的「在職青年」這個統計總體,那麼研究的樣本,應該代表「在職青年」。合理的方法是隨機從「在職青年」抽樣進行調查,再比對收集回來的樣本,是否與「在職青年」這個總體的其他特性類似。一般的方法是對比樣本的男女比例、收入狀況等等是否和政府統計處發表的人口普查結果匹配。 ((人口普查的結果,是採用所謂 Brutal-force Method 收集回來的數據,因為他幾乎收集了香港所有居民的資料。統計學上,雖然這仍是叫做樣本,但這是最接近統計總體的結果。故此我們會用人口普查的結果作為統計總體特性的 Surrogate Marker. )) 如果不匹配,代表收集樣本時有選樣偏差 ((Selection Bias)) ,即是某些具有特定性質的人會有更高機會被選為樣本。代表研究的結果不具有推演性,結論只適用於樣本。這一類的研究,根本就不值得去做,是浪費金錢的。
這個由民間爭取最低工資聯盟做的調查,報道沒有說明調查的方法(紙筆問卷、親身訪問、電話訪問、街頭訪問...)、樣本選取的方法(隨機抽樣、「隨便」抽樣 ((Convenience Sampling)) 、街頭抽樣 )等等,但是卻留有一句十分重要的線索,就是「受訪者學歷均在預科或以下」。根據政府統計處的 2006 年資料,與上述調查最匹配的年齡組別,即 15-29 歲,總共有 1411292 人。如果上述調查的樣本具有代表性,這一百四十多萬人,都應該像那個調查的樣本,是「學歷均在預科或以下」。而事實上,這一百四十多萬人,有八十一萬人有預科以上的學歷。 ((在下也在這個年齡組別,是一個大學畢業生)) 代表調查的樣本亳無代表性,即「六成青年時薪 30 元以下」是狗屁不通,過度廣義化,完全不成立。就算同情的說法,只能說「六成低學歷的在職青年時薪 30 元以下」 ((這個說法統計學上亦不成立。)) ,我亦相信這個說法更加合乎現實。當一般人說「所有阿拉拍人都是恐佈份子」 ((我要聲明:我極度反對這個說法。)) ,會被視為偏見。但為何當研究團體和傳媒,發表「所有在職青年都是低學歷」不合乎現實的、含有偏見的言論,卻可以振振有詞,還可刊在港聞版?是不是他們都戴上了「問卷調查」這個偽中立、偽科學的假面具?還要以為自己主持了所謂的社會公義?
之前說過,香港的傳媒可以學習台灣報道民調的手法。團體發表研究、舉行記者招待會,甚至邀請記者就某事採訪,代表團體有一套意識形態要灌輸給公眾。姑勿論團體動機如何,傳媒是否應照單全收,按照團體操控意識形態報道出來?由其是當自己沒有解讀的能力的時候。我沒有讀過新聞學,我沒有答案。這個問題很值得大家思考。