chainsawriot

Target population

Posted on Mar 4, 2010 by Chung-hong Chan

N 年前討論過，做 Survey 前，要知道你的 Target population 是甚麼，你才能用此推演出甚麼。
和之前一樣，我不是針對研究機構，雖則今次是在 Facebook 有十萬人表態反對的 DAB 。趁他們的專貴的陳克勤剛公報這個調查，還未寫進明天報紙之前提出以下重要問題，希望明天報紙別又誤導眾生。
DAB 調查了市民對吸毒後駕駛的意見，看了其研究報告。我暫且相信她們的樣本是有代表性，問卷問題有問題但無謂挑剔。但其中有一條問題（第三題）為此：

據你所知，你既朋友或親人有冇試過吸毒後駕駛呢？

這條問題也非常 Fair ，但是這條問題的結果卻被這樣子的演繹：

另外，在是次調查中， 4.7% 受訪者表示，曾有朋友或親人試過吸毒後駕駛的情況，若以本港現時 1,736,623 名領有正式駕駛執照的總人數來推算，我們估計約有 81,621 名駕駛人士曾試過吸毒後駕駛，有關情況令人憂慮（見問題３）。

這樣的推演方法是錯誤的。假定有以下的 situation ：一心、有容和國華是朋友，這三人之中只有國華有車牌，而且他亦曾索ｋ後駕車。好了，民建聯的調查員抽中了一心和有容，他們被問及第三題時，都想起了國華，於是都答「有」。但是他們其實都是指同一個國華，可是以此作推演的話，卻變成了兩個國華。那就 Over-represent 了。極端例子：假定香港有兩萬人，其中有一千人有車牌是駕駛者。如果全港兩萬人都是國華的朋友和親戚，如果民建聯訪問了全部兩萬人，人人都想起同一個國華，第三題都答有。用民建聯同一個推演邏輯，那麼是不是代表全港所有一千個有車牌的人都曾經吸毒後駕駛？
總而言之，這個問題實在沒有甚麼推演作用。
如果要問此類問題，而得出「我們估計約有 81,621 名駕駛人士曾試過吸毒後駕駛」之類的結論，其 Target population 明顯是駕駛人士，而不是駕駛人士的親戚朋友。故此，應該是問駕駛人士自己有沒有試過吸毒後駕駛，才能用1,736,623 名領有正式駕駛執照作為母數推演。不過，這個問題是 Sensitive question ，通常又會 Under reporting ，所以是需要用特別的技巧，而不是簡單一個電話調查那麼便宜的。實情是，此類問題是不可能用電話調查得到可靠的答案。

其中一個解決方法是「抽菲林筒」（ Randomized Response ）。就是將問題 A 和 B ，分別放入菲林筒之內，再放入布袋之內。

A: 我是女人
B: 我試過吸食毒品後駕駛

受訪者隨機從布袋兩個菲林筒抽出一個，看到問題，只需要根據問題答「是」和「否」便可。訪問的工作人員不知道受訪者抽到甚麼問題，受訪者也無需交代他抽到甚麼問題。受訪者的私穩因此得到保障。
工作人員會就此得出有幾多人答「是」和「否」，但這個答案是包含了 A 和 B 問題的答案。但是我們是知道受訪者有幾多女性。
假設工作人員就這題抽菲林題收集到 16% 人答是，而受訪者有 30% 是女性。受訪者抽到 A 和 B 問題的機會率是二分之一（ 50% ），那麼 B 問題答「是」的比率 P 是

0.16 = 0.30 * 0.50 + P * 0.5
0.16 - 0.15 = P*0.5
0.01 = P*0.5
P=0.02

民建聯算幾好了，起碼不是街頭訪問再推演全港的爛調查。但都要繼續告誡政黨和 NGO ，政策研究和民意調查，不是隨隨便便的。