chainsawriot

每天在做

Posted on Oct 4, 2008 by Chung-hong Chan

機率論統計學的假設檢定之所以成立，是建基於以下的假設：

研究的假設確立先於數據收集，並計劃所需要進行的檢定法
數據收集是建基於檢定假設的需求
在數據進行預先計劃的假設檢定方法。統計檢定的目的，不是「有無野睇」，而係看看從數據見到的結論有幾大可能只是湊巧找到

以上三點，無一不可。總之記著一點，研究的假設必需要在獲得數據之前確立。不能像一般投機人仕的做法，是先獲得一大推數據，再從數據反覆進行不同的統計檢定找出一些 Pattern ((例如用 parametric test 見不到 p<0.05 ，於是用 non-parametric test 。再看不到，就不如將數據以不同的 cut-off point 變成 categorical data ，做些 2 by 2 table 。再看不到，不如用 regression 控制一些其他的 confounding factors ... Linear regression 不行就用 Logistic Regression ...)) ，並將這些 Pattern 拿去期刊發表。這種做法叫做 data dredging ((從網上找到的中文譯法有數據挖泥、數據捕撈、數據疏浚、資料打撈等等。但我決定在本文使用原版英文，因為這些譯名都不能捕捉到神髓，問題是沒有一種負面的感覺。要我譯的話，會叫做數據乞食。)) ，我個人對這個做法相當反感，可是卻每天在做。反感原因有以下：

沒有假設叫人去收集數據，往往會令數據收集變成一個 production disaster 。例子之一是在 data dredging 進行時，最想「見到 A 和 B 有野睇」，於是乎只收集了 A 和 B 兩個數據。但是 A 和 B 原來「無野睇」，於是乎想看 A 和 C 有無野睇。這時才發現 C 沒有收集過。於是乎又要去收集 C ... 沒完沒了。 ((我想我講出了部份 Research Assistant 的苦況。這個我是明白的。))
同一堆數據反覆進行了數以幾十計先前沒有預定的統計檢定。每個檢定都有一個 Alpha 及 beta 值，即是假陽假陰的可能性。假設進行了 30 種不同的檢定，又以最當見的 p < 0.05 作為「統計學上明顯」，那麼這個「研究」最少有一次找出假陽的機會，不是 5% ，而係 1 - (0.95^30) = 78.5% 。
這種做法違反上列三點的假設檢定假設，故此任何「製造」出來的結果，在統計學層面都是亳無意義。那些 Pattern 其實沒有證明過任何的東西，只是一些剛剛製造出來的新假設。
在一般的研究架構底下，是有「老闆」及「研究助理」兩個層次。「老闆」由於擁有行業專業知識，應該是確立假設、計劃數據收集的人，而「研究助理」則只屬執行有關的研究計劃，亦因此「研究助理」只屬於一種最高值萬五蚊月薪的職業。但進行 data dredging ，老闆所要做的只是著下屬「研究助理」收集數據，再由「研究助理」從數據找出不同的 Pattern ，亦即他們在發掘假設。「老闆」的工作是每天問「研究助理」今天找到了甚麼 Pattern 。研究的主導權，完全由「老闆」變成「研究助理」。我實在建議政黨替進行 data dredging 的研究助理，爭取合理的待遇。
進行這類 data dredging 作業，最常會用到迴歸分析。由於進行 data dredging 會傾向獲得大量的 independent variables （ IV ）。當過多的 IV 用於這類統計模型，就會出現「過適」（ Overfitting ）的統計模型。意即 IV 的量多，但其實 dependent variable 與潛在的 IV 之關係相當簡單。統計學的解釋是，當 degree of freedom 因為 IV 增加太多，參數選擇就會「不嚴謹」，統計模型任何無關痛癢的 IV 也會成為模型的參數。

我一直認為，一個研究前期做得好，後期的數據分析就可以相當簡單方便，使用的方法亦不會太複雜。 ((例子之一是RCT 。由於設計精確，著重事前的準備工夫，用隨機方法分藥解決了 Confounding factors 的問題，很多時證明結果成效的，只會是一個簡單的 t-test 。而 RCT 是近乎沒有 data dredging 的空間的。)) 我認為學術期刊沒有禁止以 data dredging 方式「泡製」出來的研究報告，是增加投機者繼續熱衷於 data dredging 的原因。投機者通常都會將 data dredging 文章包裝到像事先有假設似的，令期刊打擊困難。 ((而事實上期刊的同儕審視機制，部份不肖的 Reviewer 常常都是那些鼓吹 data dredging 的投機者。他們常常會在 comment 質疑別人為何別人的研究明明有收集 A 和 C 的數據，而人家的研究是設計成看看 A 和 B 的關係，為何不去看看 A 和 C 的關係。變相鼓吹 data dredging 。))
當然，你有人力物力，先收集數據，夠多夠廣，再進行 data dredging 可以是容許的，但我覺得最少要這樣：

將收集回來的數據隨機分成兩分。
第一份數據如常的進行 data dredging ，找出一些 Pattern ，作為假設。
再在第二份數據驗證這些假設。

我認為只有這樣做的 data dredging 文章才有資格發表到期刊。但通常要淪落到做 data dredging 的機構，通常都不能找到一個夠 statistical power 的樣本數。還要他們將數據分成兩份，簡直是要了他們的命，因為近乎一定「無野睇」。