Home |
About |
Archive
每天在做
Posted on Oct 4, 2008
by Chung-hong Chan
機率論統計學的假設檢定之所以成立,是建基於以下的假設:
- 研究的假設確立先於數據收集,並計劃所需要進行的檢定法
- 數據收集是建基於檢定假設的需求
- 在數據進行預先計劃的假設檢定方法。統計檢定的目的,不是「有無野睇」,而係看看從數據見到的結論有幾大可能只是湊巧找到
以上三點,無一不可。總之記著一點,研究的假設必需要在獲得數據之前確立。不能像一般投機人仕的做法,是先獲得一大推數據,再從數據反覆進行不同的統計檢定找出一些 Pattern ((例如用 parametric test 見不到 p<0.05 ,於是用 non-parametric test 。再看不到,就不如將數據以不同的 cut-off point 變成 categorical data ,做些 2 by 2 table 。再看不到,不如用 regression 控制一些其他的 confounding factors ... Linear regression 不行就用 Logistic Regression ...)) ,並將這些 Pattern 拿去期刊發表。這種做法叫做 data dredging ((從網上找到的中文譯法有數據挖泥、數據捕撈、數據疏浚、資料打撈等等。但我決定在本文使用原版英文,因為這些譯名都不能捕捉到神髓,問題是沒有一種負面的感覺。要我譯的話,會叫做數據乞食。)) ,我個人對這個做法相當反感,可是卻每天在做。反感原因有以下:
- 沒有假設叫人去收集數據,往往會令數據收集變成一個 production disaster 。例子之一是在 data dredging 進行時,最想「見到 A 和 B 有野睇」,於是乎只收集了 A 和 B 兩個數據。但是 A 和 B 原來「無野睇」,於是乎想看 A 和 C 有無野睇。這時才發現 C 沒有收集過。於是乎又要去收集 C ... 沒完沒了。 ((我想我講出了部份 Research Assistant 的苦況。這個我是明白的。))
- 同一堆數據反覆進行了數以幾十計先前沒有預定的統計檢定。每個檢定都有一個 Alpha 及 beta 值,即是假陽假陰的可能性。假設進行了 30 種不同的檢定,又以最當見的 p < 0.05 作為「統計學上明顯」,那麼這個「研究」最少有一次找出假陽的機會,不是 5% ,而係 1 - (0.95^30) = 78.5% 。
- 這種做法違反上列三點的假設檢定假設,故此任何「製造」出來的結果,在統計學層面都是亳無意義。那些 Pattern 其實沒有證明過任何的東西,只是一些剛剛製造出來的新假設。
- 在一般的研究架構底下,是有「老闆」及「研究助理」兩個層次。「老闆」由於擁有行業專業知識,應該是確立假設、計劃數據收集的人,而「研究助理」則只屬執行有關的研究計劃,亦因此「研究助理」只屬於一種最高值萬五蚊月薪的職業。但進行 data dredging ,老闆所要做的只是著下屬「研究助理」收集數據,再由「研究助理」從數據找出不同的 Pattern ,亦即他們在發掘假設。「老闆」的工作是每天問「研究助理」今天找到了甚麼 Pattern 。研究的主導權,完全由「老闆」變成「研究助理」。我實在建議政黨替進行 data dredging 的研究助理,爭取合理的待遇。
- 進行這類 data dredging 作業,最常會用到迴歸分析。由於進行 data dredging 會傾向獲得大量的 independent variables ( IV )。當過多的 IV 用於這類統計模型,就會出現「過適」( Overfitting )的統計模型。意即 IV 的量多,但其實 dependent variable 與潛在的 IV 之關係相當簡單。統計學的解釋是,當 degree of freedom 因為 IV 增加太多,參數選擇就會「不嚴謹」,統計模型任何無關痛癢的 IV 也會成為模型的參數。
我一直認為,一個研究前期做得好,後期的數據分析就可以相當簡單方便,使用的方法亦不會太複雜。 ((例子之一是RCT 。由於設計精確,著重事前的準備工夫,用隨機方法分藥解決了 Confounding factors 的問題,很多時證明結果成效的,只會是一個簡單的 t-test 。而 RCT 是近乎沒有 data dredging 的空間的。)) 我認為學術期刊沒有禁止以 data dredging 方式「泡製」出來的研究報告,是增加投機者繼續熱衷於 data dredging 的原因。投機者通常都會將 data dredging 文章包裝到像事先有假設似的,令期刊打擊困難。 ((而事實上期刊的同儕審視機制,部份不肖的 Reviewer 常常都是那些鼓吹 data dredging 的投機者。他們常常會在 comment 質疑別人為何別人的研究明明有收集 A 和 C 的數據,而人家的研究是設計成看看 A 和 B 的關係,為何不去看看 A 和 C 的關係。變相鼓吹 data dredging 。))
當然,你有人力物力,先收集數據,夠多夠廣,再進行 data dredging 可以是容許的,但我覺得最少要這樣:
- 將收集回來的數據隨機分成兩分。
- 第一份數據如常的進行 data dredging ,找出一些 Pattern ,作為假設。
- 再在第二份數據驗證這些假設。
我認為只有這樣做的 data dredging 文章才有資格發表到期刊。但通常要淪落到做 data dredging 的機構,通常都不能找到一個夠 statistical power 的樣本數。還要他們將數據分成兩份,簡直是要了他們的命,因為近乎一定「無野睇」。
Powered by Jekyll and profdr theme