你會用 Stepwise regression ((或稱 automatic variable selection 、 subset regression ,還有那些 Backward 、 Forward variable selection )) 嗎?
我一定不會用。
之前講過 data dredging 的問題,有人回我說 data dredging 沒有問題。我不知道何謂好科學,我只知甚麼叫做好分析。
任何有關統計模型建立的書藉,都會說模型的建立,是建基於理論及假設。例如你設立一個模型,是高度和年齡有關。你或者有一些理論去支持這樣的去做模型,例如年齡增長、 Growth hormone 增加、身體長高 ... 而其他輸入模型的數據,如 confounding factors 或 effect modifiers ,都應該是有理論基礎的。
Stepwise regression 完全的違背這個原則。它鼓勵你將你手頭上所有的 variable 都放入 model ,再由電腦設定的規則選擇那一個和結果有關。
Stepwise 的另一個問題是在 variable 篩選過程,做了多次統計檢定,例如那些 FIn 、 FOut 。之前講過,在同一組數據做多次統計檢定,會有 Alpha inflation 的問題。但是,你想用 Bonferroni 之類的方法去調整 Alpha 值嗎?這是不可能的,因為這是影響 Stepwise 的結果,會生成出「Stepwise 生成模型」﹣>「有 Alpha inflation 」﹣>「Bonferroni adjustment 」﹣>「需要重新建立 stepwise 模型」﹣>「有新的 Alpha inflation 」﹣> ... 的 recursion 。
之前的研究已經發現, Stepwise 製造出來的模型,其 parameter estimates 應該與正常方法製作出來的模型類似,但 Standard error 會不設實際的細小。即是話,很容易會有 False positive 的結果。難怪科學家們那麼愛用,因為很易製造出 p<0.005 。亦即是,用 stepwise 製造出來的 p 和 confidence intervals 是無意思的。就算 Stepwise regression 製造出來的模型或有意義,但其意義不是驗證研究的假設。而係好像 data dredging 那樣,只是製造新的假設。而且亦與 data dredging 一樣,是一種 data driven 的遊戲。在我的標準,這些結果根本不值得期刊刊登。就像一個正常的研究,我只說出我的研究之 H0 及 HA 投文,沒有數據支持那一個假設成立,期刊會刊登這樣的文章嗎?
Stepwise 在一般的統計分析,根本一無事處,不知道為何 SPSS 要將它放到如此的當眼位置。我想 SPSS 是 Stepwise regression 至今不死的原因。 ((Stepwise regression 其實非一無事處。當你對 outcome 及 predictors 的關係完全 no clue ,屆時可以用 Stepwise 去找出可能相關的 predictors ,生成新的假設。再用另一堆數據去驗證這個假設。但這種情況其實非常少有。)) 在 Big 5 journal 之一的 Annals of Internal Medicine ,現在更加於 Information for Authors 寫明除非滿足某些條件,否則禁用 Stepwise 。