Werden wir Helden für einen Tag

Home | About | Archive

one-number-per-subject

Posted on Sep 2, 2008 by Chung-hong Chan

看到 Seth Roberts ((此君未夠 60 歲已經退休,現在是加州柏克萊大學心理學系榮譽退休教授)) 寫 "Three things statistics textbooks don't tell you" ,看得很過癮。話實,我的統計學是無師自通,期間都沒有看統計書藉,是多看其他人怎樣的分析數據,從中「偷師」。亦因此,我不是根正苗紅統計學出身,理論基礎不太濃厚。現在去讀一個生物統計學碩士純是用作證明我會統計學之用。
回歸正傳, Seths 提出了三點統計書藉永遠沒有告訴你的東西。第一點是統計圖表的主要作用,不只是統計書藉所強調的展示統計結果,而係在數據分析時觀察關係,再找出合適的分析方案。有時甚至可以從此找到新的研究題材。( Idea Generation )第三點是 Data Transformation 可令數據關係更易見到,這亦是老生常談,只是統計書藉較少著重有關討論。
至於第二點,他說可多用 one-number-per-subject 方法。這是我相當少見到的,所以帶來的思想衝擊甚大。借用 Seth 例子,如有 60 個研究對像,他們每天都量度睡眠時間及情緒分數,共六十天。即總共有 3600 對睡眠時間及情緒分數數據。我們想看看睡眠時間及情緒分數有沒有關係。好了,你會怎樣去分析這 3600 個數據?想當然的方法,是將 3600 點的睡眠時間和情緒分數做 correlation/regression 。但這樣做是錯的,因為我們不是有 3600 個研究對像,這樣做明顯有違 Regression 四大假設的 independence ((另外三個分別是 Linearity, homoscedasticity 及 normality of error )) 。有些人又會說做 Multiple Regression analysis 控制每個研究對像的不同,這亦是我輩會想到的分析套路。 ((即是將 Subject 當作一個 dummy variable 。因為我們有簡單複雜化的傾向,面對複雜問題用更複雜的方法)) 但這仍未解決到 independence 的問題。 Seth 提出的方法,是我想不到的:將 60 個研究對像的 60 天的睡眠時間及情緒分數,每人計一個 correlation coefficient 。再計算 60 人的平均 correlation coefficient 是否明顯高於零。 ((即是每個對像以一個 correlation coefficient 作為一藍子數據的 summary ,再分析這個 summary 。故作 one-number-per-subject。 )) 他指出這方法不但解決了 independence 的問題,亦可解決了數據缺失及 outliner 。亦令分析簡單方便但又不減低分析的 sensitivity 。
這個技術好像沒有人教過我。在此向大家分享。 ((雖然沒有人教,但我的 innate response 驅使我用過這些方法。例子是在分析去年港島補選的 Meta-analysis ,我沒有用到每次民調的 raw data ,而只使用葉劉和陳太的 margin 。由於每次 sample size 及 Margin 都有不同,故此 Standard Error 不同,我使用了 Meta-analysis 控制 Standard Error 不一的影響。))


Powered by Jekyll and profdr theme, a fork of true minimal theme