picture-5

統計101: 量度兩個變量 x 和 y 的相關性( bivariate correlation ),我們會用所謂的 Pearson's correlation 。計算法每對是 x 及 y 的 z score 相乘除以樣本數減一。但由於計算 z score 假定 x 及 y 為常態分佈,故此 Pearson's correlation 是母數統計( Parametric Statistics )方法。
當 x 和 y 不是常態分佈,會改用無母數統計( Nonparametric Statistics )方法。書本教的方法是:用 Spearman's Rho 。其實即是將 x 及 y 分別排序( Rank ),再用 Rank 來做 Pearson's correlation 。
例如有 x 及 y 分別是:

x: 4, 5, 8
y: 6, 3, 12

會轉為 Rank 即

x: 1, 2, 3
y: 2, 1, 3

再用 Rank 來計算。
好了。到底 Spearman's Rho 可否用 Pearson's correlation 同一樣的解讀方法? Pearson correlation coefficient (r) 等於 1 ,代表 x 和 y 呈完美的相關。當 x 增加, y 都一定增加。如 x 及 y 都是自由收集的話 ((即沒有限制 Variance )) , r 的平方更加是 coefficient of determination ,如 r-square 等於 0.2 ,即代表 x 能夠解釋 y  20% 的 Variance 。 r 可以有這樣豐富的解釋, Spearman 可以用同樣的方法解讀嗎?書本甚至老師都認為, Spearman 及 Pearson 的解讀方法一樣,即是 r 或 rho 大過若干數,即是 x 同 y 相關。事實不是這樣。
Spearman 只代表 x 及 y 的 Rank 相關,而不是 x 和 y 相關。 ((這是 Nonparametric 的通病。)) 要理解它的意思,亦相當困難,最少我難以用五十個字以內解釋, Spearman's Rho = 0.5 實質上的意義是甚麼。沒有人會問 Spearman 和 Pearson 在意義上的實質分別,因為我們相信書本及老師的教誨。
其實一早有人發現 Spearman 的問題,在 Charles Spearman 發明 Spearman's Rho 之後的 30 年,有一名聰明人 Maurice Kendall 發明了另一款無母數的相關系數 tau 。 (( Charles Spearman 在 1904 年發明 Spearman's Rho , Maurice Kendall 在 1938 年發明 Kendall's Tau )) 由於一般生物統計學課程會像教會學校避教男女性器官構造避免學生性興奮那樣 ((蘋果日報 2007 年 12 月 14 日:教會學校撕掉課本性知識篇 主任稱為免中一生看後衝動)) ,避教 tau ,只好在這裡說說。
例如有 x 及 y 分別是:

x: 4, 5, 8
y: 6, 3, 12

之後我們看看 x 增加, y 會否吻合地增加。即

x 由 4 增至 5 , y 由 6 減至 3 。即不吻合 (-)。
x 由 4 增至 8 , y 由 6 增至 12 。即吻合 (+) 。 ((感謝讀者 The Suffocated 指正。曾一度寫錯為 「 5 增至 8 」 。))
x 由 5 增至 8 , y 由 3 增至 12 。即吻合 (+) 。

從三次比對,我們獲得兩次吻合,一次不吻合。我們可計一個叫 Kendall's S 的東西,即吻合次數減不吻合次數。今次是 2-1 = 1 。其實這個 S 已經有意義,但是其數值含義與樣本數有關,更直接的說法是與上列對比次數有關,故此需要 Standardization 。
如 x 和 y 有 n 對,那麼可以有 (n(n-1))/2 次比較。如上例有 3 對數,(3*2)/2 等於 3 ,我們做了三次比較。我們可將 S 轉為 tau ,就是 tau = 2S / (n(n-1)) 。上例就會是 tau = (2*1) / (3(3-1)) = 2 / 6 = 0.3333 了。從此,這個 tau 最大值是 1 ,最少值是 -1 。這個 tau 可以直接的解釋,就是 x 增加時, y 增加的機會為減少機會的兩倍。因為 (1+ tau) / (1- tau) = 2 。 ((這個其實是 Odds ratio 。)) 簡單清潔,無用 Spearman 在解話時的繞口杉手。
可是我們仍然使用 Spearman ,極少用 Kendall 。原因是甚麼呢?根據 Griffiths 的說法,是: it is the one which is commonly used. ((Griffiths D. A Pragmatic Approach to Spearman's Rank Correlation Coefficient. Teaching Statistics 1980:2; 10-3. )) 即是話點解用 Spearman ,因為 Spearman 多人用。點解用 Windows XP ,因為 Windows XP 多人用。點解要睇無線,因為無線多人睇。點解中國人最叻,因為地球上最多中國人。
啊!原來係咁。 ((ETV 小明語調。))

p.s. 在 R 是這樣的計算 tau


x < - c( 4, 5, 8 )
y <- c( 6, 3, 12 )
cor.test(x,y,method="kendall")