chainsawriot

2x2 答案

Posted on Feb 24, 2010 by Chung-hong Chan

去年九月問過此問題，要四個幾月才寫好一篇我滿意的答案。
要計算，我想只能 Estimate 。 Johnson Lau 君的 comment 非常好，其實那兩個 P(E) 及 P(N) 是不正確的。
就算我去讀 Biostatistics / Epidemiology ，都沒有講過為何 Case-control studies 不能計算 Rate ratio (RR) 。只用一種死記型式的方法處理，即 Case-control 計 Odds ratio (OR) 、 Cohort/RCT 計 RR/OR 都得。但其實解釋都不算太困難。
在 Case-control study ，你是根據某人有沒有出現結果（ Outcome ），才知道他有沒有披露於高危因素（ Exposure ）。那麼，你獲得的 probabilities ，實為 P(E|O) 。但是，在計算 RR ，就必需要 P(O|E) ，因為這個才是 Risk （π）。而 P(O|E) 及 P(E|O) 是不能簡單互換的。當計算 OR 時，是不涉及 P(O|E) 換算 P(E|O) 的問題。因為這個根本是在計 odds 而不是 probabilities 。

但到底， P(O|E) 及 P(E|O) 是否可互換？

根據 King & Zeng 的研究，我們是可以從 Odds 轉為 π 的，但要加入一個值，叫做 τ （ tau ）。

設 E=1 代表 exposed ， E=0 是 non-exposed 。
設 O=1 代表有 Outcome ， O=0 是無 Outcome。

τ 是 P(O=1) ，用文字形容，此為 Population fraction of incident cases （母體的新發生個案數比率），根本難以估測，一般的 Population prevalence study 得出的數字也不等於此值，但可以作 Background risk 參考。所謂的 Rare outcome 假設，就是當 τ 近零， OR 就差不多等於 RR 。但這個假設未必對，由其是在高危高傳染性的病。
回到佛州的問題，我們萬事俱備，只欠 τ 值。當然，我們可以假定 τ ∈ [0.01, 0.99] ((∈ 是指 is a element of )) ，斷估發生交通意外時，死亡率應不會是 0% 或 100% （你夠不夠膽話比人知無論有無帶安全帶，發生交通意外一定死或一定不死），那不如估最低為 1% 最高為 99% ，反正都是斷估。

	O=1	O=0
E=1	510	412368
E=0	1601	162527

π (E=1) = [ 510/(510+1610) * (τ)]/ [510/(510+1610) (τ) + 412368/(412368+162527) * ( 1- τ)]
= 0.25 τ / ( 0.25 τ + [0.72 (1 - τ )])
= 0.25 τ / (0.25 τ + 0.72 - 0.72 τ)
= 0.25 τ / (0.72 - 0.47 τ )
= τ / (2.88 - 1.88 τ)

π (E=0) = [ 1610/(510+1610) * (τ)]/ [1610/(510+1610) (τ) + 162527/(412368+162527) * ( 1- τ)]
= 0.76 τ / ( 0.76 τ + [0.28 (1 - τ )])
= 0.76 τ / (0.76 τ + 0.28 - 0.28 τ)
= 0.76 τ / (0.28 + 0.48 τ )
= τ / (0.37 + 0.63 τ)

因為 RR 是等於 π (E=1) / π (E=0) ，我們可將之前的 τ = [0.01, 0.99] 塞入去。
當 τ = 0.01

π (E=1) = 0.01 / (2.88 - 1.88 * 0.01)
= 0.003495037
π (E=0) = 0.01 / (0.37 + 0.63 * 0.01)
= 0.02657454

當 τ = 0.99

π (E=1) = 0.99 / (2.88 - 1.88 * 0.99)
= 0.9717314
π (E=0) = 0.99 / (0.37 + 0.63 * 0.99)
= 0.9962765

如果 τ ∈ [0.01, 0.99] ，那麼 RR ∈ [0.13, 0.97] 。其實可以計埋 Risk Difference （ RD ）。如果我們得到更精確的 τ ，就可得到更精確的 RR 。例如在 Wikipedia 找到，各種撞車的死亡率在 0.04% 至 31.7% ，以此仍為 τ 計算可得出 RR ∈ [0.13, 0.25] 。
要 Interval estimation ，一樣得。我們假設 τ = 0.04% 至 31.7% 是我們的 95% Prior Intervals 。我們可以建設一個 Prior distribution ： 95% Mass 是 τ = 0.04% 至 31.7% 、 2.5% Mass 是 τ = 0% 至 0.04% 、 2.5% 是 τ = 31.7% 至 100% 。
根據以上的數據，我們可作 Simulation 。用 King & Zeng 的研究，τ 的分佈用 Uniform distribution 就可以了， ((我覺得這個做法不太妥當。無理由我信撞車死機會在 0.04% 及 31.7% 信心會一樣。我認為可以用一個更好的 distribution 。)) 而我們用 10000 個 sample ，再看看其 2.5 至 97.5 percentile 。
當然又是用 R 了：

# Ignore this: < - for Wordpress to chew.
sim.tau <- c(runif(9500, min = 0.0004, max = 0.317),runif(250, min = 0, max = 0.0004),runif(250, min = 0.317, max = 1))
sim.rr <- (sim.tau / (2.88 - 1.88 * sim.tau))/(sim.tau / (0.37 + 0.63 * sim.tau))
quantile(sim.rr,c(0.025,0.975))

模擬結果是 0.13 至 0.25 。 ((但是 Odds ratio 的 95% CI 是 0.1136 至 0.1387 ))

參考文獻：

King G, Zeng L. Stat Med 2002; 21: 1409-27