去年九月問過此問題,要四個幾月才寫好一篇我滿意的答案。
要計算,我想只能 Estimate 。 Johnson Lau 君的 comment 非常好,其實那兩個 P(E) 及 P(N) 是不正確的。
就算我去讀 Biostatistics / Epidemiology ,都沒有講過為何 Case-control studies 不能計算 Rate ratio (RR) 。只用一種死記型式的方法處理,即 Case-control 計 Odds ratio (OR) 、 Cohort/RCT 計 RR/OR 都得。但其實解釋都不算太困難。
在 Case-control study ,你是根據某人有沒有出現結果( Outcome ),才知道他有沒有披露於高危因素( Exposure )。那麼,你獲得的 probabilities ,實為 P(E|O) 。但是,在計算 RR ,就必需要 P(O|E) ,因為這個才是 Risk (π)。而 P(O|E) 及 P(E|O) 是不能簡單互換的。當計算 OR 時, 是不涉及 P(O|E) 換算 P(E|O) 的問題。因為這個根本是在計 odds 而不是 probabilities 。
但到底, P(O|E) 及 P(E|O) 是否可互換?
根據 King & Zeng 的研究,我們是可以從 Odds 轉為 π 的,但要加入一個值,叫做 τ ( tau )。
設 E=1 代表 exposed , E=0 是 non-exposed 。
設 O=1 代表有 Outcome , O=0 是無 Outcome。
π = P(O=1|E,τ)
= [P(E|O=1)P(O=1)]/P(E)
= [P(E|O=1)(τ)]/ [P(E|O=1)(τ) + P(E|O=0)( 1- τ)]
τ 是 P(O=1) ,用文字形容,此為 Population fraction of incident cases (母體的新發生個案數比率),根本難以估測,一般的 Population prevalence study 得出的數字也不等於此值,但可以作 Background risk 參考。所謂的 Rare outcome 假設,就是當 τ 近零, OR 就差不多等於 RR 。但這個假設未必對,由其是在高危高傳染性的病。
回到佛州的問題,我們萬事俱備,只欠 τ 值。當然,我們可以假定 τ ∈ [0.01, 0.99] ((∈ 是指 is a element of )) ,斷估發生交通意外時,死亡率應不會是 0% 或 100% (你夠不夠膽話比人知無論有無帶安全帶,發生交通意外一定死或一定不死),那不如估最低為 1% 最高為 99% ,反正都是斷估。
O=1 | O=0 | |
E=1 | 510 | 412368 |
E=0 | 1601 | 162527 |
π (E=1) = [ 510/(510+1610) * (τ)]/ [510/(510+1610) (τ) + 412368/(412368+162527) * ( 1- τ)]
= 0.25 τ / ( 0.25 τ + [0.72 (1 - τ )])
= 0.25 τ / (0.25 τ + 0.72 - 0.72 τ)
= 0.25 τ / (0.72 - 0.47 τ )
= τ / (2.88 - 1.88 τ)
π (E=0) = [ 1610/(510+1610) * (τ)]/ [1610/(510+1610) (τ) + 162527/(412368+162527) * ( 1- τ)]
= 0.76 τ / ( 0.76 τ + [0.28 (1 - τ )])
= 0.76 τ / (0.76 τ + 0.28 - 0.28 τ)
= 0.76 τ / (0.28 + 0.48 τ )
= τ / (0.37 + 0.63 τ)
因為 RR 是等於 π (E=1) / π (E=0) ,我們可將之前的 τ = [0.01, 0.99] 塞入去。
當 τ = 0.01
π (E=1) = 0.01 / (2.88 - 1.88 * 0.01)
= 0.003495037
π (E=0) = 0.01 / (0.37 + 0.63 * 0.01)
= 0.02657454
當 τ = 0.99
π (E=1) = 0.99 / (2.88 - 1.88 * 0.99)
= 0.9717314
π (E=0) = 0.99 / (0.37 + 0.63 * 0.99)
= 0.9962765
如果 τ ∈ [0.01, 0.99] ,那麼 RR ∈ [0.13, 0.97] 。其實可以計埋 Risk Difference ( RD )。如果我們得到更精確的 τ ,就可得到更精確的 RR 。例如在 Wikipedia 找到,各種撞車的死亡率在 0.04% 至 31.7% ,以此仍為 τ 計算可得出 RR ∈ [0.13, 0.25] 。
要 Interval estimation ,一樣得。我們假設 τ = 0.04% 至 31.7% 是我們的 95% Prior Intervals 。我們可以建設一個 Prior distribution : 95% Mass 是 τ = 0.04% 至 31.7% 、 2.5% Mass 是 τ = 0% 至 0.04% 、 2.5% 是 τ = 31.7% 至 100% 。
根據以上的數據,我們可作 Simulation 。用 King & Zeng 的研究,τ 的分佈用 Uniform distribution 就可以了, ((我覺得這個做法不太妥當。無理由我信撞車死機會在 0.04% 及 31.7% 信心會一樣。我認為可以用一個更好的 distribution 。)) 而我們用 10000 個 sample ,再看看其 2.5 至 97.5 percentile 。
當然又是用 R 了:
# Ignore this: < - for Wordpress to chew.
sim.tau <- c(runif(9500, min = 0.0004, max = 0.317),runif(250, min = 0, max = 0.0004),runif(250, min = 0.317, max = 1))
sim.rr <- (sim.tau / (2.88 - 1.88 * sim.tau))/(sim.tau / (0.37 + 0.63 * sim.tau))
quantile(sim.rr,c(0.025,0.975))
模擬結果是 0.13 至 0.25 。 ((但是 Odds ratio 的 95% CI 是 0.1136 至 0.1387 ))
參考文獻:
King G, Zeng L. Stat Med 2002; 21: 1409-27