Data visualization ,中文有一個核突的譯名,叫做數據可視化。在香港的生物統計教學,是最弱的一環。我讀完了一個 MSc ,兩年了,竟然只有一小時是有關 data visualization ,只是一種吹水態度的介紹何謂 bar chart, pie chart 。 Tukey 將數據分析分為兩支,一支為 exploratory data analysis ,另一支為 confirmatory data analysis 。人們去讀統計,多是學後者,由其是 hypothesis testing 。前者,多數就像我的 MSc 那樣,是輕輕帶過。
繪圖,多難。繪圖,除了要 elegant ,還有就是要靚。這個 elegant ,不是時裝的優雅,而是 elegance of science 的 simple and effective.
看到 CHP 的豬流感圖表,用的是 bar chart ,而且是每天的確診個案數。當然,我們可從圖表看到三個時期,就是五月一日至五月廿二日期間,只有數個個案。之後是五月廿三日至六月十日,個案開始增加。再在六月十一日開始出現社區爆發。我將數據的表達手法轉轉,展示 cumulative frequency (紅線),可以見到三個不同的 slope 。如果要做數據分析,這個時間序列會用到 segmented regression 。
另一個做法是用 Semi-logarithmic plot (按圖可放大)。從那條 loess (span = 0.75 ) 見到,像一條直線,代表總確診數以幾何級數增加。

swine_semilog

你有沒有更好的數據展示方法?大家研究下。

其實每圖都應該有條 curve ,就是死亡率。至今都是 0 。

數據可於此處下載

UPDATE: CHP 方面,由 18-Jun-2008 起轉用了 Cumulative ,即是與本文提倡的方法一樣。不知道 CHP 是否有看本網。