之前講過 Pie Chart 的問題。 其實都講過少少。今次再講。
Data Visualization 有兩個重要理論,一個是 Tufte 的 Data-Ink ratio ,另一個是 Cleveland 的 Interpretation hierarchy 。
Data/Ink ratio 指出,圖表用於表達數據的部份,應該多於其他不必要的東西,包括那些聲稱會令圖像易讀的東西。有點像 Signal-noise ratio ,即是「廢物」愈少愈好。
而 Cleveland 的 Interpretation hierarchy 是,人眼解讀圖像不同的 element ,是有不同的解讀力。網上找來的圖有此:

data_vis_1

上次說過 Pie Chart 的問題,就是因為 Pie Chart 是屬於這個 hierarchy 的第四級,人眼難以分別兩個角度的大小。

以下的數據,是 powerpoint 在插入一張圖表時的預設數據,你會怎樣的 visualize ?

raw_data

只有 12 個數字, Powerpoint 預設是這樣的 visualize 。

datavisi_1

這張圖的最大問題是, Data/Ink ratio 太低。那些 3D 是完全沒需要的,甚至有誤導成份。 Grid line 也太多了吧。

在進行 visualization 之前,需要知道這些數據為甚麼要繪圖。我認為這些數據要繪圖,是要用圖像進行以下比較:

1. 比較每個 Quarter East, West 及 North 的數值
2. 比較 East, West 及 North 分別在 Q1-Q4 的數值

如果有以上的目的,以下圖像就不適合了:

datavisi_3

這種 stacked bar chart 的目的,是用來比較每條的加總數。我們可以比較每條代表方向的捧上每種顏色部份(即 Quarter )在各棒的長度。但比較起來相當辛苦,因為屬於 Interpretation hierarchy 的第三級。
而另一種像惡夢的方法,是這樣

datavisi_2

這樣三個 pie chart 是達到殺死人級的差勁圖像。不想解釋了。

其實只要將 Powerpoint 預設的棒形圖減少 3D 效果,已經可以增加一點 Data/Ink ratio 。

datavisi_4

但是我覺得 Grid 還是太多。以下應該是 Excel 所能提供最 minimal 的版本。

datavisi_5

這個 data/ink ratio 己經不錯, Interpretation hierarchy 也在第一級。而且能夠滿足上面兩個目的。但唯一較差的是,那個圖例( Legend )。 Tufte 建議,圖例應該直接融入圖像內。而不應叫讀者「看到圖的藍色 -> 看 Legend -> 原來藍色是代表 East -> 原來藍色有這麼長,比紫色短 -> 又看 Legend -> 原來紫色是 West -> 原來 East 的數值比 West 小 -> ....」。
以下是我想到,不單 data/ink 高,而且 Interpretation hierarchy 也很高級。

datavisi_6

X-Axis 的格線還可減少一點。

R Code: dotchart_powerpoint