tyler

圖: Tyler Vigen

數據愈來愈多,很多人都認為處理數據的技能重要。沒有新聞不需要數據,只是多還是少。人人都談數據新聞 (data journalism) ,數據新聞都是新聞, The Element of Journalism 一書說新聞的第一要務是講出事實的真相 (‘Journalism’s first obligation is to the truth’),意見是很廉價的。要從數據中找事實 (fact) ,例如找出兩條時間序列之間有極高相關性,這只是找出事實。但單單是講出事實,不代表就是事實的真相 (truth, truth is a perception that matches reality) 。如何解讀數據中反映的事實真相,這是科學的範疇。故此,數據新聞記者,除了要有記者所應有對追尋真相的堅持,還要具有一定的科學頭腦,最少要知道數據分析的限制。隨便解讀數據,到頭來就不是講事實的真相,也即是根本不是新聞。

數據新聞應該怎樣去做,我也經過不少折騰。我不太會用數據說故事,曾經寫過 TVB 藝員網絡分析,惹來不少批評。直至今天,仍在為小小稿費折騰,摸著石頭過河,煞是痛苦。故此,以下只是我的少少愚見。我其實建議記者可以就個別議題可找真的專家提供意見,香港其實不缺乏數據新聞的學者和業界人士,而我並不是其中一位。分析商業價格關係,是計量經濟學家 (econometrician) 的知識範疇,他們不僅有分析的能力,更有經濟學的領域知識 (domain knowledge) 。而我,至今也不知我的領域知識有甚麼。曾經寫過物理學,寫讀者不中聽的聲音,也引來批評,指 A Level 物理「揸槍」(不合格)何德何能寫物理學。但最少我坦率承認我物理學考試真的是揸過槍,而不是自稱是甚麼專家。

我有份教新聞系學生統計學,在解釋何謂 Correlation doesn't imply causation (相關不蘊含因果),會從 tylervigen.com 網站找非常高相關性的時間序列作例子,隨手拿來的例子是美國政府用於科投研究的投資和美國以窒息方法自殺死亡人數的相關性,皮爾森相關系數高達 0.9978 。但是否代表科研會「引致」窒息自殺呢?

最近《香港01》發表了油公司價格相關性的偵查報道,指出油公司的油價相關性極高,故此結論是「合謀嫌疑很大」。當然,這一句話很有可能是他們找出事實後,再去訪問「專家」,是他們發表的意見。但上文已說了,新聞就是追尋事實的真相,而不僅僅是引述意見。

縱使油公司可能有合謀,但指出油公司油價相關性極高並非充份的證據。合謀與否,是一個因果關係的斷言 (causal inference),代表各家油公司因為有合謀定價,所以油價走勢才會如此一致。流行病學家 Austin Bradford Hill 指出,要由兩者具相關性,證明兩者有因果關係,最少要達成九項準則,後世稱為 Bradford Hill’s Criteria 。當然,兩者相關性甚高是其中一個準則,但還有其餘八項。其中一項是事件的先後次序( temporal precedence ),例如我見到吸煙和肺癌有相關性,想要證明吸煙引致肺癌,最少我要證明吸煙一定要先於肺癌,而不是病人有肺癌才去吸煙。如果要由油價的相關性去證明油公司有合謀,最少都要有油公司合謀的證據為先,例如員工爆大鑊泄漏油公司之間合謀的電話錄音、內部泄漏的油公司之間的合約,都是先後次序的證據。

另一個準則,叫專性( specificity ),簡而言之,是兩者有高度相關性沒有其他可能的解釋。兩公司提供的商品價格有極高的相關性( correlation )是否就等於有合謀操控價格?有沒有其他可能的解釋?更合理的解釋不是市場競爭大?假設惠康設立可樂價格的策略是百佳價減一毫子,每天派人格價,惠康同百佳賣可樂價格的皮爾森相關系數會高至 1 ,但不代表百佳同惠康有合謀。合謀的意思是兩者有協商後定價,但在上例是沒有的。

其實分析時間序列統計學上有很多限制,很容易就可以找到極高的相關性,原因之一是每個數據點之間的關係並非獨立,今天的數據是和昨天有關,是違反了一般線性回歸分析的 L.I.N.E. 假設的 I(ndependence of errors) 假設。但由於太過專門,也不便於本文列出了。

《香港01》挖掘事實誠然值得尊敬,但事實和真相的之間的距離,僅一步之遙,錯誤的引導,就只變成更大的疑點。未有充份證據就檢舉,不單止是誤導讀者,疑點利益更是歸於被告,放生了可能真的有作惡的油公司。