Statistics ,愛他還是恨他,你還是要學他。一般的大學課程都會有一至兩堂統計學課程,但可惜這些課程只重計算,不重應用。應用統計( Applied Statistics )應該是一般副修統計學的鑽研重點,可惜大學課程沒有向這方面去改進。筆者在讀大學時都有統計課,但卻令人呵欠連連。我的統計知識,都是在工作時學習的。我想,這也是一般需要用到統計學、但又不是主修統計學的人仕常見的現像。
一向以推出電腦書藉聞名的 O'Reilly ,近年銳意攻入科學課本市場。他們推出了一系列的物理及統計書藉。本博記載筆者零六正在馬料水大工作極為困苦,以看 O'Reilly 的 Statistics Hacks 聊以自慰的事蹟。今次是看今年七月推出的 Statistics in a Nutshell 。這是一本相當有趣的書。
Statistics in a Nutshell 明顯是寫給本科非統計的人仕閱讀,因為相當著重應用,例如每個統計檢定能夠應用的場合。最令人驚喜,是有一節講 data management 。一般坊間的統計學書都不會有這樣的安排,而一般有關資訊管理的書藉,又不會以統計分析應用為目標。但其實統計,是源於數據。數據不好,統計都不會好,永不會出現各學系第一二把膠椅對統計師的 Garbage in, Gospel Out 的不合理期望。而在實質進行統計分析時,有超過 80% 的時間,應乎的是數據整理問題。這一節講到的 Codebook 概念,就算大學醫院進行的醫學研究都未必有這樣的安排,一家小醫院的醫學研究數據更加是亂入。而第一二把膠椅又會相信,數據到手後,是奇蹟地整理等妥妥當當。另一有趣的章節是 Critiquing Statistics Presented by Others ,有助臨床學者製造數不完的 Letter to editor 。
我曾看過一本大學程度的統計書以 Linear Regression 作為 Advance Topic 將書本完結。此書最深的章節講到 Repeated measure ANOVA / Mixed design ,我覺得夠深的了。其實講到 Regression ,最重要反而是怎樣的去 Check 那 L.I.N.E. 假設。幸好此書有相當深入的討論。
假如日後 O'Reilly 能夠推出一本 R in a Nutshell ,與此書一起售賣,會是每天利用到統計分析的研究助理們居家旅行必備良藥。
【寫此文時本人仍處理病氣迷亂狀態,有錯請指正。】