Werden wir Helden für einen Tag

Home | About | Archive

CRI 101: normalization for clinical scientists I

Posted on Jan 22, 2008 by Chung-hong Chan

我真係寫。
我都是一個初學者,但求大家切磋下。
CRI ,是 Clinical Research Informatics 是 Medical Informatics 的一個小分支。香港沒有大學開辦 Medical Informatics 課程,更遑論 CRI !但這是對研究多麼的重要呀!
我只好憑經驗和知識,將我對這方面的知識傾囊相授。為香港科學發展,以及 Research Assistant 的福祉好好著想。 RA 都有阿媽生,別亂入 Data 要他們幫你做 Cleaning 。要是你不會如何有效入數據,不妨先問問他們。

COPYRIGHT CH CHAN 2008


Creative Commons License


This work is licensed under a
Creative Commons Attribution-Share Alike 3.0 Unported License.
以中文寫多次。如要轉載請標示本文作者及以同樣的 CC Attribution-Share Alike 再發表。
---------------

作為一個研究人員,最重要的是數據。數據常常用試算表如 Excel 儲存。最常見的情況是這樣:

excel.png

Excel 不是一個良好的數據儲存軟件。從上圖所見,一般的做法是隨意選一行作為首行,定義數據的名稱,再在之下的格仔儲存每一個數據。這是一般人仕直覺的做法,很想當然的。我不是說這樣做有錯,只不過這不是一個有效儲存的方法,以後亦難於作修改、檢視和選取。
從圖表我們找到了以下的問題:
1. 每個病人可以同時有多種病。故此在 Disease 的空格內有多個病,以 Coma 分隔。
2. 有打錯字(FeVR)

假定你要選出發燒的病人,從以上的 Excel ,就算使用搜尋功能,都不會找出 Fung 是發燒病人。要是這是 用於疾病控制, Fung 這個有肺炎的發燒病人就會「走漏眼」,說不會放他回社區,感染其他人。可見數據的 consistence 是多麼的重要。
又或者,有一天你發現這批病人有發燒的,其實是患上 SARS 。你想將所有 Fever 轉成 SARS 。用 Excel Search & Replace 功能,這個簡單的試算表要改 2 次。而且 Fung 這個人你改不到。
另外,性別沒有規範的寫法。
在這種情況,使用數據庫( Database )會是更好的選擇。使用數據庫可解決數據輸入沒有規範化的問題。可是一個設計差勁的數據庫,同樣會有 Excel 的問題。故此在決定轉用數據庫之前,需要妥善設計數據庫。
坊間有很多磚頭咁厚的數據庫設計書藉。本文只想講一個概念,叫做正規化。( Normalization )


Powered by Jekyll and profdr theme