studentpaper.png
反正我手字真的像魚欄佬 ((有看過魚欄人仕寫單的朋友都知,其實魚欄佬手字非常有力,由其是寫中國算碼時,筆法雄渾、一點一劃都充滿男兒幹勁,恍惚一點一劃都充滿中華文化五千年深耕的辛酸。我手字最多只能算是公廁體。)) Papercast 都是暫止停住。
最近上學要學用手計一些以前用電腦入兩個指令就能計好的東西。用手計有時真的好煩,計錯一個步驟就整條數都計錯了。所以話電腦及統計軟件是偉大的發明。最近常常用手計的數,叫做學生t檢定。這可能是世界上最多人用得到的統計分析方法,詳細不講,又講下無聊歷史。
話說 189x - 191x 年,位於愛爾蘭都柏林的健力士啤酒廠,只會僱用來自英國最高學府劍橋和牛津的畢業生當研究員。戈斯特 (William Sealy Gosset, 1876-1937) 是其中一位牛津畢業後加入健力士啤酒廠的生物化學家。戈斯特曾為皮爾生 ((Karl Pearson)) 的學徒,後來更深受費雪 ((Ronald A Fisher)) 影響,對統計分析相當著迷。他試圖解決一個有關酵母數目的問題。可惜,他只能夠從容器拿出小樣的樣本計算酵母數目,從而推論現實的真像,即容器中的酵母總數。當時的統計思想以皮爾生的主流,皮爾生認為,樣本數必需要夠大,才能接近真像。故此戈斯特的做法被認為是不太可能的。他後來發現了一個名叫做 t 的統計分佈。 ((詳細的發現經過是這樣的:戈斯特以 3000 位犯人的高度數據作為真像。根據皮爾生的說法,要估計真像的平均值,最少要抽取 30 個樣本或以上,去獲得真像的平均值和標準差等等資料。戈斯特將 3000 犯人的高度寫在 3000 張卡片上,他從這 3000 張卡片每次只拿 4 張,重覆 750 次。他計算每次 4 張的樣本的平均值,與真像平均值的分野。再畫出這個分野的分佈圖。)) 他想將這個有用的發現刊登在學術期刊,他選了由皮爾生當編輯的 Biometrika 。可是,當年曾有健力士的員工將啤酒廠的商業秘密投稿到學術期刊,於是乎健力士禁止員工投文到任何學術期刊。戈斯特實在不忍如此有用的發現,被一家公司的規定而埋沒了,他決定冒著被健力士辭退的危險,以筆名發表論文。 (( "Student". "The probable error of a mean". Biometrika 1908 6 (1): 1–25. )) 他所選用的筆名,叫做 Student (學生)。這篇文章一直無名,後來費雪發現這篇文章,將其發揚光大,發現其現實應用的方法,人們才發現有一個叫「學生」的人寫過這樣的一篇奇文。這也是為何現在的 t 分佈會叫做學生 t 分佈、 t 檢定會叫做學生 t 檢定。「學生」的真身,要到戈斯特以「學生」之名打滾學術界 30 年,在 1936 年他因心臟病去逝時, Biometrika 雜誌當時的總編輯易根.皮爾生 ((Egon Pearson, 即老皮爾生 Karl Pearson 之子,同樣為統計學家)) 為「學生」寫訃文,才向公眾發表「學生」的真身為戈斯特。就算後來知道「學生」其實是戈斯特,也沒有將這些叫法正名為「戈斯特 t 分佈」或「戈斯特 t 檢定」。後人甚至將建基於戈斯特的新發現,通通以學生命名,例如「學生化」( Studentization )、「學生殘差」( Studentized residual ),去紀念這位低調的偉大統計學家。