chainsawriot

Home | About | Archive

科學球真.誰可奪盃

Posted on Jun 27, 2006 by Chung-hong Chan

德國隊狂熱份子加準媽媽nikita a.k.a. Kelly問到底SPSS可不可以憑分組賽得失球計算誰是冠軍。其實這是一個統計學問題,今次扮的專家,是英國皇家統計學學院院士。
此問題的Short answer,是No。但又不全然是No。SPSS所進行的,是統計學的運算。這個問題更合理的問法,是「可否對分組賽賽果進行統計分析,再預測那一隊是冠軍。」
統計分析,其實已經常被用於預測賭波的賽果(賽馬也行,最近在書店見到有專書),這是專業賭徒所用方法。而實際的情況下,馬會也都用了不同的統計分析,計完了數,來決定該場球賽的讓球數。
但為何別人可以用統計分析來預測賽果呢?
其實因為別人樣本數高。假定有一場賽事是德國對阿根廷,他們就會翻查德國對阿根廷歷史上對賽的數據,數據愈多,準確對愈高。假定德國對阿根廷之前曾經對賽256場,德國勝過200場,那麼德國下場勝出的機會預測是78.1%。當然這是小學六年級的數學,但以下的不是。
我不知道這是不是正路的分析方法,我只是依書直說。由於78.1%是一個實數,統計學上沒有任何事是肯定的,因為每事都有誤差。因此會計算這個勝出機會率的95%致信週間(95% Confidence Intervals),計算方法各有不同,我使用了這個方法,得出的結果是73.1%至83.1%。即是代表,如果我再取樣100次,有95次得出來的致信週間都在73.1%至83.1%。更「平易近人」的說法是,德國對阿根廷勝出的機會,應在73.1至83.1之間。73.1至83.1%沒有穿過50%(5/5波),也即是,德國很有機會勝出。
以上是很理想的情況,現實是:很少有兩隊作賽的大量數據、此計算方法假定球員、教練、甚至主客場對球賽結果的影響一樣。當然,要解決,不是沒有方法,例如樣本數少,可以用Monte Carlo Simulation。要平定外在因素的影響,可以用Logistic Regression analysis。這些太深,不作討論。
統計學的分析所需的樣本,必需要是之前賽果相同的數據。由於外圍場以至分組賽的樣本數據太少,兩隊可能只對賽過一兩次,雖然同樣的分析是可以達成,但95%致信週間多數都會穿過50%,也即結論一定是5/5波。不能夠作出統計分析。
荷蘭對葡萄牙,之前戰十場,十場都是葡萄牙勝出,結果葡萄牙真的勝出。這個Somehow也是一個不太精確的統計分析方法。
如果有人可以提供大量數據,計算誰可得世界盃,不是不可能。只是變數太多了罷。


Powered by Jekyll and profdr theme