以下是火星話:(看不明可以Skip)
我收集了MacGrass 75個post的comment數目,以R輸入數據
commentdata < - c(3,4,5,2,20,0,2,0,1,
0,2,0,0,6,1,6,2,2,3,0,0,0,3,0,0,3,6,1,0,2,4,3,0,
1,1,3,0,2,0,3,0,2,1,1,0,0,8,0,1,1,0,0,0,9,1,6,0,
5,18,0,0,3,2,2,5,1,2,0,1,0,5,5,7,0,3)
我試圖出一個Stem and leaf diagram
> stem(commentdata)
The decimal point is at the |
0 | 000000000000000000000000000000000000000
2 | 00000000000000000000
4 | 0000000
6 | 00000
8 | 00
10 |
12 |
14 |
16 |
18 | 0
20 | 0
>
發現0個comment的frequency最高。單睇圖,肯定不是normal distribution。平均數(以mean(commentdata)計算)是2.4。假如是normal distribution的話,最高frequency的應是2.4附近。
我以Kolmogorov-Smirnov test證明,Comment數目不是normal distribution。以R計算的方法是
> ks.test(commentdata,"pnorm",mean=mean(commentdata),
sd=sqrt(var(commentdata)))
One-sample Kolmogorov-Smirnov test
data: commentdata
D = 0.2485, p-value = 0.0001896
alternative hypothesis: two-sided
Warning message:
cannot compute correct p-values with ties in: ks.test(commentdata, "pnorm", mean = mean(commentdata), sd = sqrt(var(commentdata)))
>
由於p值低於0.05證明comment數目不是normal distribution。
單睇圖,似是Negative Binomial Distribution。我試圖去Test。
>library(vcd)
>> gf < - goodfit (commentdata, type="nbinomial", method = "MinChi")
> summary(gf)
Goodness-of-fit test for nbinomial distribution
X^2 df P(> X^2)
Pearson 7.831838 9 0.5511779
Warning message:
Chi-squared approximation may be incorrect in: summary.goodfit(gf)
>
成功證明comment數字是Negative binomial distribution。
以下是火星化的地球話:
假如MacGrass comment數不是Normal Distribution,即是每篇文是沒有一個約定的可能Comment數(平均Comment數)和一個約定的spread(Comment數的SD)。
Negative Binomial Distribution,證明人客留言是一個Poisson Process(泊松過程)。泊松過程的特點是發生機會低。我其實不能將MacGrass Comment的數字fit在一個Poisson distribution。又證明客人留Comment的可能性不是一個Constant rate。而係可能有Time-dependency/episode dependency。即是人客留言,是受post出來的時間,又或本身有幾多個留言所影響。
我沒有adjust一個post推出時間之時間與comment數之關係,我假定一個post出完之後,過了一個高峰期之後無人留comment。
以下是純地球話:
嘩!原來只要有人留第一個Comment就會有好多人留Comment架啦!