chainsawriot

Home | About | Archive

數字說話篇:泛中國地區網上中文資料不太科學研究報告

Posted on May 20, 2004 by Chung-hong Chan

以下是「電鋸不太科學研究中心」發表第一份不太科學研究報告。本中心使用不同中文關鍵字(使用unicode)在以下四個search engine進行搜索:

a. yahoo.com.hk

b. google.com.hk

c. yahoo.com.cn

d. yahoo.com.tw

四者都只搜查中文網頁(無論是unicode, Big5, GB都可),進行研究的電腦為Pentium IV Notebook, Windows 2000,使用Firefox 0.8瀏覽器。上網服務由香港大學提供。

關鍵字包括:

六四事件、法輪央B亞瑪遜

每次搜索會統計

1. 總hits數

2. 頭三十筆資料中,以下成份的佔數:

頭兩個(六四事件、法輪央^:

-反對聲音(親政府聲音)

-支援聲音

-沒有立場

-無關資料

之後一個(亞瑪遜)

-商業資料

-學術資料

Keyword 1: 六四事件

yahoo.com.hk總hits數: 27700

google.com.hk總hits數: 69100

yahoo.com.cn總hits數: 0 (無論使用Big 5, GB, Unicode)

yahoo.com.tw總hits數: 137466

yahoo.com.hk: 30 支援聲音

google.com.hk: 29 支援聲音 / 1 反對聲音

yahoo.com.cn: 無法統計

yahoo.com.tw: 17 支援聲音 / 13 無關資料

Keyword 2: 法輪�

yahoo.com.hk總hits數: 179000

google.com.hk總hits數: 704000

yahoo.com.cn總hits數: 11700

yahoo.com.tw總hits數: 513051

yahoo.com.hk: 8 支援聲音 / 22 反對聲音

google.com.hk: 15 支援聲音 / 14 反對聲音 / 1 沒有立場

yahoo.com.cn: 30 反對聲音

yahoo.com.tw: 23 支援聲音 / 12 無關資料 / 1 沒有立場

Keyword 3: 亞馬遜

yahoo.com.hk:

兩個關於矇面超人亞瑪遜,四個網頁內容有關亞馬遜森林動物,其餘皆是商業資料。(包括亞瑪遜森林旅遊。)

google.com.hk:

只有兩個網頁內容有關亞亞馬遜森林動物,其餘皆是商業資料。(包括亞瑪遜森林旅遊。)

yahoo.com.cn:

只有二個網頁內容有關亞馬遜森林動物,另三個講述亞瑪遜森林的產品,一個有關矇面超人亞瑪遜。其餘皆是商業資料。(包括亞瑪遜森林旅遊。)

yahoo.com.tw:

七個有關亞馬遜森林動物,其餘皆是商業資料。(包括亞瑪遜森林旅遊。)

研究結論:

由於是次研究只有三個問題,而且只搜索四個主要網路搜索器。因為sample size不夠大,而且只是四個搜索器的首三十個網頁,不但不能進行statistical analysis,而且可能不能反映事實。故要再一次進行更大型的研究。

在搜查「六四事件」方面,中國雅虎完全不能找出任何網頁,而其他地區的雅虎卻可以找出不同的網頁,證明人為防止網民瀏覽有關六四事件的網頁。

同樣事情發生在「法輪央v的搜尋。其他三大搜索器都能成扑j出認同聲音,以及可以找出法輪左漫x方網站(香港雅虎只找到官方網站中的其中一頁)。而中國雅虎只找出批評文章以及法輪奶J侵衛星等等資料。

最 後一項實驗其實是另一個英文實驗的翻版。之前有人試過以Amazon作為Keyword搜尋英文雅虎,查看所有找到的網頁。發現只有兩個與亞瑪遜森林有 關,其他皆與商業活動有關。上一次研究人員的結論是,網上的資料大多是商業資料,而亞瑪遜森林的原始價值在網上被遺忘。因為資訊科技的分佈不平均,所以有 些貧窮的國家不能在網上分享其國之成就,而網上的資訊已經被資訊強國所壟斷。我想,是次中文研究的結果與英文版類似,我想同樣結論也適用於中文網上資訊。

09:20 - Thursday, May. 20, 2004


Powered by Jekyll and profdr theme