寫了一篇文,又要寫多篇文解釋。愈後愈甘。
先宣佈事一件事,就是該文的所有數據及分析軟件都可以在本人 Github 找到,有興趣可以自行試玩。

Q: 沒有與曾健明合作的演員叫甚麼名?
A: 黎芷珊、黃山怡、陳慧珊

Q:第二條問題是很多人都談。我想抽出最有意義的一篇回應。

以下是 Facebook Minnie Li 的留言

"感覺作者是個有實力的技術宅,但不知道為什麼方法論出了問題。不恰當的量化和類比,結果使得全文陷入循環解釋的邏輯謬誤,可惜了一盤華麗的網絡分析演示。
對「最有價值演員」的量化,照搬了行業競爭中的合作網絡分析,問題是演員之間「參演過同一部電視劇」的這種「合作」,和行業中的企業或決策人的「合作」,是同一種性質的「合作」嗎?直接把後者的特徵向量中心度套到前者身上,被量化的還是「演員價值」這個概念嗎?
很明顯作者錯把「張智霖和買餸阿嬸在同一電視劇中出現」視為和「馬雲聯手馬化騰」性質相同的「合作」。這使得作者對「最有價值演員」的定義,其實指向的卻是「最活躍龍套演員」,因為按作者對「合作」的定義,龍套演員與他人「合作」程度一定是最高的。最後很自然就導致了百大「最具價值演員」基本都是聽也沒聽過的名字;而資深龍套雲集的電視劇成了「最具價值電視劇」。我相信把這一套分析用到世界上其他地區的電視劇界,得出的都會是相似的結果,除非某地的龍套具有全然另類的從業模式。
作者很有技術地演示了如何將最活躍的茄喱非找出來,然後想用「找出來的都是茄喱非」這件事,證明「電視劇演員這行的向上流動機會少之又少」這一近乎常識的結論。雖然我覺得這結論挺符合事實,但可惜它和前面連篇累牘的論證一點關係都沒有。。。"

A: 感謝他/她的留言,我的確是一位失敗的分析員及寫作人員,甚至連甚麼技術宅都不是,因為我出名寫爛程式。
其實這種文或多或少是有「認識茄喱啡」的主旨。未分析之前,我已預料三四線演員的 Eigenvector centrality 會高,只不過是想真的量化看看結果如何,以及想知是哪幾位演員而已。
文章前面已講了,「演員價值」人言人殊,若是這樣的話是沒有可能完全客觀地量化的,這個方面我承認用詞有點不當。也許用他的 Terminology 更好,最活躍演員 ((但可惜的是最活躍沒有 Network 的概念在內)) 。而高 EVC 較高「價值」(成就),是以其他研究的結論得出。例如在科學合作網絡,組成方法是將論文作者結成網絡,高 Eigenvector centrality 的研究人員價值是真高 ((如 citation 及知名度會較高)) 。而科學合作網中,無論是 Chair Professor 或 Research assistant 都可成為論文作者,而結果卻不是 Research Assistant 跑出,也許是科學合作網會偏向將 Research Assistant 排除吧。
臨時演員都是演員,這是我的 inclusion criteria 。除非我有每一套劇集的劇本,可以準確的控制 (adjust) 演員和演員合作的分鐘數,否則是無法分辦在一套劇中的合作程度。我只好將全部視為一樣。當然,這就會出現上述「張智霖和買餸阿嬸在同一電視劇中出現」的問題。
其實要將「茄喱啡」排除是可以的。在維基百科的條目,是有一個 field 叫做「演出」,我想那些只是主角、配角之類,會將買餸阿嬸之類的演員排除。但此 Field 也有問題,就是不知道它的納入條件。

testgraph_famous

但無論如何,我也只用包含於「演出」的演員作分析,我相信演員與演員之間合作會較同質。最終有 456 人被分析,組成網絡後得出 Eigenvector centrality 最高的頭十位是馬國明、蔣志光、楊怡、黎耀祥、黃浩然、鍾嘉欣、胡定欣、曹永廉、陳豪和陳國邦。我想,如果我說這些是「有價值演員」(或最活躍主角、配角),會較易為大眾所接受吧。
「電視劇演員這行的向上流動機會少之又少」的結論是建基於活躍茄喱啡不知名以及活躍茄喱啡不會獲獎兩點,的確全世界的電視劇界都是這樣運作的,有時常識都要用數據證明。我的 PhD 研究也只是用數據證明「常識」有錯。

Q: Yahoo! 留言-量不重質的分析. 唔該晒, 分析"完".

A: 係,量化分析的確是重量不重質的。唔駛唔該。

Q: Yahoo! 留言-連立論既邏輯都有根本性錯誤, 枉叫數據分析員.

A: 立論是建基於其他範疇合作網絡研究,可以討論 TVB 演員合作網絡與其他網絡不同,但不分析過又怎會知,這就是社會上最卑賤的數據分析員的作用吧。