原來的 title 是「文字處理」,但是那會和 Word processing 混淆,故此用了如此的奇怪的 term 。 分析中文文本,對比英文是有非常大的分別。英文的分析我認為是相對較易,而且理論也基本上是以英文分析最為完備。 參考以下英文及中文句子: Our introduction to the R environment did not mention statistics, yet many people use R as a statistics system. We pref...
R 有個 function 叫 paste() 。 如 paste("The current date and time is", Sys.time(), "and you current working directory is", getwd(), ". Mr Stark.") Output 是 "The current date and time is 2012-05-18 13:05:39 and you current working directory is /home/ch...
圖片來自 CUP Facebook 最近太多事忙,沒理由人生首次出書都不在網誌寫兩個字。 ((沒有寫在 blog 的東西日後很快會忘記,這個 blog 已變成我腦袋的 external harddisk 。)) 拙作其實已經推出幾天,兩星期前我已收到一本作者書。多位好友到大書店(三聯商務)找本書卻仍未進貨。根據線報暫時城邦書店是有的。 拙作成書精美,我相當滿意,這全為 CUP 出版社編輯、設計、校對團隊的功勞。之前的大妄想,基本上是達成了。 小弟不才,除了拙作文筆青澀稚嫰,還有就是多次修...
A task that come up regularly during data munging is like this: you have a list of user ID (uid). Then, you have another table that has the user ID(lookup.uid) and the value of interest(lookup.value). You would like to fetch the list of value (loo...
新的作業環境要將 R 放到(較 desktop )勁的 Server 運行。 ((ESS 是可以將 remote 運行的 R session 當成 R process 來作 eval ,方法是 M-X ess-remote 。不過現在分析的數據要用海量來形容,分析時間最短也要三四分鐘,故此想用 Rscript 之類的方法令它自行在背後運行,而不是 eval 。)) 我要用很有臨時 feel 的一台 laptop ((幸好他們讓我安裝 Linux 。由於這是一份臨時工,合約期短,故此我也...
Yeah, I know Emacs sucks. But I like it. I like this GNU Emacs for Mac OS X more than Aquamacs. I hate the OSX-ized experience of Aquamacs and I dumped it this morning. In order to make Emacs works for me, I have to (heavily) customize it. My ~/.e...
休息了一星期。 五一假期後才正式開始新工作。即是還有兩天最後休息日,之後又要開始營營擾擾的(正常)生活。 新工作會有很長的通勤時間。很久沒有在交通時間聽歌,老而彌堅的 iPod 5 和很平但音質不錯的耳機也很久沒用。日後可能會一邊聽歌一邊讀書,皆因現在的人乘搭交通工具很吵,完全沒有公德心可言,不單有小孩的亂叫、大聲的講電話,還有就是智能電話玩遊戲的聲音。最仆街的還有用手提電話的揚聲器聽歌。 Emacs ((Cocoa Emacs 不是 Aquamacs)) 跟來的 python mod...
竟然有人把 Sudoku 推上來。 ((據聞有人可以一行搞掂這個 sudoku 。)) 那就不如又順手用那個例子講下 Python 。 我覺得 Python 的兩種 data structure 是非常好用,一是 list ,另一是 dict 。 最近報了的 udacity course 近乎濫用 list comprehension 功能,我也要令自己理解它在做甚麼。在理解 list comprehension 之前,可以先看看 map 這個功能。 例如有個 list [1, 2, 3,...
向上司遞了辭職信。廿日是 last day ,會休息十天才再工作。 最近可能是心理壓力太大了,不停的咳,還咳到呼吸困難。 希望五月之後一切就會變好吧。
二月廿九日,我遞了辭職信。明天四月十六日,我要再遞另一封辭職信。這是我個人最快辭職紀錄,人生總要有第一次。這次真的很痛苦,比上次遞信更麻煩,那種身折騰令我多晚失眠、天天頭痛。我仍為這種事覺得煩惱,或許是我仍未夠打滾職場的經驗。 我覺得自己有點像那些所謂成功人仕口中指罵的八九十後。 今次我更覺得我是在重覆 2006 年轉職的錯誤。 到底事情會否在明天後變得順利,日後再作回報。 松本清張的《黑色福音》一書,有五百七十頁。此書最厲害的地方是,它在二百五十幾頁後才入正題。 仆街,真係好撚頭痛。 ...
近期的空閒時間在寫這個東西,順手在研究 graph theory / social network analysis 。這個東西是用作參加 Udacity CS 101 的學期末編程比賽。這個東西一定不會嬴,但我認為最緊要是解決此問題時發現幾好玩,獲益良多。 文中談到的 Urank ,是一種類似 Google PageRank 的東西。但我想在此文證明 Urank 並不是 PageRank 。 至於為何突然去研究 graph theory 和 social network analysi...
昨晚終於完成了 Udacity CS101 ,成為我第二個有紀錄完成的網上學科,無紀錄完成的第三個。 Udacity 的功課,有一個 gold star 制度,是習題的難度。最終考試有一題是 triple gold star ,我幹了兩天,我程度太差了。 Udacity CS101 有個 Programming Contest ,我想就像一般課程的 Final Project 吧,只不過是隨意參加。我會參加, program 也寫得七七八八,只欠寫 documentation 。勝出者可得...
新工上任,聯想到的是《不毛地帶》壹岐正上班開始第二人生。壹岐正原是陸軍參謀,戰後在西伯利亞關了十一年勞改。回到日本又休息了一輪,本來可以去防衛廳工作但因為顧及家人,最後選了去商社。入到商社,周圍的人嫌他連纖維的類別都不知道,代聽電話又聽不明白商業術語。現在我正處於壹岐的狀況。第一天與三位指導教授之一位首次見面,他已經不太客氣,說我好像甚麼經濟學術語都不會。我是否可以用時間證明給他看,他請對了人,我也抱有疑問。 「生物」統計這個名稱上的生物兩字,開始變成負累。感覺到去到那裡,生物統計和流行...
Epic! And Yeah, I asked that question. Thanks Prof David Evans and Peter Chapman.
昨天到 HKU 講推理小說的 talk ,由於很多的資料無時間講,故此不如將昨天想講了和未講的結集成一篇文,寫在這裡。 香港推理 到底香港有沒有推理小說作者?這個答案是肯定的。香港每隔幾年都會推出推理小說的短篇合集(分別有 2000 年版、2001-2002年版、2003年版、2004-2005年版及2006-2009年版,由科華圖書出版),每冊都最少有四五名推理作家,可見推理小說作家不少。此合集常見作家有鄭炳南。鄭炳南先生著有多冊推理小說,有些甚至會歸類為社會派推理。在國際比賽,也會見到...
Previous — 23 of 210 — Next