讀過鄭家富議員《拉布背後的論據》一文,他舉出了兩個立法會議員提出草案被分組點票否決的事例,分別是檢討強積金及港鐵站興建廁所的議案。此兩草案由議員提出,而當表決時,支持議員也比反對議員為多,但最後卻因為功能組別議員反對票多於支持票,在分組點票之下被否決。 在寫《大豐收》時,翻查了立法會通過強拍修訂條例的文件,其中一項由議員提出的修訂,僅為延遲一年推行新的八成強拍門檻,連不少建制派議員也都支持。當時又再出現了支持議員多於反對議員,議案卻被分組點票否決的事例。就是這個觸發點,令我懷疑為何與政府、...
text processing 第一步是電腦分詞。上回講過中文自動分詞的難度,以及市面上可用的分詞軟件。 我部門用的叫 nlpbamboo ,安裝相對簡易 ((在 Debian/Ubuntu 有 deb 包安裝)) ,速度也夠快。可是,它有其問題,例如以下的 command 。 echo "我們對 R 環境的介紹中沒有提到統計,但是大多數人用 R 就是因為它的統計功能。不過,我們寧可把 R 當作一個內部實現了許多經 典的時髦的統計技術的環境。部分的統計功能是整合在 R 環境的底層,但是大多...
終於了解到連載小說的難度。《大豐收》能夠連載成功,是異數來的。 連載小說難度在於「衰左返唔到轉頭」。 《大豐收》的續作《大代表》正出現如此的狀況。在網誌寫到第六期,已經想完全推倒重來。 例如角色名有白痴感,想將所有涉及的政客名稱改名;替補機制已被修改,再寫下去有點 irrelevant 等等等等。 但是,《大代表》已經寫到第六期,刊了出來的字數也過萬了。現在又推倒重來,豈不是對不起看了之前六期的讀者? 故此,我仍會在現在六期的故事基礎寫下去,將故事的邏輯先寫好。幸好,我仍然喜歡故事的邏輯,...
人民力量拉一塊布,建制派接招,也拉來了一塊布。那塊布是紅色的,封閉了我們的雙眼。 封閉了雙眼,人們竟看到幸福,感到舒服,一切現實中的痛苦都忘記了。 蒙著雙眼的人們,被問到你想怎樣,人們答不如由別人作主吧。
原來的 title 是「文字處理」,但是那會和 Word processing 混淆,故此用了如此的奇怪的 term 。 分析中文文本,對比英文是有非常大的分別。英文的分析我認為是相對較易,而且理論也基本上是以英文分析最為完備。 參考以下英文及中文句子: Our introduction to the R environment did not mention statistics, yet many people use R as a statistics system. We pref...
R 有個 function 叫 paste() 。 如 paste("The current date and time is", Sys.time(), "and you current working directory is", getwd(), ". Mr Stark.") Output 是 "The current date and time is 2012-05-18 13:05:39 and you current working directory is /home/ch...
圖片來自 CUP Facebook 最近太多事忙,沒理由人生首次出書都不在網誌寫兩個字。 ((沒有寫在 blog 的東西日後很快會忘記,這個 blog 已變成我腦袋的 external harddisk 。)) 拙作其實已經推出幾天,兩星期前我已收到一本作者書。多位好友到大書店(三聯商務)找本書卻仍未進貨。根據線報暫時城邦書店是有的。 拙作成書精美,我相當滿意,這全為 CUP 出版社編輯、設計、校對團隊的功勞。之前的大妄想,基本上是達成了。 小弟不才,除了拙作文筆青澀稚嫰,還有就是多次修...
A task that come up regularly during data munging is like this: you have a list of user ID (uid). Then, you have another table that has the user ID(lookup.uid) and the value of interest(lookup.value). You would like to fetch the list of value (loo...
新的作業環境要將 R 放到(較 desktop )勁的 Server 運行。 ((ESS 是可以將 remote 運行的 R session 當成 R process 來作 eval ,方法是 M-X ess-remote 。不過現在分析的數據要用海量來形容,分析時間最短也要三四分鐘,故此想用 Rscript 之類的方法令它自行在背後運行,而不是 eval 。)) 我要用很有臨時 feel 的一台 laptop ((幸好他們讓我安裝 Linux 。由於這是一份臨時工,合約期短,故此我也...
Yeah, I know Emacs sucks. But I like it. I like this GNU Emacs for Mac OS X more than Aquamacs. I hate the OSX-ized experience of Aquamacs and I dumped it this morning. In order to make Emacs works for me, I have to (heavily) customize it. My ~/.e...
休息了一星期。 五一假期後才正式開始新工作。即是還有兩天最後休息日,之後又要開始營營擾擾的(正常)生活。 新工作會有很長的通勤時間。很久沒有在交通時間聽歌,老而彌堅的 iPod 5 和很平但音質不錯的耳機也很久沒用。日後可能會一邊聽歌一邊讀書,皆因現在的人乘搭交通工具很吵,完全沒有公德心可言,不單有小孩的亂叫、大聲的講電話,還有就是智能電話玩遊戲的聲音。最仆街的還有用手提電話的揚聲器聽歌。 Emacs ((Cocoa Emacs 不是 Aquamacs)) 跟來的 python mod...
竟然有人把 Sudoku 推上來。 ((據聞有人可以一行搞掂這個 sudoku 。)) 那就不如又順手用那個例子講下 Python 。 我覺得 Python 的兩種 data structure 是非常好用,一是 list ,另一是 dict 。 最近報了的 udacity course 近乎濫用 list comprehension 功能,我也要令自己理解它在做甚麼。在理解 list comprehension 之前,可以先看看 map 這個功能。 例如有個 list [1, 2, 3,...
向上司遞了辭職信。廿日是 last day ,會休息十天才再工作。 最近可能是心理壓力太大了,不停的咳,還咳到呼吸困難。 希望五月之後一切就會變好吧。
二月廿九日,我遞了辭職信。明天四月十六日,我要再遞另一封辭職信。這是我個人最快辭職紀錄,人生總要有第一次。這次真的很痛苦,比上次遞信更麻煩,那種身折騰令我多晚失眠、天天頭痛。我仍為這種事覺得煩惱,或許是我仍未夠打滾職場的經驗。 我覺得自己有點像那些所謂成功人仕口中指罵的八九十後。 今次我更覺得我是在重覆 2006 年轉職的錯誤。 到底事情會否在明天後變得順利,日後再作回報。 松本清張的《黑色福音》一書,有五百七十頁。此書最厲害的地方是,它在二百五十幾頁後才入正題。 仆街,真係好撚頭痛。 ...
近期的空閒時間在寫這個東西,順手在研究 graph theory / social network analysis 。這個東西是用作參加 Udacity CS 101 的學期末編程比賽。這個東西一定不會嬴,但我認為最緊要是解決此問題時發現幾好玩,獲益良多。 文中談到的 Urank ,是一種類似 Google PageRank 的東西。但我想在此文證明 Urank 並不是 PageRank 。 至於為何突然去研究 graph theory 和 social network analysi...
Previous — 22 of 209 — Next