chainsawriot

Home | About | Archive

Gradient Descent #2

上回講過 Batch Gradient Descent ,今回講的是適用於 big data 的 Stochastic Gradient Descent 。 處理 Big data 的問題是,巨大的 data 無法一次過讀入記憶體,再一次過處理。此外,由於數據量龐大,如果次次都要將整份數據連算一次才算完成一次 iteration 更新 theta 的話,會好慢。 看看 batch gradient descent 每個 iteration 的算式,會發現有一個 summation 的計算。...

Gradient Descent #1

ml-class 最後一課講到 big data ,介紹了 stochastic gradient descent 。但是那一課只有一般習題,卻沒有編程功課,為美中不足。 實在很想試下玩下 Stochastic gradient descent ,於是自己亂寫來玩。 Gradient descent 是一種 Optimization 的方法。例如你有 y (dependent variable) 及 x (independent variable) ,你想找 regression equa...

Papercut #2: 蒙古症

某雜誌大字標題寫「蒙古症」三字,同公司某報的動新聞也大講一番。 我並不明白某人去某醫院測試「蒙古症」有何新聞價值,但令我不感高興的是「蒙古症」三字。而不幸的是,原來我幾年前寫過如此文章。

Papercut #1: Cohort

繼流水賬式的「雜談」後,本博再建立一個新的 tag ,叫做 papercut ,形容在生活上聽到、見到令我覺得不舒服的無聊小節。 ((這個 series 定必會把我變成「性格古怪」人仕。 Oh, wait! 原來我本身性格就好古怪。)) 頭炮是 cohort 一字。每次見到老闆用 cohort 一字,我就感覺很痛苦。原因有二: 一、令老闆把 cohort 此字加入常用字眼的人是我 二、他濫用此字 先講 cohort 一字的定義。查字典,此字有兩個意義: 1. a group of peop...

乾塘

話說 Aphex Twin 曾經說過,訪問時會亂吹,告訴別人自己理想中的自己。當讀自己的訪問時,發現文中的人並不是自己。某天到出版社談出版事宜,編輯問我這個領了該出版社推理小說獎的人愛看那些推理小說。我結結巴巴地直言我很少讀推理小說,反而多看的是社會小說,如松本清張和山崎豐子,較新的只有讀過橫山秀夫。 ((其實三位的小說都沒有看很多,追問下去也會乾塘的。)) 編輯卻說喜歡讀東野圭吾。的確,東野圭吾是大部份推理小說愛好者都愛看的,但我只讀過一本叫《名偵探的守則》。正當他跟我說《嫌疑犯X的獻身...

查字典: [U]

英文差,常常要查字典。要查字的讀音。個人認為英文是一種好陰濕的語文。例如 Strong 一字, ng 發成 /ŋ/ 。 Strong 比較級是 Stronger 及 Strongest ,在比較級的情況卻會發出 /g/ 音。可是,同樣的規則用在 Sing 變成 Singer ,卻不成立。 ((雖然我曾聽過有人將 Singer 讀成 /ˈsɪŋgə/ 。 Singer Sewing Machine 漢譯為勝家縫紉機,也有誤導成份。)) 還有是讀音的 stress ,如 violent, vi...

War is over, if you want it.

AP: Elated, Last US Troops Leave Iraq, Ending War 2003 年開戰日 diaryland 時代對伊拉克之戰的評論。

The anatomy of meta-analysis #2

上一篇文講了 Fixed effect methods 。其實上一次的 code 有些地方未講完。 Meta-analysis 要處理 heterogeneity 的問題。 Fixed effect methods 假設各個 trials 的 protocol 完全一樣。故此不同 trial 回報的 θi 不同的原因,純是因為 chance 。根據此假設, sample size 愈大的 trial 所回報的 θi 應該非常接近 bar θ 。 但事實卻並非如此。每個 study 的 pr...

The anatomy of meta-analysis #1

最近有想為碩士班「贖罪」的感覺,一直在想,到底碩士班真的欠缺了甚麼? 為甚麼給了十二萬教出來的人都好像沒有甚麼專業知識似的。到底是我自己的問題,還是人家教育的問題。 我假定是我自己的問題。應該是我水過鴨背,也沒有自行修讀精進。別人可能講得太少,但並不代表我也要知得太少,我有責任去滿足自己的好奇心,有責任去問,有責任去讀。或者就是因為我欠缺這種責任心,人家才覺得我不是讀博士材料。 ((講笑的,我因為甚麼原因落選,我是心照的。)) ((讀碩士時,課程視為仙水級奇書的 Kenneth Roth...

What I've learnt from ml-class

ml-class 將在十六日終結,我從此課獲益不淺,以下是五件我在此課學到最有用的東西。 1. Linear Algebra 之前說過,在上這個課前是完全沒有讀過 linear algebra 。奇就奇在為何我可以係生物統計學碩士。不會 linear algebra 的統計學人,就像彈結他不會彈 Barre Chord 那樣,你是會彈到某幾首歌的,但卻不能彈深奧的歌。 ((我最近都想問問以前在碩士課教 Stat 的教授,為何不教 Linear algebra 。我是知道此問題的答案,因為...

雜談 #12

美麗的天文現象。 終於完成《大豐收》的最後修整工作,現在球已經交了給出版社。 從 ml-class 學到 recommender system 。原來 Amazon 之類網站見到的產品建議系統,是非常複雜的。那並非一個純粹的 regression 的問題,也不是 clustering 的問題。 Google 的 PageRank 也是屬於此類的 recommender system 。此系統為何 work ?例如 Alan 和 Becky 都愛 Twilight 此電影。假設我知道 B...

微小說: 全宇宙最美味美食

「請投選全宇宙最美味美食...請投選全宇宙最美味美食...」 「我想投票,請問怎樣投?」 「只要到我們公司的網站,點擊你最喜歡的食品便可。」 「我已到了貴公司網站,但為何只有兩個選擇?魚柳包和巨無霸我也不喜歡。」 「對不起,本公司只提供這兩款食物,故此只有這兩個選項。現在魚柳包最多人投票,大覆拋離巨無霸,你就投魚柳包吧。」 「如果是這樣的話,這只是貴公司最受歡迎的食物,根本就不是全宇宙最美味美食!」 「那我有個問題要問問你。」 「說。」 「本公司是否存在於宇宙?」 「是。」 「魚柳包和巨...

Pronounciation of CH

英語中含 CH 的字,有不同的讀音,從讀音可以知道字的來源。 CH 在英語最多是讀成 /tʃ/ ,如 Charge, Church, Chase 等等。 最近在讀的課叫 Machine Learning 。 Machine 中的 CH 是讀成 /ʃ/ ((一般英語 SH 的讀法,如 Shirt 。)) ,從此可得知此字來自法語,查 Etymology 可知此字是在 1540-50 年由法國傳入。其他來自法語的 CH 字有 Chic (/ʃiːk/ ,拜託,不要讀成 Chick /tʃɪk...

Paul Meier

舊聞: Paul Meier, Statistician Who Revolutionized Medical Trials, Dies at 87 八月時我完全沒有留意到此單新聞,剛剛才找到。

Matlab style matrix creation in R, kinda...

讀到此 The art of R Programming 讀書報告。文中指: Vector creation using “c(1,2,3,4)”. Vectors in R are similar to lists in Python, it would be more natural to add a little syntactic sugar and use “[1,2,3,4]” for vector creation i.e. the same syntax as Python...

Previous — 28 of 210 — Next