This page looks plain and unstyled because you're using a non-standard compliant browser. To see it in its best form, please visit upgrade to a browser that supports web standards. It's free and painless.

工程師級的顧問 / 【食夢黑貘】 會員登入 會員註冊

[前言]沒有一種方法或觀點可以適用所有的角度,
尤其像資料探勘這種系統, 可能要更多的模型
才能趨近現實.

部落格觀察有三個初始的目標, 有一個在我的定
義中是用來找出部落格的關係.

而這些方法都有各自的觀點, 並不全面, 但也有
自己的方向與意義, 且各自有不同的架構, 也有一些
是用資料探勘的 Relation Analysis 關連分析來做.

目前已經做過的如下:

1. 有多少人同時提及:
這個是最早做的, 用的是 google 兩個網址的並陳,
看有那些網頁同時出現這兩個網址, 這個是很有意義,
但很快就不能用, 因為若是以現在部落格觀察的規模,
要做完一次須要 7 萬乘上 7 萬對 google 的查詢,
也就是 50 億次的查詢, 這個雖然有效, 但不合理.

2. 部落格好友與推薦:
這個是讓 Blogger 自己建立自己的關係, 經過自
己的設定然後串起來, 但這個並沒有很認真去推,
畢竟這種須要使用者來輸入的東西, 不是我想做的.

3. 部落格足跡:
這個是由部落格讀者來決定的部落格關係, 也就是
用 IP 與 Blog 用 Relation Analysis 做出來的
結果, 這個雖然是算做出來, 但介面還沒有完善,
只是已經放在部落格觀察的連結了.

4. 宅度計的麻吉度:
這個很單純的是以關鍵字八大分類屬性分數來計算
出來, 並參考分數最高的關鍵字, 來算出部落格之
間的關係.

5. 宅度計的配對度:
這參考的是包含追加分類的各類主要關鍵字的結果,
應該會比麻吉度更準一點, 但有時會讓一些分類的
關係出不來.

6. 宅度計的關係度:
雖然在 "部觀門" 的確要做出類似以搜尋的關鍵字
為主關係度, 但還沒做出來之前就先用宅度計的內
容分析來去做, 這也是宅度計中最好的計算方式了.

這個議題我從 1996 年就開始做了, 當時要算的
是個人版之間的關係, 所以花了很多時間去研究演算法.
事實上去博客來之前就有三四個計劃, 有些已經進行到
一半了, 例如一個是原本要從魅力站的資料來算電子報
的關係與推薦, 另一個就是歐茲的 "終級交友系統".

當然上面這六個也只是個開始, 像部關門的搜尋
關連分析到現在還沒開始做, 這個說不定會較有意義些,
接下來就是第 2 項是最有人的因素這點, 本來就是必
須要有活動與介面來搭配才行.

甚至應該想辦法把這些做一個統整介面, 畢竟包
含我自己在看這些結果, 我有些覺得點頭, 有些覺得
搖頭, 雖然我相信這個的 "準確度" 與價值, 但這個
計算的方向到底是不是有意義的.

就像是宅度計雖然很有價值, 但大家看前面 30
名的文章, 很多很明顯就不是寫給人看的, 人幾乎不
太能夠閱讀, 擺明就是寫給搜詢引擎看的 SEO 用的,
所以若是能夠扣掉這一層就準確多了, 但更大的問題
還是在於每一個系統都不太一樣的問題.

畢竟部落格觀察在一開始有三點目標, 有誰還記
得嗎? 尤其其中一點是: 協助讀者找到自己想要閱讀
的部落格, 做這些只是要做到這個部份而已.

當然, Data Mining 資料探勘這種系統最有趣與
最麻煩的地方就是之後的調校, 畢竟這個不是算出來
就好, 而是要有意義, 甚至是有影響或 KPI 才行,
這個過程就比做出來還更漫長了.

[連結]

1. 部落格觀察的三點目標
http://blog.yam.com/genehong/article/9520697

2. [宅度計] 關係榜上線
http://lookdoor.blogspot.com/2008/05/blog-post_11.html

3. 這個站的 "有多少人同時提及"
http://look.urs.tw/join.php?BlogID=1

4. 這個站的 "部落格推薦"
http://look.urs.tw/showrelation.php?BlogID=1

5. 這個站的 "部落格足跡"
http://foot.url.com.tw/blogprofile.php?BlogID=1

6. 這個站的 "麻吉榜"
http://otaku.datamining.tw/relation.php?BlogID=1

7. 這個站的 "配對榜"
http://otaku.datamining.tw/match.php?BlogID=1

8. 這個站的 "關係榜"
http://otaku.datamining.tw/dump.php?BlogID=1

[Keywords]部落格觀察, 資料探勘, Data Mining ,
關連分析, Relation Analysis

[編按]這篇雖然前半是在離線時寫的, 但也有一半是
"Online"寫的 "不是捷運日記", 所以就兩邊
都貼吧.

[前言]我 常說, SEO 與 anti-SEO 之間得差別, 就是在於有沒有重視內容, 或者是否真的是為了 "人讀" 去寫的, 還是只是為了 Search Engine 來設計的 "機讀" 網站, 以及之間的比重~~~~ 當然之前的舉例剛好是最好的例證, 但最近也看到一堆賣房子的, 就是介於之間了...

事實上我都會私底下講, 部落格觀察用得是在圖書館學中的三種觀點的 "Content", "Meta" 與 "Usage" 的 Usage, 只是這使用比較是篇機器的, 也就是搜尋引擎, 除了 "重視度" 以外, 但到最後變成是一個 "類 SEO" 檢核工具, 雖然說我是在做之前就知道, 但也是盡量保持低調的不去說~~~

而宅度計最有趣的是, 可以知道這個部落的屬性, 這也是當時在做這系統的目標之一, 但最近因為時間慢慢的推移, 不少人使用後發現所謂的前 30 名的部落格, 除了是系統因素外, 似乎都是做 SEO 或刻意去玩關鍵字的...

我 常說, SEO 與 anti-SEO 之間得差別, 就是在於有沒有重視內容, 或者是否真的是為了 "人讀" 去寫的, 還是只是為了 Search Engine 來設計的 "機讀" 網站, 以及之間的比重~~~~ 當然之前的舉例剛好是最好的例證, 但最近也看到一堆賣房子的, 就是介於之間了...

所子在宅度計的計算中, 也梢微修改了一下, 讓這種狀況減緩些, 但也是在不影響計算下做些像 "Normalization" 的事, 雖然這個 "正規化" 的工作可能還要再一陣慢慢才會真的有最後的結果, 但這也是 Data Mining 資料探勘最有趣的地方, 理論是理論, 實務是實務, 如何做出一個真的可以用的系統也不是那麼簡單~~~~


當然為了 SEO 或這個宅度去改變自己寫作的內容才是最無聊的, 畢竟表現出更多的自己且沒有太多偏差是不容易, 若還要去想東想西的話就真的不是好事, 當然這些話是在 SEO 的人中是句無聊的話, 尤其在我的口中說除來更沒有說服力, 呵呵~~~

目前這個部落格的宅度計狀況:

網站軟體宅 53.5% 極度宅!!!!
人名團體宅 14.8% 普通宅!!
旅遊地名宅 9.7% 普通宅!!
美食店家宅 7.8% 有點宅!
廠商產品宅 7.4% 有點宅!
電視電影宅 5.1% 有點宅!
時事話題宅 1.7%

這部落格最宅關鍵字: 部落格

絕對宅度:156%

追加 AV女男優 宅度: 6.2分 有點宅! (關鍵字: 長瀨茜)
追加 3C商品類 宅度: 22.8分 相當宅!!! (關鍵字: 手機)
追加 攝影類別 宅度: 6.3分 有點宅! (關鍵字: 大頭貼)
追加 音樂類 宅度: 29.9分 相當宅!!! (關鍵字: 星光幫)
追加 電影類 宅度: 18.8分 普通宅!! (關鍵字: 蜘蛛人)
追加 政經社會 宅度: 11.5分 普通宅!! (關鍵字: 賺錢)
追加 閱讀文學 宅度: 13.3分 普通宅!! (關鍵字: 博客來)
追加 汽機車 宅度: 6.0分 有點宅! (關鍵字: autoblog)

[連結]

1. 這個部落格的宅度
http://otaku.datamining.tw/otaku.php?BlogID=3

2. 甚麼是宅
http://blog.roodo.com/genehong/archives/5877577.html

3. 這篇文章原文是在 "來看關鍵字"
http://lookdoor.blogspot.com/2008/05/seo.html

這篇比較多技術性的東西, 不想看的人可略過~~~

這個計劃最早是在去年 8 月部觀門做的時候, 就在想這就是一個有趣的 Semantic Web (語意網路), 所以有甚麼可以加值利用, 而在一次跟 jeph 的討論時, 我就想到這個可能性, 那時應該是 10 月左右吧, 只是當時歪頭想了一下, 這是一個很吃資源的計算, 所以在沒想到合理的演算法之前, 是不敢動工的~~~~

後來在做 w2o.tw 的計劃後, 就用到在 door 時就有用到的產出一個 include file, 事實上是一個寫好存起來的 array, 雖然這個發現當量大時, 也會極度吃資源, 所以也曾跟 wildcat 討論到這現像, 所以有時不該存成 array, 而是字串之類的, 然後再去 explode 吧...

只是此時就已經想到可以比較不吃資源的方法, 然後就是實作了, 但在陳冠希事件時, 我為了解決部觀門的 Loading, 真的是耗盡心力, 更何況還有其他的案子在 Run, 而在最近, 慢慢想開一件事後, 或許整個腳步要做調整之前, 想要完成的就是這個 "宅度計" 了~~~~

因為部觀門的關鍵字, 是以熱門為主軸, 而在熱門導向的趨勢下, 漸漸的產生所謂的八個大分類, 雖然當時寫分類時, 也是寫成 Relation 的架構, 所以也是 Network (網路) 的關係, 並沒有所謂大分類的必要性, 但分類的本質就是要產生關係, 有較薄弱的大關係與較強的小關係族群都是很重要的, 只是在負荷與操作介面 (UI) 還沒解決之前只有這八分類了.

當然, 這些數字都是 RSS 讀來之後去作分析, 也是基本的計數, 但說真的要做好一般化 (Normalization) 到更有意義也不是簡單的事:

1. 符合數量越多時, 自然是更高, 但不能成線性正比
2. 當一個關鍵字的字串長度越長時, 越難相符, 自然更顯著些
3. 一個關鍵字在所有的部落格量的比重也是要參考 (目前尚未寫入)
4. RSS 的篇數與長度也會影響計算的量 (目前尚未寫入)

最 後這八分類有各自的分數後, 來看比例就是最後的百分比, 但百分比只是自我在做比較, 若是要做絕對量度的話, 還是要計算分數, 而最後也是用等比級數去做分級, 然後變成 "極度", "相當", "普通", "有點", "開始" 這五種, 以及沒有的第六種~~~

而 最後列出這個部落格的代表字, 是以這個分類中分數最高的來顯示, 所以不見得是次數最多的一個關鍵字, 甚至有人以為這個系統有參考到 "搜尋" 的關鍵字, 事實上是沒有的, 因為這次是純作內容分析, 而關鍵字分析的成份分析, 的確在部關門的第二代改版中會包含在內...

只是, 到底甚麼是 "宅"? 我想這應該有機會可以好好討論, 畢竟這次用的網址刻意選用 Data Mining (資料探勘), 是有相當的原因的, 這個也可以之後再討論.

但現在我從搜詢引擎已經看到不少網友寫了介紹, 說真的他們寫的都比我好, 所以我這邊不會寫介紹與操作, 畢竟這是我的外行...

感謝下面幾篇:

【Blog】超準確真實部落格宅度計
永遠的真田幸村: 超準確真實部落格宅度計
[BLOG] 你的部落格宅不宅!?
宅度計】測試你的「部落格」宅不宅? 怎樣宅?
Wangtam: 部落格觀察推出“宅度計
部落『宅』度大調查!
看看自己的部落格夠不夠宅--宅度計
超準確部落格資料探勘宅度計

甚至有人已經寫了 Gadget 出來了:

非官方宅度計貼紙

Anyway, Take it serious and take it easy~~~~
有些人知道我的專長絕對不是 "行銷", 雖然我唸了 7 年的管理學院, 包含資管系所與管理科學等, 但與其討論是否善長 "行銷", 還不如說我更相信 "技術" 帶來對人的幫助, 包含 "行銷"....

所 以我現在都只說, 我的專長是在 "預測" 以及背後的技術, 只是這背後包含的技術有 "數學", "高效能運算", "系統調校", "統計", 等等的東西, 或者以現在的觀點稱為 "資料探勘" 或者是較早稱為 "資訊獲取 (Information Retrieving) " 的無聊名詞.
因此很多人以為我會把部落格觀察所獲得的資料拿來 "採礦", 但過了一年多後, 終於推出一個叫 "部落格足跡" 的計劃, 這個才是在我的觀點是第一個有兩階層以上計算的 "資料探勘" 的應用, 為甚麼呢? 因為部落格觀察一直在跟資源作奮戰, 而 Data Mining 基本上是很吃資源的, 所以說要真的去計算甚麼東西, 是不太可能的, 所以一直到有別的單位支持這計劃才得以實現.

若是 說 "Birds of a Feather Flock Together" 的話, 這個計劃就是 "Blogs of a Foot Flock Together", 也就是說, 鳥若是因為羽毛來決定屬性的話, 部落格就是靠足跡, 而這個足跡在這個計劃定義為 "讀者"....

也就是說這個系統就是計算 "讀者的交集度" 來決定 "部落格的關係度", 這聽起來很單純, 只是甚麼是 "讀者的交集度" 呢? 我這邊來說的較複雜一點好了:

若 你的部落格 A 有 500 個讀者, 而有個部落格 B 有 300 個讀者, 且其中 200 個你是相同的, 所以你們之間的交集度可以定義為 sqrt(200^2/(500*300)) = 0.5163.... , 就是有 0.52 的交集度, 若是有另一個部落格 C 有 1000 個讀者, 跟你的部落格交集有 300 個, 則交集度是 sqrt(300^2/(500*1000)) = 0.4242... , 也就是 0.42 的交集度, 自然前者雖然相同的讀者數較少, 但比例較高, 自然交集度較高..

而在部落格觀察的貼紙中, 每天有上萬個部落格被點閱, 而這系統就計算出你跟這上萬個部落格的交集度後, 排出排行榜出來, 而這種方法在資料探勘是最基本的 "關聯度分析", 只是如何在每天有數百萬點閱數中找出這些資料, 才是挑戰, 甚至我們計算所謂每天的資料, 並不只計算單一天而已, 而是一個星期, 也就是這是數千萬筆資料的計算~~~~

但怎樣計算並不重要, 而是算出來後代表的是甚麼或能夠拿來作甚麼...

1. 讀者交集度越高, 代表這兩個部落格族群重疊度越高...
2. 可以拿來作延伸閱讀...
3. 對於只會悶著頭寫的部落客, 可以看看還有那些部落格是跟你很像的?
4. 去拜訪與認識那些理論上跟你比較近的部落格或部落客.

而這個系統在昨天寫出週統計後, 整體雛型就完成了大半, 然後就是呈現的方式了, ...

因為昨天跟 686 提到這個, 我就拿他的來舉例好了, 大家可以直接點去看, 而在週排行的前 5 名為:

1. 小小書房|因為對書的愛情,我們存在 => 58
2. 薄荷奶茶部落格 - :: PIXNET BLOG :: => 54
3. 乖 - 天空部落 => 44
4. 富爾豪斯的舞寺參世界 ::PIXNET 痞客邦:: => 40
5. 四貓之母居所 - Yahoo!奇摩部落格 => 34

在每日排行榜中, 我們有濾掉只剩個人部落格, 但在週排行就沒有, 而跟 有河book 最接近的說是 "小小書房" 應該沒有人否定吧? 而之後的部落格有貓的, 有旅遊的, 但除外還有一個是相簿的, 而之間有甚麼關係我是不知道, ....

若是看這個部落格(黑貘來說) 的話, 前 8 名為:

1. 新台灣* Web 2.0 觀察表 Beta mk2 => 65
2. 大明攝影日誌 ::PIXNET 痞客邦:: => 38
3. 放逐流浪異鄉的旅人啊 => 35
4. 工程師級的顧問 / 【食夢黑貘】 => 35
5. 灰頭土臉:Xuite日誌 => 35
6. MyZilla Wiki: Welcome! => 34
7. 影音"不落格",許多音樂、mv,歡迎你的 => 33
8. 不是捷運日記 => 33

這 8 個有 4 個是我自己的部落格, 所以有時跟連結有相當大的相關, 畢竟為甚麼讀者會交集, 通常是有相互連結或介紹, 或者是跟本是同一個族群或是本人自己的創作, 都可以由這個看出來...

只是這個系統目前只是 beta 的 alpha 的測試版, 所以有甚麼想法可以跟我講~~~
關鍵字在這個題目中有是 Data Mining 的一環, 而我在 甚麼不是資料探勘? 甚至否定數量不夠的計算中, 意義是不高的, 甚至也要在一定的時效性完成....目前部觀門每天讀進 200 萬筆資料, 然後經過分析, 留下 20 萬筆資料, 也就是若一年下來, 依照這比例成長, 明年此時至少是每天 500 萬筆到 1000 萬筆資料, 因此可以說是一年至少 12 億到 22 億筆資料在運作...

此時還不包括之後使用者參與進來還可以增加更多有效資料, 就像是昨天部關門有 6 萬個點閱數以上 , 然後可以再進一步分析的更多, 但說真的, 這樣的資料, 要去計算與儲存都是一個很大的功夫...

且 在計算時, 一定要考量到計算到一半狀況, 因為每一次資料的計算都可能是數分鐘到數小時, 因此在某方面要做 Incremental 循序性的計算, 此時要做到每次的計算可以延續之前的計算結果, 且隨時可以計算, 甚至要回溯到歷史的所有資料, 此時就是一個很大的挑戰 ...

甚至這還不是最大的挑戰, 而且要去計算這些, 須要在有限的機器成本下完成, 這個有限, 不要說是幾十萬, 甚至是在不到十萬下完成, 就像是部觀門, 現在機器成本只有 3 萬, 面臨這樣的點閱數與計算, 可以說是絞盡腦汁去完成...

當然這樣也不算是正常的, 畢竟有時錢是最簡單的東西, 做出有用的東西才是最難的, 雖然部觀門到底是對誰有用我不知道, 但對於我自許為喜歡觀察社會, 而做出影響社會的機制與系統, 怎樣也是要做出對自己有用, 也對他人有用的東西...


到目前為只, 這種關鍵字的觀察, 以及這個計劃與想法, 讓我思索與看到很多東西, 甚至通常說, 我是從這系統獲得最多的人, 包含這個部落格的點閱數也是像上圖與下面這樣子:

日期點閱次數文章數
2007-09-3032120
2007-09-2937960
2007-09-2849480
2007-09-2733881
2007-09-261070
2007-09-25670

當寫完長瀨茜後, 從 50~100 的點閱數變成 3000~4000, 好像是在騙點閱數的感覺, 雖然我不否認我在寫之前就知道會有這現像, 但我原本是估計從 50 跳到 500, 結果沒想到比 星光幫 的效應還要強, 因為當時這個站的點閱數最高也只有 1000 多一點....

要看有關 長瀨茜 的文章, 請到 Hsiao Collecition 吧, 畢竟這邊是在討論這件事, 不應該跟她與他搶功...

但有人問我到底如何進到部觀門呢? 請參考這篇 從"絡門"看關鍵字林 , 就有寫個大概, 有時我覺得這個功能 Widget 比部落格排名有意義多了, 畢竟當時也的確是比部落格觀察更早的企劃, 只是當時沒有完成而已...

[前言]現在在部落格觀察中, 在查詢部落格的頁面中,
最下面的 Tab 已經有個得獎記錄, 另一個則是
Keywoods, 就是顯示最近 10 天超過 2 次點閱
的 20 筆關鍵字 "林", 如此一來可以知道部落
格的方向.

部落格觀察的確一開始是以排名為主要的功能,
但這個在我的 15 年命題是不存在的, 我在 1992 年
定出的題目是: 如何做出一個系統幫大家做出 news-
group 的精華區.

當然現在在台灣已經沒有多少人使用 NNTP 為基
的 newsgroup 了, 且這題目我發現就內容分析的方法,
要些有自然語言的成熟, 但我認為這個在 10 年 (當
時) 是做不到的, 而現在是否少於 10 年我也沒把握.

但除了內容分析外, 還有兩個, 就是關係與與使
用, 這個關係就是這個物件的角色, 特徵值, 如作者,
時間, 發行方法等等, 而使用 (Usage) 的部份就有很
多的可能性.

放在部落格而言, 這個物件基本上有兩種, 一個是
文章, 一個是部落格全體, 而當然使用最主要的就是閱
讀了, 而另一個主體就是讀者.

除了閱讀外, 還有訂閱, 文摘, 等等的使用方式,
而部落格觀察最主要是提供了確認部落格的主體性, 以
及一些閱讀的資料.

但閱讀資料本身是無法成為資訊的, 畢竟這是一個
一天數百萬筆的資料, 所以要轉換成有用的資訊必須經
過計算與轉化, 其中最無聊但大家最有注意到的就是部
落格的點閱數.

但除了這個很無聊的方法 (Method) 之外, 還有其
他方式, 包含做 Relation Analysis (關連分析) 的閱
讀關係, 就可以知道一個讀者除了看既有的文章外, 還
有甚麼進一步的延伸閱讀.

很不幸的這種大量的計算, 所須要的成本約是 20
萬左右, 所以我很早就放棄這個我最常做的系統, 畢竟
這個用在 EC (電子商務) 或圖書館/租書中心是可以用
的, 但部落格觀察是非營利單位, 說要有 20 萬的餘錢
來做這件事是不太可能的.

頂多期待像 Door (來源) 與創世際的合作方式再
找一家公司來做這件事情, 但先不用管這部份, 事實上
所謂的關連分析規模可大可小, 就像是部落格觀察在第
一個月就已做出的部落格關連, 一做出來就知道這不是
既有系統可以負荷的.

所以關聯分析的方法很多種, 但要找到一個實用的
方式也不是那麼簡單, 而在 Door 的關鍵字分析中, 就
提供一個不錯的降冪方法, 可以從這個部落格的關鍵字
來找到部落格之間的關係, 這規模比所有閱讀記錄或文
章關聯少多了, 且有某種特定的意義.

在昨天, 使用部落格觀察的貼紙部落格數突破一萬,
雖然這個一萬不是所有都是部落格, 也包含少數的網站,
而這個關鍵字的關聯分析從量變變質變變的有價值了,
雖然這個系統不只是要有貼紙的部落格, 更要是用
javascipt 的貼紙的人才適用的.

甚至在 Roodo, Yahoo, Yam/天空, 無名, 等等的
主要系統都沒辦法完全正確使用, 下面則是一個列表,
知道那些部落格可以使用這系統:

1. 完全使用沒問題的: Blogspot/Blogger/Google,
iTHome, Lifetype, 智邦(TT), FC2, Pixnet(?)

2. 只有首頁或特定頁面才可以的: Roodo, Yam/天空

3. 只有特定會員才可以的: 無名

4. 完全不行的: Yahoo

現在在部落格觀察中, 在查詢部落格的頁面中, 最
下面的 Tab 已經有個得獎記錄, 另一個則是 Keywoods,
就是顯示最近 10 天超過 2 次點閱的 20 筆關鍵字
"林", 如此一來可以知道部落格的方向.

而在未來會有個設定就是讓使用者選擇把那些關鍵
字給 mark 掉, 甚至我們會提供一個 18 禁的選項, 不
想出現一些奇怪字的部落格, 但又不想自己管理的人,
一個代管的方式.

然後從關鍵字的使用來作關聯性分析, 就可以看得
出來以天為單位的變動, 那個部落格跟你比較接近, 雖
然說是以天為單位的變動, 說真的距離的改變也不是那
麼劇烈與頻繁.

而這系統那時會完成呢? 很難說, 說不定是今晚,
也有可能是兩個星期後到遙遙無期也說不定, sigh...

[連結]

1. 每天更新的昨天關鍵字林
http://myurl.tw/009z
2. 關鍵字之後
http://blog.roodo.com/genehong/archives/3718471.html
3. 部落格觀察的 Gadget
http://blog.yam.com/genehong/article/10885012
[TAG]urs.tw, keywords, keywood, 關鍵字, 搜尋引擎,
SearchEngine

[後記] 後來 "絡門" 定名為 "部觀門(不關門"...

[前言]關鍵字的合併雖然要經過 5 億次以上的比對,
但唯有這樣才能有有意義的資訊, 不然 10 萬
個關鍵字是沒有意義的資訊.

當然我知道我的第一要務是把上班的工作做好後,
才有餘力做自己的事, 而關鍵字合併是能夠讓關鍵字
變得有意義的最重要工作, 只是後來想出所謂的子字
串向下合併後, 這工作節省了兩個月.

事實上最後用這個方法的原因, 最主要也是曾經
實驗過用 google 搜尋數目, 來作兩個關鍵字的關係
比對, 但結果只覺得有 8 成準確, 還不如子字串來得
有意義.

只是子字串要如何切, 就變得是切字的問題了,
這是我最不願意碰及覺得沒有必要碰的原因, 因為既
然是關鍵字, 使用者在概念上自然會去切割, 而沒必
要像分析語意那樣切割.

所以就乾脆用最簡單的去用空白等 "stop word"
去做切割, 如空白, 分行, 逗號, ... 等等的字元來
做縮短關鍵字最十拿九穩的方法.

但這問題還是很多, 因為很容易就讓較少字元的
字去併掉不該併的字串, 而最後是想到一個有趣的概
念, 就是雖然必然是由子字串去併更長的字串, 只是
必須這個字串必須是更常被使用才行.

就像是 "變型金鋼" 或 "桌布" 雖然比 "變型金
鋼桌布" 是屬於子字串, 但若 "變型金剛" 或 "桌布"
次數比後者少, 就無法合併, 這個在概念上是沒問題
的, 更強的字串本來就不應該被併.

但若 "桌布" 若併掉 "桌布下載", 又吃掉 "電影
桌布" 後比 "變型金鋼桌布" 數目還要大時, 在概念
上他就有權力去併下後者了.

所以昨天風痕影看到自己的關鍵字還是一堆 "無
名" 類的在前 10 名, 完全沒有合併, 但我說合併只
會在數量多才有意義, 若是屬於一天的資料, 我是覺
得合併的價值不高, 而很明鮮的他只有一天的資料,
所以連合併都合併不了.

只是這動作是相當複雜的, 若是有 1 萬個字串,
基本上就是要做 1 萬 * (1+1萬)/2 次的計算, 也就
是 5千萬次的比對, 然後經過一次合併後, 因為小的
會變大的後, 還要繼續再做這樣的動作.

而每次做通常會少個 2 成, 1 成左右, 而須要
做這動作 5 到 10 次, 最後可能剩 6千 個關鍵字,
但此時是約做 5億次的比對, 須要 5 到 10 分鐘左
右才能做完.

但之後出來的資訊就是有意義的, 不是像我之前
的文章, 前 10 名有 9 個都是星光幫, 就失去資訊的
價值了.

[連結]

1. 林宥嘉/楊宗緯/蕭敬騰 到底有多熱? (一個錯誤示範)
http://geneoralspeaking.blogspot.com/2007/06/blog-post_06.html
2. 關鍵字之後
http://blog.roodo.com/genehong/archives/3718471.html
3. door 與 semantic web
http://blog.yam.com/genehong/article/10785044
4. 甚麼是TAG?
http://blog.ithome.com.tw/index.php?op=ViewArticle&articleId=4642&blogId=410
5. 資料探勘實用是因為小技術
http://blog.roodo.com/genehong/archives/3675143.html

[TAG]wood, door, urs.tw, keywords, 部落格觀察

[前言]在提供純文字的版型外, 因此大家可以用自己
的 CSS 來去調整, 或許有那個 UI 高手能夠
幫忙寫個可以用自動產生調整版型的系統來造
福大家, 我知道我在這方面是很糟糕的人.

昨晚是很難得的 4:00 多後才睡, 最主要是很意
外的解決 Door 計劃中的一個大問題, 所以不只是在
關鍵字中找到一個簡單且合理的合併方式, 也一口氣
的完成利用 keyword woods 來做標籤雲.

最主要是在還沒有做 Semantic Web 之前, 想說
用 Google 來算距離, 但算了半天後, 只有一個結論,
與其真的去算, 還不如直接用字串比對算了, 畢竟事
實上會能夠上排行榜的也沒那麼多, 本身就會做一次
收斂了.

此時也證實一個我說的狀況, 與其開發甚麼可能
須要很偉大的架構, 有時只是一個小小的技巧就足以
做到很大的實用, 例如這個計劃本來想要用語意網路
來做, 但最後轉三圈發現若只是要有八成的實用, 跟
本不用那麼麻煩.

在這次的搜尋關鍵字排行中, 有三隻程式, 一個
是昨天的資料, 一個是一週內的資料, 一個是可以自
定區間的.

在自定區間中, 有兩個參數, 一個是要回推的日
數, 就是 period, 而另一個 rows 則是要出現幾筆
資料, 而系統本身會有自己的 cache, 區間越長, 更
新頻率可能從一天到五天.

而目前是開放最多 30 天內, 以後會試情形的增
加區間數, 因為每一個部落格的點閱數都不一樣, 有
的部落格可能一天資料就很多, 太多天可能不只是都
很無聊的資料, 更有可能算不完.

相較點閱數較低的, 可能要累積 10 天才會有意
義也說不定, 再加上可以調整出現數目, 所以找到最
合宜自己部落格的數目也是相當重要的.

在所有 door 計劃中, 由於是由創市際提供的機
器與頻寬, 所以會掛上創世際的 Logo, 而會提供
graph 這參數讓大家選擇合於自己部落格的圖型, 在
純文字版大家可以自己用 css 去套版, 但也會提供
經過美化的版本.

在 keywoods (關鍵字森林) 中, 因為有一個是
用 table 來括起來的, 所以有個 width 的參數, 除
外跟之前都是一樣的有 period 與 rows, 而在這部
份 default 預設是 period=30, rows=30.

在提供純文字的版型外, 因此大家可以用自己的
CSS 來去調整, 或許有那個 UI 高手能夠幫忙寫個可
以用自動產生調整版型的系統來造福大家, 我知道我
在這方面是很糟糕的人.

當然搜尋關鍵字的觀點與 tag 是不一樣的, 而
有人說部落格觀察要不要推出 tag 系統, 我是還在
猶疑, 但目前已經有部落格資料下的很多 tab 可以
應用了, 因此來個 keywoods 應該不是問題.

但已經知到有很多關鍵字是部落格主本身不想讓
人知道的, 所以除了可以讓使用者去設定顯示與否外,
更可以設定那些字是不要的, 不然又出現 fxxk 現像
則是我們不想見到的.

而已經經過創世際的同意在機器上先推行 door
的網頁, 所以大家到時可以看看這系統是如何運作的.

[連結]

1. Door Open
http://blog.roodo.com/genehong/archives/3710287.html

2. 資料探勘實用是因為小技術
http://blog.roodo.com/genehong/archives/3675143.html

3. door 與semantic web
http://blog.yam.com/genehong/article/10785044

4. 標籤林(wood.urs.tw)
http://blog.ithome.com.tw/index.php?op=ViewArticle&articleId=6598&blogId=410

[TAG]urs.tw, 關鍵字, 搜尋引擎, Tag

[前言]認真的去寫有用的心得與資訊, 跟騙流量這之
間有沒有任何操作型定義嗎? 我想是不太可能
會有的, 因此最後還是自由心証吧.

Door 計劃本來是一個來源 (Referral) 的計劃,
也就是說想看每一個網頁的來源, 然後放在這個網頁
上型成一個與使用者互動的系統.

因此的確 Door 開始寫作是比 Look (部落格觀
察) 更早, 但因為一直想不到好的介面與好的寫作方
式 (更好的演算法) 就停滯在那邊.

一直到今年四月, 才真正開始記錄 Referral,
但因為系統負荷一直開開停停, 最後是因為種種因素
變成創世際第一個贊助部落格觀察的系統.

為甚麼說是創世際贊助呢? 事實上部落格觀察最
缺的是美工, 而好的美工也是往往在 Soho 族中較為
搶手, 所以說要幫部落格觀察做義工是很難的, 不像
部落格觀察的新 Logo, 也是因為我跟 Adomu 是舊同
事所以他插刀相助.

所以 Jason 本來也想幫博客來的一些貼紙做美
化的事情, 沒想到他們的美工後來也很吃緊, 因此本
來想說把 "部落格溫度計" 等等美化這些計劃最後就
延後了.

而後來跟他說 Door 計劃時, 最缺的是台伺服器,
這個 Jason 就很樂於支持這計劃, 他就出一台機器,
讓部落格觀察完成這計劃.

只是原本的 Door 是個引用計劃, 但覺得這架構
太大了, 所以最後是縮簡成為一個關鍵字來源計劃,
甚至是成為撫助 Wood (標籤林) 的功能.

因為目前關鍵字的確比較少人做成 Widget, 且
這個在資訊架構中也是很重要的一環, 更重要的是可
以透過關鍵字串連出部落格, 這才是重點.

也就是說若點下去關鍵字, 出現的是那些部落格
也是因為這關鍵字被連到的, 甚至也會寫個 Widget
直接用關鍵字的距離算出關聯部落格, 變成另類的部
落格連結.

關鍵字與標籤是不同的東西, 但在某方面的本質
都是做為內容的連結 (同質性) 與搜尋來源, 此時也
是種內容的降冪, 因此, 也是另類的內容描述與整理.

當然這個連結如何對作者有用, 對讀者有用, 甚
至是說讓作者在某種情型也可以選擇揭露與否, 尤其
是某些關鍵字的出現本來就是匪夷所思.

就像是我昨天顯示給 wildcat 說他的關鍵字,
居然出現 "Fxxk Girl Movie", 他直說不可能, 但後
來真的在 Google Analytics 與他的來源看到這些字,
只是他的部落格唯一有關聯的是 Movie, 前兩個字並
沒有出現, 只是他的 PR 太高罷了.

但我最怕的是有人用這些工具的嘩眾取寵的寫些
騙瀏灠的事, 這才是我一直在想如何解決的, 只是任
何功能都是兩面刃, 就像是我看到 "黑貘來說" 有些
人是找 "道頓崛", 此時我就覺得既然有人看, 就多
寫一些有用得資訊與心得吧.

只是到底是寫有用的心得與資訊與騙流量這之間
有沒有任何操作型定義嗎? 我想是不太可能會有的,
因此最後還是自由心証吧.

而這個計劃一些比較不會有商業價值的, 會以
Door.urs.tw 來呈現, 而比較有商業價值的, 我倒是
希望創世際能夠以商業資源來做出更有價值的東西,
請大家拭目以待吧.

[連結]

1. 12項W2O.urs.tw計劃
http://blog.ithome.com.tw/index.php?op=ViewArticle&articleId=7289&blogId=410

2. door 與 semantic web
http://blog.roodo.com/genehong/archives/3571339.html

3. 林宥嘉/楊宗緯/蕭敬騰 到底有多熱?
http://geneoralspeaking.blogspot.com/2007/06/blog-post_06.html

4. 標籤雲的規劃
http://blog.yam.com/genehong/article/6594400

[TAG]urs.tw, 來源, referral, keyword, tag,

[前言]有時一些創意是甚麼了不起的想法, 甚至是覺
得相當合理且習以為常的東西, 但有時有趣的
是如何兜在一起, 且兜在一起的動機與理由都
是多變的, 幾乎都是在不同的環境與刺激出來
的結果.
昨天我在跟 anny 講說我當時是怎麼設計一套預
測系統的, 事實上我本來以為一些大的進化與改變是
很重要的, 但在回溯之前寫的程式時, 發現一些看似
不怎樣的小技巧確是影響很大的東西.

一個簡單的外插法, 由與取樣的方式就會有很大
的變化, 當時只是一個很簡單的預測當日業積, 我就
用當日來計算, 但一下子就發現一個很大的問題:
"當一天開始的時候, 此時的樣本就太少".

當樣本太少的時候, 這些樣本的小小變化就會造
成很大的變動, 所以每次要到下午 2:00 到 4:00 時
才會收斂到近乎直線.

在第二次改版時, 我就想說保持 24 小時的樣本,
而當時已經引進我當時所想的最適經驗法則, 只是因
為為了要計算那個是最適經驗時, 就要做很多中間表,
且為了要保持 24 小時的樣本數, 可讓中間表膨漲很
大且並沒有提高準確度.

事實上當時的問題不在這個, 而是我發現最適解
本身因為每次計算可能都不一樣, 因此結果也是跳來
跳去, 而我嘗試著用各種平均也找不到答案, 所以最
後是畫出了兩個曲線, 一條叫做: "好像還沒那麼終極
的終極預測", 以及 "希望會好一點的終極預測".

看這兩個名字就知道, 這是一個失敗的案子, 雖
然我對於所謂的最適經驗法則有信心, 但最大的問題
就是取樣的方式以及最後結果的計算.

而我在寫部落格觀察時, 此時就面臨一個更大的
挑戰, 我要與預測不是一條曲線, 而是上萬條曲線,
所以每次去展開樣本空間去做很多中間表是不可能的,
我就用了一個欺騙的技巧.

就是不去預測今天的點閱數, 而是用這兩天的資
料與上週或平均的資料去預測這兩天的點閱數, 而由
於昨天的點閱數是已知了, 自然剩下的就是今天的預
測點閱數.

這個小技巧使得建中間表變的更簡單, 且能夠保
證不只是 24 小時的資料, 而是必然超過 24 小時的
資料, 因此準確度自然提高了, 這也是我當時沒有想
到的方式.

當然這個也是說反正是個時間序列的曲線, 之前
我過於強調 Sliding Window 的區間來看資料, 來算
平均, 甚至也過於強調要保持這個這區間的大小寬度,
反而在面對這個問題忘了取其中.

接著就是最後算出來時, 要如何處理, 而之前一
直知道若要解決乖離的資料, 必須要有某種 Data-
Cleaning 的步驟, 但有時我也過於迷信資料存在必
然有用, 不要放棄任何自由度.

但事實上捨棄資料本身不見得會讓自由度變少,
尤其是在這資料如何捨棄或化成某種機制, 此時才會
在我當時說預測的區間可能是存在於中位數與平均值
這個非常詭異的經驗論.

只是我剛好遇到一個有趣的命題, 就是: "為甚麼
部落格觀察死都要提供最終的綜合排行榜", 因此我也
要擠出一個數字來做結果, 因此我嘗試著把中位數與
與平均再取平均.

但這個在理論上是完全沒有依據的, 所以我一直
覺的不妥, 在某個睡夢中之前, 我想到了平均若是個
面積的觀點, 為甚麼不用 Fuzzuy (模糊) 來去計算
最終數字, 且能夠保持某種不會有乖離的現像呢?

因此最後終於找到一個有趣的解答方式:

1. 最適經驗法則
2. 彈性的 Sliding Windows
3. Fuzzy 的面積法

這些這些都不是甚麼了不起的想法, 甚至是覺得
相當合理且習以為常的東西, 但有時有趣的是如何兜
在一起, 且兜在一起的動機與理由都是多變的, 幾乎
都是在不同的環境與刺激出來的結果.

所以該怎說呢? 我唯一會 Quote 的話是: "一個
只是經濟學家的經濟學家, 絕不是一個好的經濟學家",
此時的經濟學家可以換成任何領域的單一專家吧.

[連結]

1. Anny
http://anny325.blogspot.com/

2. 資料清理 (Data Cleaning)
http://blog.roodo.com/genehong/archives/3649845.html

3. 從業績預測開始(上)
http://blog.yam.com/genehong/article/7613295

4. 資料探勘所須的背景
http://blog.yam.com/genehong/article/8195330

[TAG]資料探勘, DataMining,
[前言]無論如何, 能夠更準確的預測所想要知道的東
西, 用甚麼奇怪的方法都是對的, 畢竟是數字
去找人, 而不要人去配合這些數字, 只是人的
行為是可以被預測的嗎? 或許是說一個人較難
預測, 但群體行為就可以嗎?

在資料探勘的這個議題除了我們算出實際結果出來
的這個範籌中, 事實上還有兩個很重要的領域, 一個是
稱為 Data Presentation 的資料呈現, 及清除有問題
資料的 Data Cleaning.

而雖然我常說, 資料探勘與統計最不一樣的原因是
樣本空間, 在資料探勘拿到的是所有的母體, 所以理論
上不太會有錯誤的資料, 所以在資料清除這塊是意義最
小的, 讓自由度保持最高反而是最好的, 所以不要放棄
任何資料.

但若牽涉到預測, 有時也是只有往一個大方向走去,
所以在所謂的 Data Cleaning 的排除有問題的資料,
最簡單的就是用平均, 有時我就會很懶墮的用平均數與
中位數來做預測區間.

在點閱數的外插法中, 最簡單的就是用五筆資料來
找中位數與平均, 甚至擔心會有跳脫的數值時, 就取中
間三筆來做平均就可以了, 而中位數本身就不用擔心所
謂有問題資料所造成的 Noise (噪音).

而我採取的樣本空間則是:

1. 上週同期
2. 七日移動平均
3. 兩週前同期
4. 昨天(或最適曲線)
5. 上週平均(或同週最適曲線)

只是所謂的最適曲線就是要經過選擇判斷的, 說真
是很吃資源的, 而基本上就要做最佳化才能真的實用,
所以說要短時間寫出來也沒那麼簡單.

事實上我也不是沒算過所謂的最適曲線, 但當時用
的是找到五條曲線做平均, 但因為這個五條的變化太大
了, 所以到最後反而因為變動的離散太高, 因此在沒有
人維護後就沒了.

而當時發現的幾個問題:

1. 若是每天重新取最新的樣本, 往往一天的開始會有樣
本不足造成乖離太嚴重的現像, 所以應該放大樣本,
例如包含昨天的樣本.

2. 在取最適解的最佳化中, 就是做取樣的降冪, 例如是
用 5 分鐘以下的取樣瀕率, 甚至最好是以計算週期
做為取樣頻率.

3. 當時並沒有做 Data Cleaning 的手續, 雖然若是用
最適解的話, 事實上任何例外都是經驗, 但若非這種
方式的話, 很容易造成資料扭曲到預測失準.

但事實上 Data Cleaning 最困難的是要用甚麼方式
去區隔所謂有問題的資料, 或只是樣本數不足罷了, 甚
至若是會發生這樣的限象, 必然是一個因子, 在經驗上
的重覆使用更不應該排除.

只是這個社會很習慣的看整體共同點, 基本上是放
棄例外或比較突兀的數字, 當然到底要如何去面對這些
數字又是另一個觀點.

無論如何, 能夠更準確的預測所想要知道的東西,
用甚麼奇怪的方法都是對的, 畢竟是數字去找人, 而不
要人去配合這些數字, 只是人的行為是可以被預測的嗎?
或許是說一個人較難預測, 但群體行為就可以嗎?

這條路還很漫長, 所以這些形而上的社會影響與哲
思還可以慢慢想, 但也不能不想.

[連結]

1. 事後諸葛這個模型
http://blog.ithome.com.tw/index.php?op=ViewArticle&articleId=9622&blogId=410

2. 甚麼不是資料探勘?
http://blog.yam.com/genehong/article/10571840

3. 資料探勘所須的背景
http://blog.roodo.com/genehong/archives/2728749.html

4. 從業績預測開始(下)
http://blog.roodo.com/genehong/archives/2656200.html

[TAG]資料探勘, DataMining, DataCleaning, 預測

[前言]人在網路的反映與實際行為越來越多的時候,
Log 與記錄也越來越多, 此時說要去模擬或有
代理人 (Agent)的價值也越來越高, 如同 Data
Mining 資料探勘一樣, 資料越多就越準確

基本上我慢慢的在這幾年才相信, 我的專長是數
學, 但不是一個甚麼數學家, 因為我在 15 歲看到高
斯傳, 認為知道他的事後還想唸是數學, 不是真的是
天才就是瘋子, 雖然後者的機會比較高, 但我都不是,
所以早早就放棄唸數學的打算.

但看到 Jacky Chu 寫的一系列 "寫程式到底要不
要懂數學", 他舉的例子都是我以前常舉的, 所以就手
養了以非捷運日記型式的回應他的文章, 只是因為寫
在 iTHome, 反倒是較難發引用通告, 但大家可以去看
看這幾篇及我的回應.

而我的回應談到我的一些數學經驗與想法, 但沒
提到的是我最近對於一個議題的興趣: "如何用量化的
方式來描述, 模擬與預測生命", 所以我在上個月在清
華的講題是: "從部落格觀察來看行為研究的量化與質
化", 但比較可惜的是沒有講好.

只是這幾天越來越覺得我該要自我突破, 包含除
了部落格觀察外, 我必須要有更有意義的作品, 此時
就想到 fate.tw 的子計劃, moon.urs.tw, 一個用最
簡單的行為週期的的方式來預測與配對.

這隻程式是到處都有, Airlian 在 10 年前也寫
過一次, 但事實上即使這理論中所稱的週齊是正確的,
只是最大的問題是無法知道週期的起點, 雖然這點在
大部份的實作都用生日做起始點也沒錯.

可以把這系統加以衍生的就是計算這些週期的交
集與變化, 基本上甚至是感受變化的程度與量級, 所
以在呈現上可以有多種有趣的種類, 例如直接微分算
趨勢, 積分(加總)變總量等等.

最有趣的是還可以把兩個人週期來作配對, 此時
就會有一個有趣的答案: "那時候你去找心儀的他是
最好的時間", 這時候就有了一個新的理論依據.

但這理論是正確的嗎? 人的行為真的有週期嗎?
還是每一個人的週期都不一樣, 或者是只能算趨勢?
此時在時間序列的工具就可以派上用場, 可以用傅立
業分析來判斷週期, 用 ARIMA 來計算趨勢.

所以一個記錄與回饋系統變成是另一個主角, 此
時就是一個相當有趣的 Badget (Blog Gadget), 就
像是我在 Blog Day 說的, Blog 可能會有三種演化
階段:

1. Presentation: 在部落格表現自己的想法, 記錄
自己的行為, 部落格就像人在網路的鏡子.

2. Emulation: 在部落格的寫作與交友互動中, 實現
自己的生活, 如同人生活在部落格中.

3. Simulation: 部落格自己會模擬人的行為, 對人
的行為產生建議, 協助, 就像人在部落格有個分
身一樣.

這樣的行為與狀況, 我稱為 Blogation, 即部落
格行為, 而如同 Blogger 在部落格圈 Blogosphere
一樣, 在未來是否有人真的是以部落格為生活重心,
甚至是唯一的生命出口, 應該是比現在多很多.

當然拉回來看, 因為這樣人在網路的反映與實際
行為越來越多的時候, 說要去模擬或有代理人 (Agent)
的價值也越來越高, 如同 Data Mining 一樣, 資料越
多就越準確.

只是不要想太多, 先把 Moon.urs.tw 行為週期的
Prototype 原型作出來再說吧.

[連結]

1. 寫程式到底需不需要懂數學?黑貘觀點!
http://blog.ithome.com.tw/index.php?op=ViewArticle&articleId=10565&blogId=410

2. 豬言豬語寫程式到底需不需要懂數學?
http://blog.ithome.com.tw/index.php?op=ViewArticle&articleId=10426&blogId=58
http://blog.ithome.com.tw/index.php?op=ViewArticle&articleId=10513&blogId=58
http://blog.ithome.com.tw/index.php?op=ViewArticle&articleId=10550&blogId=58

3. moon.urs.tw
http://blog.roodo.com/genehong/archives/2657920.html

4. 我的MyZilla生活圖表
http://blog.yam.com/genehong/article/6120921

[TAG]urs.tw, 數學, ...

[前言]用這種 Sliding Windows 的算法是避免單一筆
資料的錯誤或變化過大, 在某種觀點是種展開
到後面四個星期, 也因此能夠有穩定性與即時
性的雙重特質, 這在時間序列的計算很常見,
也是一種移動平均的概念.

在 "網路勾結" 中的活躍度, 我也是採取了跟部
落格觀察的 Sliding Windows 的區間算法來做最新的
活躍度, 只是從原本的文章數變成網頁的增加數, 而
採取的權重目前是用等差而非等比.

用這種 Sliding Windows 的算法是避免單一筆資
料的錯誤或變化過大, 在某種觀點是種展開到後面四
個星期, 也因此能夠有穩定性與即時性的雙重特質.

但跟部落格觀察不一樣的, 部落格觀察的活躍度
是往前算四週, 而在網路勾結中是包含當週的四週,
但也因為是算成長 (差距), 所以在統計學的自由度反
而是多一個量級.

因為在網路勾結中, 即時性更重要, 且目前並沒
有多次統計, 而是以最新的一次資料抓取為主, 所以
會因為抓取的時間而有所影響, 這個部落格觀察不一
樣, 因為部落格觀察的活躍度只要抓取正常, 不會因
為抓取的時間而有所不一樣.

但在計算網頁的成長數而言, 若是保持一定的成
長倒是比較不會受更新時間的影響, 比較麻煩的是有
時成長有時退步的問題, 所以理論上最好能夠加上兩
個星期的變量來作參考會比較準確.

只是這種過去的時間資料越多, 越難表現即時性
的價值, 所以在某種觀點也不見得是好的, 但為了保
持準確合理性, 事實上加上兩週間差距的計算是好的.

很多人問我這些數字的概念是甚麼? 為甚有價值?
這才是一個更重要的命題, 以及跟我們所知道的抽樣
調查, 甚至最近出來的理性預期的調查是更有趣的.

在這種從網頁數與網路的文章, 即時新聞的資料
量來計算, 可以很迅速與大量的計算出一個關鍵字,
一個人物, 一個議題的受重視的程度, 且這個受重視
的程度在於計量上而言, 就很有數量級的差距, 而不
只是單純的全有全無.

跟抽樣統計不一樣的, 這種計量方式是計算所有
已知的母體行為, 而非抽樣從樣本來推估母體, 這是
有很大的差距, 所以在某種觀點是準確度相當高的,
甚至我們可以做一個比較表:

統計調查 網路勾結
速度 慢 即時
樣本空間 小量抽樣 全部母體
即時性 快 即時
成本 高 低
準確度 低(樣本數) 高
比較量級 無 有
歷史 每次 每週(日)
序列比較 無 有
觀點 有 無
反應速度 即時 網路散播後

以這個觀點來看, 網路勾結目前還沒做到的就是
觀點, 但可以用語意網路來補足這問題, 而反應速度
比較起來雖然比統計調查慢, 但統計調查的時間間隔
往往超過網路散播的 3 天到 21 天.

當然網路勾結最有趣的是主持者在下觀察的關鍵
字的能力, 以及事後解讀的能力, 就像是所謂史萊姆
發現少數大事件與多個小事件的影響力, 例如可以不
用大事件, 但也不能小到完全沒人理會那樣.

例如馬英九騎車騎了很久, 但不如許添財主持端
午節活動那樣具有影響力, 雖然這兩個事件原本在抽
樣統計是不能比較的, 但透過網路勾結又承現一個不
同的面向, 只是這些發現, 已經超過可以講的完範圍了.

[連結]

1. 台灣網路十大政治人物
http://geneoralspeaking.blogspot.com/2007/05/blog-post_13.html

2. 政治與網路
http://blog.yam.com/genehong/article/10668887

3. 網路勾結
http://hook.urs.tw/

4. 網路勾結討論區
http://bbs.blog.tw/viewforum.php?id=28

[TAG]統計, 抽樣調查, urs.tw, 政治

[前言]中華電信自許讓台灣的網路成長五年, 但事實
上他的壟斷已經讓台灣的網路退步十年, 所以
結果還是負面阻力大於成果, 雖然現在已經慢
慢好轉, 但在我眼中還是不及格.

基本上我很少去對政治發言, 說真的只是懶惰而
已, 因為個性的關係通常除非是有價值的話, 就不會
花太多精神去寫作, 應該說是, 寫任何文章都是有目
的的.

當去年市議員選舉有人發動串連支持綠黨, 基本
上我在學生時期都參與過 Green Peace 的活動, 說
不支持相關議題是不可能, 但相較之下, 要我支持綠
黨的 "人" 讓我提不起勁.

而我剛剛看了蕭美琴的退選感言, 事實上我覺得
她對大勢過於悲觀, 包含王世堅本來就是一個不簡單
的對手, 雖然我不知道到底那些小動作是如何? 但她
要勝選也不是那麼簡單.

但因為蕭美琴對我而言也算是國中同學, 且她的
表現也算不錯, 因此對這件事也覺得蠻可惜的, 只是
說有多少心力可以幫忙, 可能還在我的 Schedule 的
Priority 很後面吧.

我的確有在觀察政治人物在網路上的表現, 基本
上蕭美琴在幾個網路界的活動的確有參與, 但事實上
看得出來她畢竟對網路不夠熟, 或者是說她助理對網
路也不夠熟, 所以網路上的表現甚至不會贏.

但像周錫瑋在選完後, 網站就當廢物一樣丟掉,
甚至在 Adword 的廣告還在, 但網址已經被別人買走
了, 這種政治人物在我的觀點是更不可取的.

在 10 年多前, 我曾短暫的擔任柯建銘的助理,
但很快的就發現我當時的思維模式, 一時之間無法轉
換成那些思索, 所以很快就放棄了, 當時只是對中華
電信如此的霸權相當不滿, 而非支持任一個政黨.

的確, 中華電信自許讓台灣的網路成長五年, 但
事實上他的壟斷已經讓台灣的網路退步十年, 所以結
果還是負面阻力大於成果, 雖然現在已經慢慢好轉,
但在我眼中還是不及格.

但到底有那些政治人物在網路上表現及格呢? 在
部落格觀察中, 真的有進入排名的只有 "羅文嘉" 一
個純個人的部落個進入排行榜, 除外的部落格即使是
助理在寫表現也沒有他好.

只是這代表羅文嘉對網路環境了解, 甚至有不錯
的網路政策嗎? 我就無法判斷了, 但認識網路, 使用
網路是進入網路的開始, 就開始而言他反倒是做的最
好的.

雖然部落格觀察的確會推出政治人物的部落格排
行, 此時就不會去區分個人建立, 或者是助理幫忙的,
但至少是可以知道他在這網路的關係為何, 甚至從排
行還可以知道他有沒有重視網路這塊.

記得當時跟 capita (賴明宗) 信誓旦旦的說要
組出一個資訊黨, 來為網路這個社群有發聲的空間,
那時是 1994 的時候吧, 我當時跟他坐在計程車上聽
大選報告, 此時心情還是相當激動的.

可惜的是每四年就這樣過去, 現在已經過了 13
年了, 不要說是原生的網路候選人或政見, 網路在整
個政治還是扮演相當弱勢的角色.

記得我在 1997 年時寫出 "網路世代宣言" 時,
把原本 1989 的說法從 "網路是民主政治的最後一道
防線" 改成 "網路是民主政治最重要的工具" 時, 還
蠻期待在五年內社會有所改變.

事實上過了 10 年了, 網路在呈現現實的面向還
是相當薄弱的, 更何況進一步的實用 (實現) 與模擬
到第三個階段還很遠, 但透過部落格的確在一些以
"未來/趨勢" 為導向媒體已經注意到了, 即使主流了
解這塊也是有距離.

如同 "數位時代" 來談部落格雖然還是相當初淺,
但除外的主流雜誌應該還是以很 "風花雪月" 的心態
來報導吧, 應該是說, 那天商週跟上 Times 的進度,
真正了解 "你" 的價值, 再來談實現還不遲.

但或許很多事情是要從媒體人了解做起, 尤其是
最近看到連許多媒體人努力的保持在網路暱名, 把網
路只當成漫罵成癮的地方, 不然就是被部落客發現抄
襲就 "無限期離開部落圈" 的駝鳥.

我覺得這路途可能比想像的還要遠吧.

[連結]

1. 網路世代宣言
http://blog.ithome.com.tw/index.php?op=ViewArticle&articleId=6808&blogId=410

2. 歡迎蒞臨立法委員蕭美琴虛擬服務處
http://www.bikhim.com/

3. 台灣網路十大政治人物
http://geneoralspeaking.blogspot.com/2007/05/blog-post_13.html

4. 最近部落格熱門政治人物
http://hook.urs.tw/?view=2&diff=2

[TAG]台灣, 政治, 部落格

[前言]所謂的 "即時性" 及 "完整性" 是資料探勘與
一般統計學常用的立論基礎是不一樣的, 甚至
我都開玩笑的說: "統計學不是從數學分支,
因為數學家不認為這是完美的", 相較之下說
不定到最後: "資料探勘不是從統計分支, 因
為統計學家都不認為這是合理的".

跟我最沒有緣份的科系, 一個是物理, 因為我的
目標都是物理系所但都沒考上, 而另一個更沒緣份的
是數學.

要算我考上過的數學相關系所可多了, 從成大數
學, 政大應數, 東吳商數, 淡江數學, 且這些不乏考
上一次以上, 加上原本想考統計所但後來作罷.

因為我一直認為從數學或物理可以找到一些模型
與答案, 但事實上這兩門學門所受的思考限制才是更
多的.

尤其是我從 1996 開始接觸所謂的 Information
Retrieval 的資訊獲取的一些想法與技術時, 其中有
一支就是我現在投入最深的 Data Mining (資料探勘).

而在當時的教科書中, 有一半的方法都是在統計
學上著墨, 我也跟著相信統計學的更上層存在一種可
能解與方法, 所以我研究所花了不少去念多變量, 時
間序列等等的學科.

當然在 199X 最熱門的兩個題目, 一個是 Fuzzy
(模糊數學), 一個是 Nerual Network (類神經網路),
而我也很相信這可能是答案.

只是開始實作時, 我發現這些方法雖然是合理的,
但卻發現事實上問題都不在這邊, 而是其他技術面與
人的政治面.

這人的政治面有時最麻煩的不是其他人, 而是唸
統計或唸行銷的人, 對所謂資料探勘有既成的印像,
而這邊我在之前的文章有說過了.

所以我才刻意說出幾種說法:

1. 資料探勘是一種逆行銷, 不以行銷者的觀點作出
發, 而是從消費者為中心出發.

2. 資料探勘與統計相違背, 因為統計學常有 "母體"
或 "抽樣" 的假設, 但資料探勘是計算即時發生
的所有行為.

甚至我還很偏頗的說: 只要是 "抽樣", 只要是
"一個時間區間", 那些是統計的說法, 不是資料探勘
的範籌去做區隔.

事實上只要是能夠 "挖掘" 出答案的就是好的方
法, 而何必去管是否是資料探勘或不是呢? 只是常面
對一些令我不知如何挑戰, 我都會心理很阿 Q 的如
此滴咕著.

因為與其是區分何謂資料探勘或不是, 來判別甚
麼是好的方法還是壞的方法, 還不如去探討質性與量
化的研究優缺點, 這是很無聊的事, 甚至事實上這些
說不定都比不上神秘經驗.

但的確所謂的 "即時性" 及 "完整性" 是資料探
勘與一般統計學常用的立論基礎是不一樣的, 甚至我
都開玩笑的說: "統計學不是從數學分支, 因為數學
家不認為這是合理的", 相較之下說不定: "資料探勘
不是從統計分支, 因為統計學家都不認為這是合理的".

當我悟出這道理後, 我更發現從一些理論物理/
量子力學, 數值方法/演算法, 發現一些更另我吃驚
的結果, 甚至發現原來我原本想要從統計學去趨近是
錯誤的, 這些是工具, 但最後往往不是路逕.

有一天我跟某 Cxh 聊說, 只要給我 20M 到 50M,
我可以有 80% 以上的準確度來預測股市, 而來讓那
些明嘴打嘴巴, 他說我這句話讓他心有所種感悟後,
我發現或許要打敗所謂金錢遊戲, 或許我該下場讓那
些機制運作失效.

所以我在想有沒有可能是用 500K 到 2M 來作一
些初步的運算, 而且是立即可用的, 不是那種只是我
現在的空口說話而已, 但就我的 Priority 而言, 這
個大概還很遠吧, 甚至是現在跟本沒必要去想這個.

但為甚麼會這樣想與說呢? 以後再說好了.

*2

[連結]

1. 事後諸葛這個模型
http://blog.ithome.com.tw/index.php?op=ViewArticle&articleId=9622&blogId=410

2. 購買機率與相似度
http://blog.yam.com/genehong/article/6345472

3. 不只是捷運日記 的 資料探勘分類
http://blog.roodo.com/genehong/archives/cat_170471.html

[TAG]資料探勘, DataMining,

*********************************************

*1
05/14/07 02:26 pm, 過竹圍準備到關渡, 看完
二手 Upapaer, 但只是紙張是二手, 內容無所謂二手,
因為大都是三四手以上了.

*2
05/14/07 02:58 pm, 已經到古亭站了, 也來不
及說了.