話說玩Plurk有好一段時間了,發出的噗也愈來愈多。有時候想找曾經貼過的連結或影片,都要一個噗一個噗找,沒注意還會過頭。記得之前有篇專訪,提到未來會加入搜尋功能,但過了這麼久還是沒生出來,究竟是為什麼呢。搜尋功能真的有這麼難做嗎?我個人認為是的,下面就以我淺薄的資訊檢索(Information Retrieval,簡稱IR)知識來討論Plurk的搜尋。
其實網路上Open Source的工具很多,把工具裝一裝,索引建一建,其實搜尋功能就完成了XD。不過搜尋功能要是一個沒調整好,效能會降非常多的,而且Plurk的搜尋不能以傳統資訊檢索的角度來看。這邊先簡單介紹一個搜尋引擎,從前置工作到搜尋的過程,中間需要哪些步驟。首先是前置工作,那當然就是建索引囉,索引就像是圖書館的書籍分類,每一本新書進來,就要打上分類的編號。不過在一開始,圖書館一定是什麼書都沒有嘛,所以就去進了一堆書,然後一本一本編號,書愈多就愈多累人。把圖書館換做是Plurk,假如一開始他們就沒有規畫搜尋功能,現在臨時要作,就得一次對整個資料庫做索引,嗯……應該是個不小的工程吧。
有了索引,整個工作也只進行了一半,還必須制定一個排序(Ranking)的機制,計算出哪些噗很重要(或者說很"糟糕"?),至於排序方面,就…下篇文章再說好了。
沒有留言:
張貼留言