[賞書] Mahout In Action

看板Soft_Job作者 (只有冰)時間13年前 (2012/10/24 22:41), 編輯推噓2(2030)
留言32則, 5人參與, 最新討論串1/1
@書名:(請盡量寫正確的全名) Mahout In Action @書本類型:(繁體書、簡體書、翻譯書、英文書) 英文書 @連結:(請至少附上一個參考連結,方便使用者找尋、購買。) http://www.tenlong.com.tw/items/1935182684?item_id=384683 @入手方式:借閱(圖書館、親友)、購買、交換 借閱 @為什麼會買這本書? 因為這本是市面上唯一一本在教mahout的書 @讀完有任何感想?(請至少附上五十字感想) 與其說是Mahout In Action, 不如說是Practical Machine Learning Using Mahout 此書的作者花了相當篇幅在machine learning的概念上進行解說, 從基礎概念,模型如何調整到如何應用在實際環境上都有,並且沒有提到數學式。 對於我這種研究所不是做machine learning,數學又糟的人來講相當有用。 然而優點也就只有這樣而已了。如果要以mahout參考書來評論他的話是不及格的。 參考書最重要的程式碼不夠。 前兩大章節(推薦和分群)還算是有完整的程式碼, 分類這章節跟本就沒提到什麼mahout的API,只有示範SGD的訓練而已。 (對,不教你如何分類。我訓練完了,再來勒?) 從網站上下載的範例檔與書內寫的又不太一樣, 那一大串被註解掉的code看起來才是關鍵部份但是uncomment之後卻不能跑。 naivebayes的部份更扯,只教你command line的training和testing,沒有classifying。 好不容易google到code之後發現使用方法跟SGD完全不一樣, 真無法理解為什麼他能完全跳過這部份,我才不相信搞分類的沒人在用naivebayes @覺得買得有價值嗎? Yes/No 看人,畢竟這是唯一一本教mahout的書 @如果給一到五顆星,你給幾顆? (*****) 如果你要用到mahout:**** 畢竟也只有這一本了 其他:* (註:如果要批評請就事論事,請勿出現人身攻擊。) 好吧,其實這篇是抱怨文~_~ mahout的官方文件也很少, 少到我覺得有人想學mahout叫他看官方網站的人真的有看過官方網站嗎? 看一看這本書,然後忘記官方網站吧,什麼都不會跟你講的 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 118.170.191.35

10/24 22:46, , 1F
open source communities more often communicate
10/24 22:46, 1F

10/24 22:46, , 2F
through mailing list or irc
10/24 22:46, 2F

10/24 22:48, , 3F
就算是多用mailing list也不會像那個官方網站來的少
10/24 22:48, 3F
※ 編輯: iceonly 來自: 118.170.191.35 (10/24 22:48)

10/25 21:19, , 4F
說真的 我覺得Mahout這樣還可以出書 已經算不錯了 我就是做
10/25 21:19, 4F

10/25 21:20, , 5F
Machine learning的 絕大部分的Open Source幾乎都沒有文件
10/25 21:20, 5F

10/25 21:20, , 6F
用起來就跟解謎一樣 你遲早必須要去Trace他們程式碼 把他AP
10/25 21:20, 6F

10/25 21:22, , 7F
I包到你程式中 而且Naive Bayes不需要用到Mahout 他計算條
10/25 21:22, 7F

10/25 21:23, , 8F
見機率的方式很簡單 自己寫即可可參考http://0rz.tw/Vzs81
10/25 21:23, 8F

10/25 21:25, , 9F
不然也可參考http://0rz.tw/sMRXU 只是這又是一個OpenSourc
10/25 21:25, 9F

10/25 21:26, , 10F
e 文件也很少 儘管他已經有十年 Sponsor有FBI也有SIRI所屬
10/25 21:26, 10F

10/25 21:27, , 11F
的CALO計畫 那又如何ML本來現在就屬於研究社群在用的東西
10/25 21:27, 11F

10/25 21:27, , 12F
唯一的方法就是自己看 我還真的想不出任何快速捷徑
10/25 21:27, 12F

10/25 22:50, , 13F
mahout 好處不是利用 mapreduce 分散計算能力嗎?
10/25 22:50, 13F

10/26 20:02, , 14F
我用weka刻出了一個classifier,然後因為資料太多爆掉了
10/26 20:02, 14F

10/26 20:03, , 15F
放了-Xmx8g跟我喊OOM
10/26 20:03, 15F

10/26 20:04, , 16F
weka的API跟mahout比起來算簡單的,還有範例檔可看
10/26 20:04, 16F

10/26 20:06, , 17F
另一方面是train出來的模型太大,很難做到realtime
10/26 20:06, 17F

10/26 20:09, , 18F
會動到hadoop生態環境的都是資料來源太大的關係
10/26 20:09, 18F

10/26 20:12, , 19F
是阿,我現在是trace他的test和他的command line script是
10/26 20:12, 19F

10/26 20:13, , 20F
怎麼寫的
10/26 20:13, 20F

10/26 20:15, , 21F
若是這樣 我的建議是 1.你應該調整特徵數 因為也不是所有特
10/26 20:15, 21F

10/26 20:16, , 22F
徵都有用 2.分類器不用一台分好幾類 你可以好幾個小的 再用
10/26 20:16, 22F

10/26 20:16, , 23F
一個大的串起來 3.去掉不具代表性的訓練文件 之所以這樣做
10/26 20:16, 23F

10/26 20:17, , 24F
主要是因為 訓練文件真的爆多也沒用 當超過一個門檻值 分類
10/26 20:17, 24F

10/26 20:18, , 25F
氣的效果就收斂了 所以真的無計可施的狀況下 建議才用MAHOU
10/26 20:18, 25F

10/26 20:18, , 26F
T
10/26 20:18, 26F

10/26 21:23, , 27F
13我考慮過了,2的話你是指像是先將900個target分成30群然
10/26 21:23, 27F

10/26 21:25, , 28F
後再將這30群當作target分類嗎(就是先30選1再30選1)
10/26 21:25, 28F

10/26 21:27, , 29F
目前我是做出30個分類器去分900個類別,只是效果實在很糟
10/26 21:27, 29F

10/26 21:36, , 30F
另外mahout的cnb用在範例上實在很威,也會幫你做tfidf之
10/26 21:36, 30F

10/26 21:37, , 31F
類的工作,其實挺棒的
10/26 21:37, 31F

10/26 21:55, , 32F
學懂後寫一本吧!
10/26 21:55, 32F
文章代碼(AID): #1GX_ugnH (Soft_Job)