Re: [請益] 想走DataMing這條路~請問該如何走
※ 引述《gn01838335 (kkmanplayer)》之銘言:
: 目前在職碩士班時期,接觸到data mining
: 認為挖掘大資料底下的黃金非常有興趣
: 想發展另一專長,之後到資策會在職養成班進修
: 而出了社會才知道讀書的可貴,想要好好把握這一年,進修英文和加強基礎能力
: 並且和公司談資遣(希望能請領失業補助,好好讀書XD,請公司裁我~~)
: 公司也願意鼓勵我讀書
: 和家人商談後和支持,白天有機會去日間部修課
: 如果想走DataMining這條路請問要怎麼走
: 未來也想走外商公司,希望業界的前輩能給予我建議
Data Scientist 的工作pay很好,時間也很彈性,工作也很有趣XD
基本上,你的工作就是去解決那些software developer(SD)沒辦法解決的問題
最常見的情境是"改善"舊有的solution
而最常見的是,每個人對於這個solution都有不同的看法(解法)
這時候你怎麼去說服別人你的解法比他們的好
讓我舉一個簡單(每天都會看到的例子)
Google Search的時候,有那個Autocomplete
你有沒有想過,那個清單是怎麼出來的
最早的第一個版本,當然是用很簡單的heuristic,例如這個字Y -> 最常出現在X之後
但這種簡單的方法只能給你"基本/尚可"的結果
你如果要把他變得看好,怎辦?
當然,很多manager/ PM都會有自己的idea
早期的年代,通常就是試看看這個idea,放出來
然後失敗? 成功?
但萬一公司有十幾個idea呢?全試嗎?
或是公司的主管是個豬頭(people manage != 技術好)
所以這幾年很多大公司開始主張
"let data speak"
講白一點,很像在唸碩士/博士做研究
你必須先提出個假設,然後驗證你的假設,最後實作一些簡單的實驗
用過去的歷史數據佐證你的想法(或修正)
最後進行小部份user的實驗,再推廣的production
也就是這幾年的趨勢,data driven (而不是誰官大誰贏)
所以一個data scientist可以推翻VP的決定,只要他拿的出數據證明
當然,硬要講下去,data driven可以包山包海
Google怎麼"調效" ranking algorithm, Amazon怎樣挑推薦商品
基本上什麼都算,如果你對這個有興趣,下列幾個conference 是你要follow的
KDD, WWW, WSDM, SIGIR, ...,甚至VLDB or NIPS都有很多有趣的研究
尤其是多注意一下Industrial Track,就會知道業界在幹麻
當然,不是什麼東西都會被發表(top secret?)
不過八九不離十了
上面是講在做什麼,接下來講一些常用的技能
前面大大有分享Swami的圖
http://nirvacana.com/thoughts/becoming-a-data-scientist/
基本上他描述的都對,不過真的要把那條路走完,沒那麼簡單(太多了啦)
不過最基本的
- 要會寫code,而且對unix環境工作很okay (hadoop一般都在unix上)
- 統計及基本的data mining要會
- 要能快速的prototyping(做實驗)
- 要會適度的嘴泡,有自己的想法(基本上你不是只要做,你還要想,給talk等等)
- 要會用hadoop等大資料分析,像是Cascading, Scalding, Scoobi, pig...
- 必要時需要一點R/Excel/…畫圖的工具
- 最好能有讀寫paper的能力,畢竟多和別人交流總是好事
(拿到履歷都是先看有沒發表個幾篇好paper,因為比只靠一小時的面試來挑人準)
(而且data scientist其實某些程度來說,需要你有研究能力,而不是只有coding)
- 能獨立作業,不需要太多的監都(基本上他們的主管只是cheer leader)
(幫忙他們安排資源及推掉不重要的事)
- 至於像是怎麼用avro,maven,那些基本SD的工具/技能,能有最好
但只要會基本得就行,不需要是專家
這幾年外商data scientist的缺不少(很多)
不過,on-job training or entry level給碩士的缺愈來愈少
很少有那種進來再訓練(進來都要訓練,但沒空給你幾年練功啦)
目前的行規,通常能滿足條件(過interview的)
通常比較常見到是好學校畢業的PhD(或是有相關經驗的碩/博士)
而且,不是光會寫paper就行,必需有業界經驗(intern?)懂hadoop,愛coding的
但對學術沒那麼大的熱情…最後不想走教職的
而且,不只是科技業
金融業硬要講,程式交易(Trading),只要用到大數據分析
基本上都會需要這種人
想當然而,好的data scientist不多
甚至"碪用"的都不太好找(因為需求很多)
錢呢?上glassdoor查一下就會知道,基本上算是非常優渥
因為不管是資深的SD轉data science
還是研究能力強的PhD補上coding/hadoop/技能
都很缺!因為很少學校/實驗室有那個資源去提供環境
因為缺,所以pay好,entry level年薪,整個package在矽谷
很容易就超過15萬鎂,高端一點的人才,輕鬆就可以破20萬鎂
不過要怎麼再往上爬,就各憑本事了
如果Work-life Balance你不在乎,只care 錢
如果願意賣肝進hedge fund,也聽過四五年後,升到senior
年收入含獎金就往百萬鎂邁進(當然,很操,而且能升到這都是更少數)
因為hedge fund只要你的model能賺錢,獎金絕對很敢發
或是有人start up 去了,像是2011年底,ebay才花了大錢,買了hunch
Hunch就是純以data mining為方向的start-up 公司
http://techcrunch.com/2011/11/21/ebayshunch/
還有很多例子需要用到data scientist,總而言之
目前這個工作,很夯,很缺,因為供給相對需求少很多?
為什麼供給很少?
(甚至stanford/mit/之流,通常也很少能提供big data研究的訓練)
因為,一方面valuable的user data很難拿
就算是query log,這年頭也不可能給你
光是要拿資料,就很難了
而這裡講的分析,都是從好幾百TB裡面跑實驗…
對學術界來說,有太多其它可以做的(而不需要花那麼重的成本在建在這種環境)
有沒有這種課?當然還是有(有需求就有)
只是上完課只是入門,離可用還久的很,舉個例
CS246@stanford ( http://cs246.stanford.edu/ ) by Dr. Jure Leskovec
不過他教的比較偏方法(Algorithm)
如果對工具(hadoop)有興趣,請follow http://hadoopsummit.org/
當然,這種工作目前都是外商居多,所以…英文口說聽力必備,不然怎麼過interview?
所以如果你想走這條路,英文也要既得順便補起來一下,以備不時之需XD
以上提一些方向,僅供參考,服用請自行判斷(小心)
至於過幾年後還會那麼熱門嗎?這只有天知道了。
不過我想(現在網路公司收集的)資料量愈來愈大,幾年內需求應該都仍然很強
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 67.188.141.238
※ 編輯: chucheng 來自: 67.188.141.238 (09/03 02:07)
推
09/03 02:00, , 1F
09/03 02:00, 1F
→
09/03 02:01, , 2F
09/03 02:01, 2F
→
09/03 02:01, , 3F
09/03 02:01, 3F
→
09/03 02:02, , 4F
09/03 02:02, 4F
→
09/03 02:02, , 5F
09/03 02:02, 5F
→
09/03 02:03, , 6F
09/03 02:03, 6F
→
09/03 02:04, , 7F
09/03 02:04, 7F
→
09/03 02:10, , 8F
09/03 02:10, 8F
→
09/03 02:10, , 9F
09/03 02:10, 9F
→
09/03 02:11, , 10F
09/03 02:11, 10F
→
09/03 02:11, , 11F
09/03 02:11, 11F
推
09/03 07:34, , 12F
09/03 07:34, 12F
→
09/03 07:34, , 13F
09/03 07:34, 13F
→
09/03 07:35, , 14F
09/03 07:35, 14F
推
09/03 08:04, , 15F
09/03 08:04, 15F
→
09/03 10:06, , 16F
09/03 10:06, 16F
→
09/03 10:06, , 17F
09/03 10:06, 17F
→
09/03 10:10, , 18F
09/03 10:10, 18F
→
09/03 10:10, , 19F
09/03 10:10, 19F
推
09/03 11:02, , 20F
09/03 11:02, 20F
→
09/03 11:03, , 21F
09/03 11:03, 21F
→
09/03 11:05, , 22F
09/03 11:05, 22F
推
09/03 11:13, , 23F
09/03 11:13, 23F
推
09/03 11:24, , 24F
09/03 11:24, 24F
推
09/03 11:51, , 25F
09/03 11:51, 25F
→
09/03 11:52, , 26F
09/03 11:52, 26F
→
09/03 12:19, , 27F
09/03 12:19, 27F
推
09/03 12:57, , 28F
09/03 12:57, 28F
推
09/03 21:19, , 29F
09/03 21:19, 29F
→
09/03 23:29, , 30F
09/03 23:29, 30F
推
09/04 00:20, , 31F
09/04 00:20, 31F
推
09/04 08:35, , 32F
09/04 08:35, 32F
→
09/05 11:05, , 33F
09/05 11:05, 33F
→
09/05 13:05, , 34F
09/05 13:05, 34F
→
09/05 13:06, , 35F
09/05 13:06, 35F
推
09/09 14:30, , 36F
09/09 14:30, 36F
推
09/11 22:00, , 37F
09/11 22:00, 37F
→
09/14 18:40, , 38F
09/14 18:40, 38F
討論串 (同標題文章)
完整討論串 (本文為第 3 之 3 篇):