Re: [請益] 想走DataMing這條路~請問該如何走

看板Soft_Job作者 (時間太少事情太多)時間10年前 (2013/09/03 01:46), 編輯推噓13(13025)
留言38則, 19人參與, 最新討論串3/3 (看更多)
※ 引述《gn01838335 (kkmanplayer)》之銘言: : 目前在職碩士班時期,接觸到data mining : 認為挖掘大資料底下的黃金非常有興趣 : 想發展另一專長,之後到資策會在職養成班進修 : 而出了社會才知道讀書的可貴,想要好好把握這一年,進修英文和加強基礎能力 : 並且和公司談資遣(希望能請領失業補助,好好讀書XD,請公司裁我~~) : 公司也願意鼓勵我讀書 : 和家人商談後和支持,白天有機會去日間部修課 : 如果想走DataMining這條路請問要怎麼走 : 未來也想走外商公司,希望業界的前輩能給予我建議 Data Scientist 的工作pay很好,時間也很彈性,工作也很有趣XD 基本上,你的工作就是去解決那些software developer(SD)沒辦法解決的問題 最常見的情境是"改善"舊有的solution 而最常見的是,每個人對於這個solution都有不同的看法(解法) 這時候你怎麼去說服別人你的解法比他們的好 讓我舉一個簡單(每天都會看到的例子) Google Search的時候,有那個Autocomplete 你有沒有想過,那個清單是怎麼出來的 最早的第一個版本,當然是用很簡單的heuristic,例如這個字Y -> 最常出現在X之後 但這種簡單的方法只能給你"基本/尚可"的結果 你如果要把他變得看好,怎辦? 當然,很多manager/ PM都會有自己的idea 早期的年代,通常就是試看看這個idea,放出來 然後失敗? 成功? 但萬一公司有十幾個idea呢?全試嗎? 或是公司的主管是個豬頭(people manage != 技術好) 所以這幾年很多大公司開始主張 "let data speak" 講白一點,很像在唸碩士/博士做研究 你必須先提出個假設,然後驗證你的假設,最後實作一些簡單的實驗 用過去的歷史數據佐證你的想法(或修正) 最後進行小部份user的實驗,再推廣的production 也就是這幾年的趨勢,data driven (而不是誰官大誰贏) 所以一個data scientist可以推翻VP的決定,只要他拿的出數據證明 當然,硬要講下去,data driven可以包山包海 Google怎麼"調效" ranking algorithm, Amazon怎樣挑推薦商品 基本上什麼都算,如果你對這個有興趣,下列幾個conference 是你要follow的 KDD, WWW, WSDM, SIGIR, ...,甚至VLDB or NIPS都有很多有趣的研究 尤其是多注意一下Industrial Track,就會知道業界在幹麻 當然,不是什麼東西都會被發表(top secret?) 不過八九不離十了 上面是講在做什麼,接下來講一些常用的技能 前面大大有分享Swami的圖 http://nirvacana.com/thoughts/becoming-a-data-scientist/ 基本上他描述的都對,不過真的要把那條路走完,沒那麼簡單(太多了啦) 不過最基本的 - 要會寫code,而且對unix環境工作很okay (hadoop一般都在unix上) - 統計及基本的data mining要會 - 要能快速的prototyping(做實驗) - 要會適度的嘴泡,有自己的想法(基本上你不是只要做,你還要想,給talk等等) - 要會用hadoop等大資料分析,像是Cascading, Scalding, Scoobi, pig... - 必要時需要一點R/Excel/…畫圖的工具 - 最好能有讀寫paper的能力,畢竟多和別人交流總是好事 (拿到履歷都是先看有沒發表個幾篇好paper,因為比只靠一小時的面試來挑人準) (而且data scientist其實某些程度來說,需要你有研究能力,而不是只有coding) - 能獨立作業,不需要太多的監都(基本上他們的主管只是cheer leader) (幫忙他們安排資源及推掉不重要的事) - 至於像是怎麼用avro,maven,那些基本SD的工具/技能,能有最好 但只要會基本得就行,不需要是專家 這幾年外商data scientist的缺不少(很多) 不過,on-job training or entry level給碩士的缺愈來愈少 很少有那種進來再訓練(進來都要訓練,但沒空給你幾年練功啦) 目前的行規,通常能滿足條件(過interview的) 通常比較常見到是好學校畢業的PhD(或是有相關經驗的碩/博士) 而且,不是光會寫paper就行,必需有業界經驗(intern?)懂hadoop,愛coding的 但對學術沒那麼大的熱情…最後不想走教職的 而且,不只是科技業 金融業硬要講,程式交易(Trading),只要用到大數據分析 基本上都會需要這種人 想當然而,好的data scientist不多 甚至"碪用"的都不太好找(因為需求很多) 錢呢?上glassdoor查一下就會知道,基本上算是非常優渥 因為不管是資深的SD轉data science 還是研究能力強的PhD補上coding/hadoop/技能 都很缺!因為很少學校/實驗室有那個資源去提供環境 因為缺,所以pay好,entry level年薪,整個package在矽谷 很容易就超過15萬鎂,高端一點的人才,輕鬆就可以破20萬鎂 不過要怎麼再往上爬,就各憑本事了 如果Work-life Balance你不在乎,只care 錢 如果願意賣肝進hedge fund,也聽過四五年後,升到senior 年收入含獎金就往百萬鎂邁進(當然,很操,而且能升到這都是更少數) 因為hedge fund只要你的model能賺錢,獎金絕對很敢發 或是有人start up 去了,像是2011年底,ebay才花了大錢,買了hunch Hunch就是純以data mining為方向的start-up 公司 http://techcrunch.com/2011/11/21/ebayshunch/ 還有很多例子需要用到data scientist,總而言之 目前這個工作,很夯,很缺,因為供給相對需求少很多? 為什麼供給很少? (甚至stanford/mit/之流,通常也很少能提供big data研究的訓練) 因為,一方面valuable的user data很難拿 就算是query log,這年頭也不可能給你 光是要拿資料,就很難了 而這裡講的分析,都是從好幾百TB裡面跑實驗… 對學術界來說,有太多其它可以做的(而不需要花那麼重的成本在建在這種環境) 有沒有這種課?當然還是有(有需求就有) 只是上完課只是入門,離可用還久的很,舉個例 CS246@stanford ( http://cs246.stanford.edu/ ) by Dr. Jure Leskovec 不過他教的比較偏方法(Algorithm) 如果對工具(hadoop)有興趣,請follow http://hadoopsummit.org/ 當然,這種工作目前都是外商居多,所以…英文口說聽力必備,不然怎麼過interview? 所以如果你想走這條路,英文也要既得順便補起來一下,以備不時之需XD 以上提一些方向,僅供參考,服用請自行判斷(小心) 至於過幾年後還會那麼熱門嗎?這只有天知道了。 不過我想(現在網路公司收集的)資料量愈來愈大,幾年內需求應該都仍然很強 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 67.188.141.238 ※ 編輯: chucheng 來自: 67.188.141.238 (09/03 02:07)

09/03 02:00, , 1F
這篇說得好
09/03 02:00, 1F

09/03 02:01, , 2F
個人認為在應用到實務上還需要懂商業流程
09/03 02:01, 2F

09/03 02:01, , 3F
知道哪些人有甚麼資料 哪些人需要甚麼資料
09/03 02:01, 3F

09/03 02:02, , 4F
知道資料之間的商業規則為何 才能真的apply到實務
09/03 02:02, 4F

09/03 02:02, , 5F
否則會像是閉門造車 花時間寫了一堆很好的演算法
09/03 02:02, 5F

09/03 02:03, , 6F
結果沒人知道那價值是什麼 也沒人知道你有多厲害
09/03 02:03, 6F

09/03 02:04, , 7F
就因為你reach不到別人
09/03 02:04, 7F

09/03 02:10, , 8F
這些通常就是Scientist合作的PM或是Manager幫忙補上
09/03 02:10, 8F

09/03 02:10, , 9F
所以某些程度不能是怪咖,team work仍然很重要
09/03 02:10, 9F

09/03 02:11, , 10F
沒人能懂所有的東西,不過interview很少(難)問出非技術
09/03 02:11, 10F

09/03 02:11, , 11F
的能力就是了
09/03 02:11, 11F

09/03 07:34, , 12F
想請問一下,所謂"基本的Data Mining"應該是指一般學校會
09/03 07:34, 12F

09/03 07:34, , 13F
學到的統計分析吧?那"進階"的是哪些?
09/03 07:34, 13F

09/03 07:35, , 14F
看內文似乎是,加入一些演算法,再以原始數據作為佐證,是嗎?
09/03 07:35, 14F

09/03 08:04, , 15F
感謝分享
09/03 08:04, 15F

09/03 10:06, , 16F
這篇講的是國外的情況吧 google search auto complete
09/03 10:06, 16F

09/03 10:06, , 17F
背後的演算法引擎也不是台灣做的
09/03 10:06, 17F

09/03 10:10, , 18F
樓主如果是想進台灣google的話 可能多鑽研一點android
09/03 10:10, 18F

09/03 10:10, , 19F
嵌入式 機會還比較高吧
09/03 10:10, 19F

09/03 11:02, , 20F
Association rule, Classification, Clustering很基本的
09/03 11:02, 20F

09/03 11:03, , 21F
進階sequential pattern或結合neuro network
09/03 11:03, 21F

09/03 11:05, , 22F
基礎的一些方法都了解後 再研究當中各種不同的演算法
09/03 11:05, 22F

09/03 11:13, , 23F
謝謝您的分享
09/03 11:13, 23F

09/03 11:24, , 24F
統計的東西可多了吧 XD
09/03 11:24, 24F

09/03 11:51, , 25F
方法很多工具也很多 hadoop我覺得也不是唯一...
09/03 11:51, 25F

09/03 11:52, , 26F
其實整個很廣DM分歧... 專精一到兩條就很夠用了....:x
09/03 11:52, 26F

09/03 12:19, , 27F
請問台灣哪家外商有開data scientist的缺?
09/03 12:19, 27F

09/03 12:57, , 28F
有同學在台灣TM做Data mining
09/03 12:57, 28F

09/03 21:19, , 29F
推專業文
09/03 21:19, 29F

09/03 23:29, , 30F
推~感謝分享~~
09/03 23:29, 30F

09/04 00:20, , 31F
所以還是要先花五年拼PhD再拿data scientist的門票就是了
09/04 00:20, 31F

09/04 08:35, , 32F
Berkeley最近有開Data Science碩士學位,都是on-line的。
09/04 08:35, 32F

09/05 11:05, , 33F
哭哭~我看來要真的先拼phd
09/05 11:05, 33F

09/05 13:05, , 34F
PhD是不歸路,怨念很深,沒想清楚不要開始(見PhD版)
09/05 13:05, 34F

09/05 13:06, , 35F
而且五年是"樂觀",我看過很多六年七年八年的
09/05 13:06, 35F

09/09 14:30, , 36F
結論就是去美國矽谷工作.....
09/09 14:30, 36F

09/11 22:00, , 37F
推!專業文,很實用,增進不少相關知識!
09/11 22:00, 37F

09/14 18:40, , 38F
過度強調hadoop ... 說一下你到底分析什麼事情吧
09/14 18:40, 38F
文章代碼(AID): #1I9CxiGr (Soft_Job)
文章代碼(AID): #1I9CxiGr (Soft_Job)