[討論] Data Science

看板Statistics作者 (有沒有那麼雖阿~~~)時間10年前 (2014/06/03 12:14), 10年前編輯推噓18(18021)
留言39則, 18人參與, 最新討論串1/1
看到留學板20134篇CS or Statistics講到data scientist的文章, 身為統計人 我就把一些想法跟大家分享, 我目前在某個financial company當data scientist. 資料的處理量很大, 常常整理資料要從terabyte的資料挖我需要的資料去fit model. 不可否認我附近的data scientist幾乎都是CS背景的, 也有一些當相關領域的faculty過又回來敝公司工作. 我覺得data science應該分三個方面來講 1. Data Insight 2. Modeling 3. Software/Programming skills (省略Hardware..因為這是資源的問題) 對我來說, 統計的訓練主要是針對1,2; 3的話可以自己學習, 因為當data scientist不需要了解電腦太底層的理論會應用就好 程式語言練習久了自然就可以駕輕就熟, 我沒有修過Hadoop方面的課, 全都是自學的也可以被附近的大學找去教這方面的課程 這個連結作者講到Data scientist需要會的hard skills, http://nirvacana.com/thoughts/becoming-a-data-scientist/ 裡面的Subway圖我覺得最難的是2-4-5這條, 裡面最重要的是一些Modeling理論跟統計學, 這些基本功夫需要花時間去累積的, 如果可以早點念一些數學的課程, 真的會對念這些東西很有幫助, 而這些就是透過統計系的課程去學習, 然後因為要fit的資料一多 練習多一點經驗, 久了也可以累積一些Data Insight了. 統計給我的訓練就是這個主幹線訓練好了, 接下來就是要往旁枝末節的skill讓自己能透過自己的Data Insight 去找到要的資料進而去Modeling, 我自己來說大概會裡面的6-7成Orz...不過我想已經夠用了 有時候真的看到一些CS的人拿到資料就直接fit model說結果怎樣, 然後被我問到基本的問題就發現他們都不大管model的適用性問題.. 畫一個Histogram就可以看到資料有問題了, 不過他們不會去注意這些, 我想這就是統計人的價值, 我們可以看到的面向跟CS訓練的不大一樣. 我們念的理論"應該"相對來說也比較多這個才是最難訓練跟累積的.. 這需要好幾年把功力累積出來.. 我想板上的一些學長姐, 也有教授們都是這方面很強的.. 你會看到一些Hedge fund或一些大金融公司要做modeling的工作, fresh graduate 你會看到很多都是這些數學方面硬底子的人.. 找工作方面我覺得除了看connection跟自己的實力, 數學統計好的話, 是真的還蠻吃香的.. 不過以工作機會來說真的CS還是占美國的大宗. 這方面我之前有一篇找工作的文^^ 有被分享過來這個版就不多贅言了.. 針對Programming Skill來說, 主文的第七,八頁可以參考一下 http://www.oreilly.com/data/free/files/stratasurvey.pdf 就我看到Data scientist工作比較少用到Matlab, 反而Python跟R比較多 Python有一些平行計算的問題, 所以見仁見智 R的話做平行計算有很多Package,當然重點就是統計方面的modeling還是R建構的比較完整. 以下是我前幾個月跟朋友討論, 我對Data Tool的一些Comment (主觀意見 勿戰): 這是Strata 2013年對33個國家37個美國的州認為自己是做Data Scientist相關工作的問卷 (我猜是有在他們公司註冊的人送問卷請他們填寫的) 其中Data Tool,SQL是最高的(當然一堆公司的Data就是都放在資料庫.所以這個是基本的) SAS/SPSS做big data不知道優勢在哪, 在Strata conference我特地去聽SAS 某VP的報告.. 結果其實沒有很多人去聽他們怎麼做這方面的Infrastructure. Hadoop方面如果包含Pig, Hive應該有很大的成長工間. 不過 HIVE應該也可以跟SQL混在一起考慮才對,未來應該可以成長到第三名. Excel在第四名,有點意外,這個應該還會繼續掉才對,可能看結果才會用到..或者需要借助pivotal table分析與呈現才會用到.. 目前我不知道未來Excel可以怎麼分析big data. R跟python用的人比例差不多, 不過R比較偏向分析軟體所以Data Role用的比python Data role多,結果很make sense.. Java算不少人用,也會跟Hadoop綁在一起,因為Hadoop基本上是用Java架構出來的, 如果會Java/Python可以寫User Define Function應用更多 Mahout是machine learning/data mining針對big data建立出來的library, 我是覺得未來應該會爬到中間的位置. D3是啥 包含Tableau 跟 Ruby 我有看過不過這三個東西我摸都沒摸過Orz. 基本上我覺得based on SQL language的RDB很重要 加上R/Python, hadoop (pig, hive, hbase, oozie), mahout這些skill 應該可以繼續在江湖打滾很多年.. EXCEL, SAS/SPSS就....以後在這領域被淘汰的機會不小(理性勿戰) P.S 後來這幾個月, SAS好像有積極推在Yuan上面處理big data的platform, 最近他們很努力再Promote, 不過成效還是得看看, 可能板上會有人比我清楚 念理論的統計數學方面, 真的就是要受到一段時間的訓練最好有人帶入門, Programming花時間去摸也多去網上看別人的sample code 會讓自己增加這方面的功力 (R 的document 資源很多 我也是自己慢慢練到後來可以寫Package自己用的) 另外多去外面跟人討論, 我知道台灣其實有一些學弟妹有在經營R group, Linkedin 也有"很多"相關的group文章可以參考一下. 在NY 有一些regular events可以參加..我想別的地方應該也有.. 我比較常參加的是NY meetup http://www.meetup.com/ 例如本周有JP Morgan針對Data science的內容要做報告跟討論, 多去參加多去學習看別的Data Scientist怎麼去分析資料的 參加這些都一定有很大的幫助, 不只學習也可以Social. P.S Kaggle也偶爾可以看一下,看業界釋放出哪些資料做分析 統計其實占的重要性越來越大, 可以去看例如Harvard, Columbia 的GSAS Dean現在是統計人, 這都是以前沒有的! 另外文章裡面推文討論的NYU or CU哪個Data Science Program好, 其實見仁見智, 我也不便多表示意見, 畢竟有幾個老師我當過他們的TA或修過他們的課, 我覺得兩個學校的Connections都足夠,都可以幫助找到工作的 只是找工作花的時間長短而已. 多念點理論讓自己了解不要亂fit model後 花點時間摸一些軟體, 例如我是把R摸熟之後才開始用R去做平行計算 (Unix基本的要會) 進而學習到一些MapReduce的概念, 我一開始平行計算使用的工具是Condor/Torque, 後來慢慢的才去學Hadoop的.. 如果有機會可以學一些Java/C方面的課程我也強烈建議, 不過Data Scientist來說不是特別需要. 我可以code Java/C 可是主要就是做數學運算比較快, 不是要寫到物件導向那樣.. 讓我再選一次, 我還是覺得數學/統計這種硬理論的科學學好才是比較難訓練跟累積的, 我一樣會先去念這些課程 這些讓我看新方法來說都很快可以吸收,然後多分析資料 增加多一點資料的敏感度. P.S 有些不足, 我有空會再補強~不過這純粹是我的觀點 也希望有人可以指出我的不足 我這邊也列上我加入的幾個linked group,常有人在那邊post東西或問問題. http://ppt.cc/mQ83 (big data) http://ppt.cc/rqnH (big data) http://ppt.cc/2u6U (data scientist) http://ppt.cc/WhFR (KDnuggets Analytics, Data Mining, and Data Science) http://ppt.cc/p9D- (R Project) 當然還有一些Machine Learning的Page很多就自己google吧:) KDnuggets是算比較Active的group 我每天都會收到這個group的信... -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 108.53.78.19 ※ 文章網址: http://www.ptt.cc/bbs/Statistics/M.1401768864.A.425.html

06/03 12:48, , 1F
推!!
06/03 12:48, 1F

06/03 13:21, , 2F
推~
06/03 13:21, 2F

06/03 14:10, , 3F
06/03 14:10, 3F

06/03 14:45, , 4F
推~
06/03 14:45, 4F

06/03 18:04, , 5F
06/03 18:04, 5F

06/03 19:23, , 6F
推最後一段
06/03 19:23, 6F

06/03 19:29, , 7F
我這種老世代的人常常有個疑惑,到底data science 是什麼?
06/03 19:29, 7F

06/03 19:30, , 8F
聽過data scientist的演講,覺得他們的研究比較接近EE做的訊號
06/03 19:30, 8F

06/03 19:32, , 9F
處理或CS的ML.統計在裡面的角色其實很弱(就統計方法的novelty
06/03 19:32, 9F

06/03 19:33, , 10F
來說). 我現在常跟小朋友們警告,想站穩腳步,一定要有不可取代
06/03 19:33, 10F

06/03 19:35, , 11F
之處,這樣才不會在這個快速變化的領域被淘汰.現在因為潮,
06/03 19:35, 11F

06/03 19:36, , 12F
一堆學校開data science的課或學位來賺錢,目前市場還沒飽和
06/03 19:36, 12F

06/03 19:38, , 13F
進去很容易, 但是等到大量快速生產的data science畢業生進入
06/03 19:38, 13F

06/03 19:39, , 14F
市場, 屆時門檻要求就會變高了. 到時候不要變成寫程式寫不過
06/03 19:39, 14F

06/03 19:40, , 15F
CS專業的人,統計又做不過統計專業的人,淪落為second class
06/03 19:40, 15F

06/03 19:40, , 16F
data scientist.
06/03 19:40, 16F

06/03 19:46, , 17F
幾年前跟一位從學界(UW)到業界(eBay, EA, MS)的朋友聊
06/03 19:46, 17F

06/03 19:47, , 18F
他說其實他的工作用到的"統計方法"都很簡單,但是統計的訓練
06/03 19:47, 18F

06/03 19:48, , 19F
讓他對hypothesis formulation, data structure有比其他CS
06/03 19:48, 19F

06/03 19:49, , 20F
背景的人有更深刻的理解,更重要的是, 他很清楚要從複雜的資料
06/03 19:49, 20F

06/03 19:50, , 21F
結構抓什麼data才能回答什麼樣的問題,這樣抓的data會不會有
06/03 19:50, 21F

06/03 19:52, , 22F
bias,做的結論能generalize到什麼程度,都是統計人的直覺反應
06/03 19:52, 22F

06/03 19:55, , 23F
也是在這個市場統計人的優勢,只是很多小朋友本末倒置
06/03 19:55, 23F

06/03 19:56, , 24F
只知道追programming language卻忘了自己的根在統計
06/03 19:56, 24F
bmka大說的我很認同, 資料一多變成大海撈針, 怎麼要找到你要的東西印證你的猜想很重要 這真的就是我們強調的統計訓練才能學到的東西 CS來說 就我上面講的1,2,3 比較是偏向2,3 不過2理論部分沒有我們訓練紮實 我個人覺得Data Insight很重要, 這樣才不會浪費太多力氣還是Garbage in garbage out 還有一點就是在資料量爆炸的時代, 其實簡單的model不要搞得太複雜.. fit 對的又簡單的model 就夠了,不要另外花額外50分的努力只為了改進1~2% 有時候我覺得很沒有意義,任何東西就是結果會reverse to the mean.. 時間久了,新的資料進來多了,任何model結果其實不會差太多 不要很費心力去fit很困難的model.... 如果有注意幾年前Netflex competition的 他們希望有人可以把他們結果improve 10% 結果花了幾年的時間,真的有一個group達成了,當然我覺得他們方法有點作弊 就是參加好多次知道結果後再繼續based on current model再做,再加上別人的model 結果model 超複雜的, Netflex最後連implement都沒有,因為成本效益不合 可以把問題用簡單的model就解決,不要差太多就好了,不過這功力需要很深 我也還沒到那種境界, 不過我們的訓練可以找到該用的model 做出不差的結果 讓生活過得輕鬆點也好:)

06/03 19:59, , 25F
Anyways,這種討論很好,請原po繼續分享
06/03 19:59, 25F
我其實就是把我想的分享出來, 希望可以讓多一點人不要跟我一樣花很多時間 而沒有把該有的基礎打好,或太晚才了解數學/統計的重要, 我大學不是數學跟統計系更不是CS的.. 其實我大學畢業都沒啥coding,可能只有matlab SAS在修課的時候做簡單的coding (這證明coding真的自己學就好了:P ) 不過大二接觸 統計/data mining後 實在太有興趣了.. 最後發現我想要學會的東西基礎都在數學系裡面.. 就花了兩年多在數學系修課 (雖然也沒修得多好..不過有打下一些基礎).. 到後來念Phd才申請統計的, 我覺得我算蠻幸運的了! 如果有板友有問題想問也可以站內信回我, 希望可以幫到對這領域有興趣學弟妹的忙:)

06/03 22:30, , 26F
Excal應該是因為末端看報告的人在用所以很重要吧?
06/03 22:30, 26F
其實這幾年有一個Datameer軟體..就是完全類似Excel的操作介面.. 這軟體很多公司在用, 不過我用不習慣

06/03 23:13, , 27F
06/03 23:13, 27F

06/03 23:43, , 28F
大推!
06/03 23:43, 28F

06/04 05:17, , 29F
06/04 05:17, 29F
※ 編輯: LITTLEN (108.53.78.19), 06/04/2014 11:00:30

06/05 09:26, , 30F
推!
06/05 09:26, 30F

06/06 01:34, , 31F
哇!!!我是那篇文的原po,還好有來逛stat版~感謝你
06/06 01:34, 31F

06/06 01:34, , 32F
的回文!很棒!
06/06 01:34, 32F

06/06 01:40, , 33F
在大學生活的開端看到這篇文章實在是我的福氣
06/06 01:40, 33F

06/11 14:26, , 34F
大推!
06/11 14:26, 34F

06/11 20:02, , 35F
這篇寫的好棒
06/11 20:02, 35F

07/01 11:28, , 36F
大推 好實用的分享
07/01 11:28, 36F

07/07 00:42, , 37F
我自己在遊戲界的經驗是,用SQL做完大部分的資料整理
07/07 00:42, 37F

07/07 00:43, , 38F
剩下的東西都到excel基本上已經足回答所有商業問題了...
07/07 00:43, 38F

07/25 19:46, , 39F
兩年前的文章現在還是很受用!!推!!
07/25 19:46, 39F
文章代碼(AID): #1JZKkWGb (Statistics)