轉-【丰云】17 年一覺大數據,老名詞翻新再炒
【丰云】17 年一覺大數據,老名詞翻新再炒一輪
http://technews.tw/2017/06/03/big-data-taiwan/
台灣政府過去推出許多遠大口號,產業界往往是表面上不敢違逆,私底下傻眼、
嘲笑或痛罵,不過,不只政府會不斷創造口號,產業界自己也一樣,全球產業發
展史上,多的是無數定義不清、前景不明,連創造者自己都搞不清楚定義的口號
名詞,同一個名詞還會不斷改名,重複炮製,產業以外的一般民眾,往往被重複
糊弄了好幾次,還汲汲營營的跟著喊,以為有跟上最新口號就是有遠見、有大視
野,最慘的則是,連口號都已經過期了十幾年,還傻傻的繼續喊。
近來「大數據」與「滷肉飯」之爭,就是一個這種傻勁的典範,大數據是未來?
不,大數據本身就已經是 2000 年出現的名詞,光是「大數據」這 3 個字就已
有 17 年歷史,而與大數據相同概念的前身名詞,最早自 1959 年就已經提出,
相較之下,台灣知名、時常成為熱門網路討論話題的鬍鬚張滷肉飯,創業於
1960 年,當時還是路邊攤,也就是說,大數據比鬍鬚張滷肉飯還要古老。
事實上,整個數據分析的概念,還可推到更久遠,最起碼從迴歸分析問世就
應該開始起算,若是如此,那歷史得要往前推到史上留名的德國數學家高斯的
年代,那可是 19 世紀初的 1800 年代,台灣還要等超過一個世紀才會發明
滷肉飯(推測台灣滷肉飯是自日本時代改良品種誕生蓬萊米之後才出現,
蓬萊米發表於 1926 年)。
高斯雖然與勒壤得開啟了最早的迴歸分析,但當時顯然沒有電腦,一切都是
仰賴「人腦智慧」來運算、找出數據的迴歸模型,沒有所謂電腦演算法,所以
就把它們只算做是強調電腦運算的大數據的老祖宗。但 1959 年起,如今的
大數據概念就已經確實出現了。
十幾年來兩岸炒作大數據議題,只要是經歷超過 20 年的資深資訊業界人士,
一聽到大數據的說法,往往反射式的回應:這不就是所謂「機器學習」
(Machine Learning)或「資料探勘」(Data Mining)?
的確正是,美國人工智慧先驅亞瑟‧李‧山謬(Arthur Lee Samuel)
於 1959 年定義「機器學習」(Machine Learning),就是要發展演算法,
讓電腦人工智慧能在並未事先指定特別方向或任務的情況下,從大量資料中
找出資料中的關鍵之處或是異常之處,可以逐步學習,並具備預測能力。跟
現在的大數據定義大同小異。
機器學習也同時是另一個名詞「深度學習」(Deep Learning)的前身,
時間往後推到如今的 2016 年,產業界的運算能力使得機器學習可發揮驚人
的水準,其成就表現於 AlphaGo 以「深度學習」擊敗人類圍棋棋士,於是
「深度學習」又一時成為當紅的新名詞,其實不過就是過去被遺忘的機器學習。
如今深度學習已經開始應用於許多領域卓然有成,但 1959 年時,人類掌
握的運算能力還不足以讓機器學習產生太大的有意義成果,結果口號喊了以後
實質上成果有限,到 1960 年代,由於缺乏實績,統計學家嘲笑這種不設定預
設假說、只是丟進一堆數據就想分析出成果的想法是異想天開,跟挖爛泥巴沒
兩樣,貶稱為「資料釣魚」(data fishing)或「資料挖泥」(data dredging)。
機器學習這個名詞蒙塵,遭扔進爛泥堆,但是電腦科學家的理想不變,到了
1990 年,又發明了新名詞,這次叫「資料探勘」,強調從大量電腦資料中找
出關鍵或異常資訊的能力。其實,原本是要叫做「資料庫探勘」(Database Mining)
,很不幸的是,一家加州聖地牙哥電腦公司 HNC 已經為了其產品
「資料庫探勘工作站」(Database Mining Workstation)申請商標,為了避免侵
犯 HNC 商標,只好拿掉一個字,改叫資料探勘。同時還有許多其他講法,
如「資訊收割」、「資訊發掘」、「知識萃取」等。
資料探勘這個名詞風行了好幾年,也的確有許多應用,譬如在台灣,健保局於
健保 IC 卡化後,利用資料探勘,察覺出診所申報的看診情況異常,再針對這些異
常資料的診所進行實地檢查,果然發現其中有部分診所有詐騙健保的行逕,這就是
一個相當成功的資料探勘應用。但是,一個名詞從 1990 年開始喊,到了 2000 年
已經成了 10 歲的老名詞,又感覺不大新潮了。
全球的產業顧問界為了創造新流行,在 2000 年又重新發明一個新名詞,把本
來就行之有年、運轉順暢、穩定發展的資料探勘,重新包裝成「大數據」,2001年
,日後由顧能(Gartner)購併的市場研究公司麥塔集團(META Group),給了
大數據「3V」的定義,強調「巨量、即時、多樣」的資訊經由機器學習處理的應用
,其實本質上與過去的機器學習、資料探勘並無二致,日後顧能又基於「3V」小幅
修改、擴充對大數據的定義,但大體上沒有太大變動。
------------------------------------------------------------
以上的講法並不正確:
現在的大.......數據的定義是綜合以下:
Google, alphago, Hadoop 生態系統, NoSQL, Python scikit-lean,Scala, R...
CNN, BBC, NHK, Al Jazeera, KNN, SVM, baysian network,RL, LL, SL.....
線性回歸太小了.
1990年? google 在哪? python 在哪? 沒有它們, 算大數據嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.169.232.28
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1496497071.A.CE8.html
噓
06/03 21:48, , 1F
06/03 21:48, 1F
→
06/03 21:48, , 2F
06/03 21:48, 2F
→
06/03 21:57, , 3F
06/03 21:57, 3F
→
06/03 22:04, , 4F
06/03 22:04, 4F
推
06/03 22:09, , 5F
06/03 22:09, 5F
噓
06/03 22:18, , 6F
06/03 22:18, 6F
→
06/03 22:18, , 7F
06/03 22:18, 7F
推
06/03 22:19, , 8F
06/03 22:19, 8F
噓
06/03 22:22, , 9F
06/03 22:22, 9F
→
06/03 22:22, , 10F
06/03 22:22, 10F
→
06/03 22:22, , 11F
06/03 22:22, 11F
→
06/03 22:49, , 12F
06/03 22:49, 12F
噓
06/03 22:53, , 13F
06/03 22:53, 13F
→
06/03 22:58, , 14F
06/03 22:58, 14F
→
06/03 23:06, , 15F
06/03 23:06, 15F
→
06/03 23:08, , 16F
06/03 23:08, 16F
→
06/03 23:09, , 17F
06/03 23:09, 17F
→
06/03 23:09, , 18F
06/03 23:09, 18F
→
06/03 23:29, , 19F
06/03 23:29, 19F
→
06/04 00:12, , 20F
06/04 00:12, 20F
→
06/04 00:27, , 21F
06/04 00:27, 21F
→
06/04 00:50, , 22F
06/04 00:50, 22F
→
06/04 00:50, , 23F
06/04 00:50, 23F
→
06/04 00:50, , 24F
06/04 00:50, 24F
→
06/04 00:51, , 25F
06/04 00:51, 25F
→
06/04 00:51, , 26F
06/04 00:51, 26F
→
06/04 00:54, , 27F
06/04 00:54, 27F
推
06/04 08:10, , 28F
06/04 08:10, 28F
噓
06/04 08:32, , 29F
06/04 08:32, 29F
推
06/04 10:46, , 30F
06/04 10:46, 30F
噓
06/04 11:38, , 31F
06/04 11:38, 31F
噓
06/04 11:53, , 32F
06/04 11:53, 32F
噓
06/04 12:05, , 33F
06/04 12:05, 33F
推
06/04 13:10, , 34F
06/04 13:10, 34F
→
06/04 13:11, , 35F
06/04 13:11, 35F
→
06/04 13:11, , 36F
06/04 13:11, 36F
噓
06/04 13:43, , 37F
06/04 13:43, 37F
噓
06/04 15:07, , 38F
06/04 15:07, 38F
→
06/04 16:26, , 39F
06/04 16:26, 39F
推
06/04 18:33, , 40F
06/04 18:33, 40F
→
06/04 21:33, , 41F
06/04 21:33, 41F
→
06/04 22:07, , 42F
06/04 22:07, 42F
→
06/04 22:29, , 43F
06/04 22:29, 43F
→
06/05 02:53, , 44F
06/05 02:53, 44F
噓
06/05 10:05, , 45F
06/05 10:05, 45F
噓
06/07 13:52, , 46F
06/07 13:52, 46F
→
06/07 13:52, , 47F
06/07 13:52, 47F
推
06/10 09:08, , 48F
06/10 09:08, 48F
→
06/10 09:08, , 49F
06/10 09:08, 49F