Re: [問卦] AI大數據分析是不是過譽了?
※ 引述《lpbrother (LP哥(LP = Love & Peace))》之銘言:
: 之前很多學校就喊說大數據分析怎樣的
: 但事實上目前唯一能夠應用的只有
: google 的搜尋分析
: google 就是分析大家搜尋的關鍵字推送最需要的網頁
: 但除此之外,
: 統計學家長期以來都得承認,
: 最困難的是如何證明兩組不同數據之間取得關聯性,
: 要不然就會鬧出類似
: 男人比出OK的手勢的圓圈大小等於他的睪丸大小
: 這種笑話
: 但是這種笑話一樣的數據分析論文到處都是,
: 根本沒有做到所謂的大數據分析的效果,
: AI大數據分析是不是過譽了?
: 有沒有八卦?
所以任何當前的機器學習模型都需要Data scientist來做前置性分析的啦。明星級的DS多
半是數學、統計、計算機科學交叉領域的專家,一個好的模型訓練集跟測試集必然存在獨
立同分佈,獨立同分佈是為了確保樣本足夠分散各類均勻又能代表真實分佈,因為分散均
勻若模型只看了其中8成比例數據必然能泛化剩下的兩成(這邊必然有數學上的驗證,由於
有大量數學引理就不贅述,可以從林軒田老師的基石課去找資源,關鍵字VC generalized
bound,進一步去找近年DL的學習性研究PAC-Bayes Bound,還有一個私心推薦寫得很好
的Paper: Deep Neural Network Approximation Theory,從Information theory角度切
入問題的,可以學到很多。)
剩下就是樣本是否代表真實數據的問題,所以DS必然需要了解客戶所謂的真實數據到底是
指什麼,再透過敘述性統計跟假設還有EDA確認學習的範圍。
最後一點針對不同分佈(domain)的學習也是近幾年各學者想攻破的,包含主動學習、元學
習、表示學習(是否我們還能再把數據透過自監督抽象化給不同領域的問題)、持續學習,
這些都是目前正在研究的方向,期望未來能讓機器有辦法真正舉一反三、看少量的數據
就可以學習、持續性學習而不遺忘。另外,還有一門領域是透過對生物腦的理解試圖建構
可以運作的仿生物腦模型,這一些都是近年學術的成果啦。
AI落地的路未來會很長,這是持續一兩個世紀的科學革命,現在只是革命前夕而已,我不
後悔作為科學家為人類演化的這一里路貢獻我的人生在研究上啦。我是不相信柏拉圖主義
那套哲學思路的,因為當代科學研究更偏向於靈魂可能與心智大腦是同一種表述的,透過
基因
即可建構任一的心智生物,那靈魂論就是多餘的了。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.216.133.166 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1634090039.A.609.html
→
10/13 09:56,
2年前
, 1F
10/13 09:56, 1F
※ 編輯: sxy67230 (49.216.133.166 臺灣), 10/13/2021 09:58:27
→
10/13 10:06,
2年前
, 2F
10/13 10:06, 2F
賺錢跟理想不一定不能全都要啊,不然真的當谷歌嫌錢多養一堆科學家做研究嗎?人家當
然也是再壓寶順便炒新聞衝股價。另外,也是真的在做落地打算,其實未來可以預見台灣
企業數據跟分析被全球化企業霸權掌握的趨勢。
推
10/13 10:09,
2年前
, 3F
10/13 10:09, 3F
※ 編輯: sxy67230 (49.216.133.166 臺灣), 10/13/2021 11:01:06
→
10/13 12:01,
2年前
, 4F
10/13 12:01, 4F
推
10/13 19:39,
2年前
, 5F
10/13 19:39, 5F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 3 篇):