[心得] 數據分析的心得

看板Python作者 (YhePttUser)時間3年前 (2021/04/01 19:59), 編輯推噓9(9034)
留言43則, 10人參與, 3年前最新討論串1/1
近來作了一些跟以前不一樣的分析,以前做的是大數據分析,我幾乎有100%的把握 訓練不會做得太爛。 但現在正在做材料分析,材料光一種成分組成,就需要一個製備過程,這製備過程 也影響到最終材料性質如何。不過非常幸運的是同事做的剛好就是在一個樣本上濺 鍍各種元素,所以可以一口氣得到非常多數據,製備條件基本上可以視為一樣, 這對做數據分析來說真的是一件好事,不過說數據非常多,其實大概也就400個數據。 我試了四種方法 做7 inputs => 5 outputs的訓練,沒有一個訓練可以很準確預測 真實值,大概是y = 1.2*x的程度,因此最近也正在研究怎麼使用小數據訓練出好的 模型,目前最好的是單純用NN,努力了好幾天還是找不出怎麼分析這種數據少的資 料。老實話真的不太容易,要請同事幫我做到一千個點的數據,他花的時間跟精力 大概是4倍。 所以這篇雖然我標註的是心得,不過是否有人知道對於這種小數據有沒有比較好的 分析方式? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.192.89.152 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1617278346.A.BFB.html

04/01 20:50, 3年前 , 1F
傳統機器學習方法:SVM、Tree structure嘗試過了嗎?
04/01 20:50, 1F

04/01 20:50, 3年前 , 2F
也許要考慮統計方法了
04/01 20:50, 2F

04/02 15:59, 3年前 , 3F
小樣本,推樓上
04/02 15:59, 3F

04/03 04:00, 3年前 , 4F
我覺得可能還需要考慮一點是,這個問題(元素配比如何影響
04/03 04:00, 4F

04/03 04:01, 3年前 , 5F
結合後的性質)是否真的是這些學習方式的模型能表達的
04/03 04:01, 5F

04/03 04:02, 3年前 , 6F
我對該領域不熟,雖然稍微Google了一點但也不能確定
04/03 04:02, 6F

04/03 04:02, 3年前 , 7F
所以舉例而言,如果只有很狹窄範圍的某種配比才能凸顯出特
04/03 04:02, 7F

04/03 04:03, 3年前 , 8F
定性質,一離開這範圍就會造成這種性質快速減弱。如果這種
04/03 04:03, 8F

04/03 04:04, 3年前 , 9F
情況很常見的話,這會導致模型要嘛很難學習準確,要嘛很容
04/03 04:04, 9F

04/03 04:04, 3年前 , 10F
易overfitting
04/03 04:04, 10F

04/03 09:52, 3年前 , 11F
樓上沒錯,材料分析就是有這問題,不過目前國外的確
04/03 09:52, 11F

04/03 09:53, 3年前 , 12F
有一批人在做元素成分的比例跟之後的材料性質
04/03 09:53, 12F

04/03 09:53, 3年前 , 13F
目前我看到的是在大約三種元素的調配下有不錯訓練
04/03 09:53, 13F

04/03 09:55, 3年前 , 14F
尤其是還要考慮到製備過程都可能讓長晶方式有差異
04/03 09:55, 14F

04/03 09:56, 3年前 , 15F
所以我目前只是先玩玩看,主要還是看能不能另闢蹊徑
04/03 09:56, 15F

04/03 10:01, 3年前 , 16F
另外回一樓tree我也做過了,訓練結果是第二好的
04/03 10:01, 16F

04/03 10:01, 3年前 , 17F
我再試試svm
04/03 10:01, 17F

04/03 20:25, 3年前 , 18F
考量製備過程真的就很複雜了,會不會有可能是與其去學習那
04/03 20:25, 18F

04/03 20:26, 3年前 , 19F
個不容易甚至根本學不了的模型,想辦法做出模擬系統反而直
04/03 20:26, 19F

04/03 20:26, 3年前 , 20F
接?XD
04/03 20:26, 20F

04/03 20:38, 3年前 , 21F
雖然模擬系統應該成本遠高且細節必須完全清楚XD
04/03 20:38, 21F

04/03 20:57, 3年前 , 22F
看完這段我只能說這個世代的數據分析已經跟我想的完全不同
04/03 20:57, 22F

04/03 20:57, 3年前 , 23F
04/03 20:57, 23F

04/03 21:00, 3年前 , 24F
你不覺得用物理模型去抓一些參數用在模型裡,或是設定資料
04/03 21:00, 24F

04/03 21:00, 3年前 , 25F
上下界,會比你完全放數字自由移動更好一點嗎?
04/03 21:00, 25F

04/04 01:10, 3年前 , 26F
除了model外, data部分可以參考oversampling像是SMOTE
04/04 01:10, 26F

04/04 01:10, 3年前 , 27F
可以參考這篇Kaggle文章
04/04 01:10, 27F

04/04 01:10, 3年前 , 28F
kaggle.com/rafjaa/dealing-with-very-small-datasets
04/04 01:10, 28F

04/04 01:12, 3年前 , 29F
如果是在深度學習的影像處理等領域
04/04 01:12, 29F

04/04 01:12, 3年前 , 30F
關鍵字Data Augmentation可以去看看
04/04 01:12, 30F

04/04 01:13, 3年前 , 31F
樣本數太少了 可以找簡單的模型試試看Logistic Regressio
04/04 01:13, 31F

04/04 01:13, 3年前 , 32F
n 決策樹
04/04 01:13, 32F

04/04 01:26, 3年前 , 33F
400個不能說真的很少, 但不推薦用NN 先從前面大家
04/04 01:26, 33F

04/04 01:27, 3年前 , 34F
提到的幾個比較基本的模型試試吧
04/04 01:27, 34F

04/05 11:49, 3年前 , 35F
可以試試看GAN 雖說訓練時間真的比較久 但是對於某
04/05 11:49, 35F

04/05 11:49, 3年前 , 36F
些類別成效是還不錯
04/05 11:49, 36F

04/05 12:35, 3年前 , 37F
請問樓上意指要用GAN 生成data嗎?
04/05 12:35, 37F

04/07 08:00, 3年前 , 38F
推22樓,小樣本分析要搭配domain資訊,而基本上400在
04/07 08:00, 38F

04/07 08:01, 3年前 , 39F
統計分析的領域也不算小了,搭配統計檢定來了解模型殘
04/07 08:01, 39F

04/07 08:01, 3年前 , 40F
差,賦予模型解釋能力。樣本不夠、資訊不夠就是加資訊
04/07 08:01, 40F

04/07 08:01, 3年前 , 41F
進去、更精細的了解模型。
04/07 08:01, 41F

04/07 19:27, 3年前 , 42F
我看到這個樣本數跟問題,第一個想到的不是NN。
04/07 19:27, 42F

04/07 19:27, 3年前 , 43F
是multinomial logistic regression
04/07 19:27, 43F
文章代碼(AID): #1WPRMAlx (Python)