Re: [最強] 多多軍號角響起!!!

看板home-sale作者bleedwolf (123)時間8年前 (2016/05/03 09:40)推噓19(19推 0噓 9→)

留言28則, 22人參與討論串4/4 (看更多)

※ 引述《GuitarOcean (有為而無所求)》之銘言： : 上個月超忙的根本沒時間看房版， : 趁今天工工節來跑一下程式，結果不ey，ㄎ : 多多指數=> : 2015/ 7月: 204分 : 2015/ 8月: 180分 : 2015/ 9月: 166分 : 2015/10月: 150分 : 2015/11月: 176分 : 2015/12月: 173分 : 2016/ 1月: 183分 : 2016/ 2月: 327分 : 2016/ 3月: 277分 : 2016/ 4月: 354分 : ps: 等我餘屋陸續售完就公開程式在github，供大家回測驗證。 : ※ 引述《GuitarOcean (有為而無所求)》之銘言： : : update 2016/ 3月: 277分 : : 但我以另一種指標來跑，3月是可以到4xx分，不過還是算了，避免空空崩潰， : : 現實的風向已經出來了... : : 最近好忙，看房子的人真的變潮多der... 不好意思，小弟剛好是作數理統計分析相關的雖然不是正統的資料工程師，但是基本的數學模型和應用還算了解也有用預測模型並發表在國際期刊，看到大家不斷濫用大數據實在有點吐血大概就是像生科的聽到負離子衣和材料的聽到奈米雞排一樣吧在這邊澄清一些觀點 (有些中文可能翻譯有誤，因為我只學過英文) 有缺少的部份麻煩專業人士補充了 1. 大數據分析不是萬能的如果大數據分析是萬能的，今天大家就不會去關注巴菲特或是索羅斯了 Google絕大部分的投資將是在股票和房地產誰管Android系統那點蠅頭小利? 大數據分析錯誤最有名就是Google預測流行感冒的模型(Google flu treads) 從2008年登上Nature期刊後都有很精準的預測直到2013年發生140%的嚴重誤差,失敗的結果也登上Science期刊普遍被稱為大數據的傲慢 (Big data hubris) 2. 深度學習(Deep learning)並不是越深越好機器學習上有一個重點是過度適應 (Overfitting) 概念就是當你過度趨近訓練資料(training set)時可能會讓原本正確的判斷失誤假設原本識別人臉的模型只看眼睛鼻子嘴巴耳朵當模型過分深度學習後，可能會連毛細孔或鼻毛都算進去了那今天我拿一張美肌後的圖可能就會被認為不是人臉 3. 演算法重要性遠不如資料量，資料清理(data cleaning)，和特徵選取 (Feature selection) 已經有很多期刊比較過不同演算法的預測敏感度和專一性結論都是演算法的差距遠比不上更多的資料量的差距或是排除嚴重偏差值(outliers)及數值最佳化的方法基本上從上面幾點來看，你的預測本身準確度就不是太好外加有很多疑團一般建一個模型需要訓練組，測試組和驗證組你只列了不到一年的數據是指樣本數只有11嘛？再好的統計法在這麼小樣本都不可能有好的結論另外你有多少特徵(Features)用來建模? 像是看屋量，成交量，gdp，股票指數之類的如果只有10-100個，那總共也只不過是100x11(樣本數)的計算量我用過每個模型建幾萬個樣本都不用半小時跑過夜你是寫了無窮迴圈嘛? 如果你有上千個特徵而樣本數比較小那就一定會有過度適應的錯誤產生當然你可以用降維的方法(PCA et.al )去修正但是不管怎樣都不至於跑預測這麼久另外那個數字到底是代表什麼意思? 你用什麼去測試和修正數字的準確度模型預測沒有這麼莫名其妙的丟一個數字出來應該會被一群教授電到飛天吧就像前面好幾個網友提過的你的程式碼根本不重要把你的資料來源，輸入資料和輸出值的參考來源貼給我們就好 --- 我只是被我爸叫上來參考房屋價結果莫名其妙打了一堆東西...... -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 209.37.189.242 ※ 文章網址: https://www.ptt.cc/bbs/home-sale/M.1462239604.A.5A4.html ※ 編輯: bleedwolf (209.37.189.242), 05/03/2016 09:42:43

推

HarryHTC

05/03 09:43, , 1^F

05/03 09:43, 1^F

推

achilles3875

05/03 09:44, , 2^F

05/03 09:44, 2^F

推

bbdirty5566

05/03 09:46, , 3^F

05/03 09:46, 3^F