Re: [最強] 多多軍號角響起!!!

看板home-sale作者 (123)時間8年前 (2016/05/03 09:40), 8年前編輯推噓19(1909)
留言28則, 22人參與, 最新討論串4/4 (看更多)
※ 引述《GuitarOcean (有為而無所求)》之銘言: : 上個月超忙的根本沒時間看房版, : 趁今天工工節來跑一下程式,結果不ey,ㄎ : 多多指數=> : 2015/ 7月: 204分 : 2015/ 8月: 180分 : 2015/ 9月: 166分 : 2015/10月: 150分 : 2015/11月: 176分 : 2015/12月: 173分 : 2016/ 1月: 183分 : 2016/ 2月: 327分 : 2016/ 3月: 277分 : 2016/ 4月: 354分 : ps: 等我餘屋陸續售完就公開程式在github,供大家回測驗證。 : ※ 引述《GuitarOcean (有為而無所求)》之銘言: : : update 2016/ 3月: 277分 : : 但我以另一種指標來跑,3月是可以到4xx分,不過還是算了,避免空空崩潰, : : 現實的風向已經出來了... : : 最近好忙,看房子的人真的變潮多der... 不好意思,小弟剛好是作數理統計分析相關的 雖然不是正統的資料工程師,但是基本的數學模型和應用還算了解 也有用預測模型並發表在國際期刊,看到大家不斷濫用大數據實在有點吐血 大概就是像生科的聽到負離子衣和材料的聽到奈米雞排一樣吧 在這邊澄清一些觀點 (有些中文可能翻譯有誤,因為我只學過英文) 有缺少的部份麻煩專業人士補充了 1. 大數據分析不是萬能的 如果大數據分析是萬能的,今天大家就不會去關注巴菲特或是索羅斯了 Google絕大部分的投資將是在股票和房地產 誰管Android系統那點蠅頭小利? 大數據分析錯誤最有名就是Google預測流行感冒的模型(Google flu treads) 從2008年登上Nature期刊後都有很精準的預測 直到2013年發生140%的嚴重誤差,失敗的結果也登上Science期刊 普遍被稱為大數據的傲慢 (Big data hubris) 2. 深度學習(Deep learning)並不是越深越好 機器學習上有一個重點是過度適應 (Overfitting) 概念就是當你過度趨近訓練資料(training set)時 可能會讓原本正確的判斷失誤 假設原本識別人臉的模型只看眼睛鼻子嘴巴耳朵 當模型過分深度學習後,可能會連毛細孔或鼻毛都算進去了 那今天我拿一張美肌後的圖可能就會被認為不是人臉 3. 演算法重要性遠不如資料量,資料清理(data cleaning),和特徵選取 (Feature selection) 已經有很多期刊比較過不同演算法的預測敏感度和專一性 結論都是演算法的差距遠比不上更多的資料量的差距 或是排除嚴重偏差值(outliers)及數值最佳化的方法 基本上從上面幾點來看,你的預測本身準確度就不是太好 外加有很多疑團 一般建一個模型需要訓練組,測試組和驗證組 你只列了不到一年的數據是指樣本數只有11嘛? 再好的統計法在這麼小樣本都不可能有好的結論 另外你有多少特徵(Features)用來建模? 像是看屋量,成交量,gdp,股票指數之類的 如果只有10-100個,那總共也只不過是100x11(樣本數)的計算量 我用過每個模型建幾萬個樣本都不用半小時 跑過夜你是寫了無窮迴圈嘛? 如果你有上千個特徵而樣本數比較小 那就一定會有過度適應的錯誤產生 當然你可以用降維的方法(PCA et.al )去修正 但是不管怎樣都不至於跑預測這麼久 另外那個數字到底是代表什麼意思? 你用什麼去測試和修正數字的準確度 模型預測沒有這麼莫名其妙的丟一個數字出來 應該會被一群教授電到飛天吧 就像前面好幾個網友提過的 你的程式碼根本不重要 把你的資料來源,輸入資料和輸出值的參考來源貼給我們就好 --- 我只是被我爸叫上來參考房屋價 結果莫名其妙打了一堆東西...... -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 209.37.189.242 ※ 文章網址: https://www.ptt.cc/bbs/home-sale/M.1462239604.A.5A4.html ※ 編輯: bleedwolf (209.37.189.242), 05/03/2016 09:42:43

05/03 09:43, , 1F
你的簽名檔好笑~~透露了原來你爸也是PTT鄉民嗎?
05/03 09:43, 1F

05/03 09:44, , 2F
用PSO GA選feature呢?大材小用?
05/03 09:44, 2F

05/03 09:46, , 3F
人家又不是在寫期刊論文..在悲憤什麼啊
05/03 09:46, 3F

05/03 09:49, , 4F
挖礦挖礦~
05/03 09:49, 4F

05/03 09:50, , 5F
果然到處有大神 PSO我還真的不知道
05/03 09:50, 5F

05/03 10:12, , 6F
為什麼要和沒路用的認真呢?
05/03 10:12, 6F

05/03 10:44, , 7F
用量能當指標 量大縮價也沒大跌 量增卻覺得價要增
05/03 10:44, 7F

05/03 10:44, , 8F
不就是只聽只看自己想要的東西而已
05/03 10:44, 8F

05/03 10:57, , 9F
這篇在講的可以在研究方法課程學到 但說模型差異不如資料
05/03 10:57, 9F

05/03 10:57, , 10F
量差異 這個結論是有前提的 建議附上出處比較實在
05/03 10:57, 10F

05/03 11:03, , 11F
結果才重要 其他通通不重要
05/03 11:03, 11F

05/03 11:04, , 12F
某些文章當他不存在就好,沒人理久了就會消失
05/03 11:04, 12F

05/03 11:17, , 13F
怕有人誤信啊,我爸看了賴宇凡的影片一直跟我吵不要吃
05/03 11:17, 13F

05/03 11:17, , 14F
降膽固醇藥,說什麼膽固醇是對人體有益的,都是醫師和
05/03 11:17, 14F

05/03 11:17, , 15F
藥廠在騙人吃藥,我怎麼說和拿醫學期刊給他都不聽,搞
05/03 11:17, 15F

05/03 11:17, , 16F
到我都要比他先中風了,網路和長輩line群好容易害人
05/03 11:17, 16F

05/03 11:28, , 17F
人們都不太願意去確認資訊的真實性
05/03 11:28, 17F

05/03 12:25, , 18F
釣出真正的高手惹
05/03 12:25, 18F

05/03 13:15, , 19F
你真的認真了,推你的簽名檔
05/03 13:15, 19F

05/03 14:06, , 20F
嗨 認真的人 賴XX真的很煩...
05/03 14:06, 20F

05/03 14:21, , 21F
挖礦挖到寶惹
05/03 14:21, 21F

05/03 18:33, , 22F
實在是太棒了,不得不推啊~
05/03 18:33, 22F

05/03 19:40, , 23F
推推推 講得很棒~!!
05/03 19:40, 23F

05/03 23:03, , 24F
推~
05/03 23:03, 24F

05/03 23:36, , 25F
真高手
05/03 23:36, 25F

05/04 07:20, , 26F
專業
05/04 07:20, 26F

05/04 20:45, , 27F
臉打的很響,,讚!
05/04 20:45, 27F

05/05 02:55, , 28F
好文,本版太多空酸跟偽多在放屁害人,實踐勝於鍵盤!
05/05 02:55, 28F
文章代碼(AID): #1NA05qMa (home-sale)
文章代碼(AID): #1NA05qMa (home-sale)