作者查詢 / ddavid
作者 ddavid 在 PTT [ DataScience ] 看板的留言(推文), 共231則
限定看板:DataScience
看板排序:
全部TypeMoon9289H-GAME4300GO3873GameDesign2664FATE_GO2575JinYong2090FBG1867AC_In1774nobunyaga1708LoL1533Wrestle1251StarCraft879Poker815Python767Detective650CGI-Game645C_Chat531Steam414Old-Games345Magic338DMM_GAMES336OverWatch317Little-Games303C_and_CPP266historia256Inference253DataScience231WorldCup222RealPlaying221Programming196TRPG182ToS118Olympics_ISG114Expansion07109Prob_Solve90PathofExile85Salary53eSports47marvel41BattleRoyale35PUBG33C_Sharp30BlizzHeroes26NDS26SLG26NTUCCG25Palmar_Drama23politics23LeafKey18basketballTW17KanColle16Web_Design15ck51st31614Gossiping14PhD14NTU-Fantasy11mud10AndroidDev6Baseball6CS_IGO6KS92-3196AHQ4Ahqwestdoor4MATLAB4Toy4b885060xx3cat3CVS3HotBloodYuan3joke3LGS3NTUEE108HW3NTUVGC3SuperIdol3XiangSheng32nd_NTUCCC2AC_Music2b90902xxx2ck55th3332CLHS-50-142DummyHistory2FJU-ACC90a2FJU-AM-902GAMEMUSIC2japanavgirls2JD_Lover2KS93-3042NBA2NCCU08_SW2NTUST-DT92-12OrangeRoad2SC-91-3012SCU_Talk2tabletennis2talk2Viator94Ding2About_Clubs1AngelPray1b89902xxx1b92902xxx1C_GameBoard1CCU_COMM_ANT1cksh83rd3031CMWang1CSMU-MED901Dynasty1G-REX1HatePolitics1Hunter1KS94-3101Mabinogi1MobileComm1NDHU-His961PuzzleDragon1sex1SOFTSTAR1specialman1Sportcenter1SYSOP1WomenTalk1<< 收起看板(120)
1F推: 你如果真的很確定你的情況不適用max pooling,那就換成別10/17 19:16
2F→: 種如average-pooling啊,為什麼要硬用10/17 19:17
3F→: 或者每種pooling都跑多個不同參數測試看哪種好啊,也許你10/17 19:18
4F→: 所想的問題其實會在某些參數設定下緩解10/17 19:19
2F推: 如果能預料會持續有資料進來,或者資料分佈會隨時間有變動08/22 22:08
3F→: ,一開始就會採取具備incremental learning性質的方法了08/22 22:08
4F→: 其實現在很多ANN相關的方式都可以做到08/22 22:09
1F→: 整合的規則是什麼,超完美路徑的定義又是什麼都沒講啊07/09 12:32
8F推: 手臂位置多少會有關係,不過也有投手很刻意想辦法把不同球03/02 15:56
9F→: 種練到手臂位置差不多,增加打者分辨的難度03/02 15:57
10F→: 事實上就打者的角度,想要更早一點看出球路,就是想盡辦法03/02 15:58
11F→: 從手臂、手掌、出手點甚至到準備動作微小習慣差異去判斷03/02 15:59
12F→: 而投手也會想辦法掩飾修正這些差異03/02 16:00
13F→: 所以就這問題來說,我們應該是一球一球給它正確的球種答案03/02 16:01
14F→: ,期待學習出來的模型能夠找得出不同球種間的差異而能分辨03/02 16:01
15F→: 我們不應該先行猜想手臂到底跟球種有沒有關聯性,而是讓模03/02 16:02
16F→: 型去找找看關聯性存不存在03/02 16:02
17F→: 另外,這些關聯性高機率每個投手都不一樣,當然你要嘗試找03/02 16:04
18F→: 所有投手會不會也多少有什麼共通性也是可以嘗試,但就背景03/02 16:04
19F→: 知識來看可能相對不容易找出有意義結論,先以單一投手個別03/02 16:05
20F→: 建立模型可能比較有機會03/02 16:05
22F推: 沒實際用過,居然有這事啊XD03/03 14:47
1F推: 等等,在你說的理想之前,先要考慮一件事情:所謂的分群(02/18 17:11
2F推: Clustering)跟分類(Classification)有關鍵性的差異02/18 17:13
3F→: 在你這串開頭第一篇中講了「經常會透過分團(Clique,02/18 17:14
4F→: cluster analysis) 來將數據做分類」,我認為這邊用詞要更02/18 17:14
5F→: 明確小心些,因為你同時講了分群又講了分類02/18 17:15
6F→: 然後講回到分群,基本上是非監督式學習為主,所以事實上分02/18 17:15
7F→: 群是沒有唯一標準的,所以「必然」不會有所謂「分群就是在02/18 17:17
8F→: 找xxx」中的唯一xxx存在02/18 17:17
10F推: 一般初接觸Clustering,往往會看到「分群是讓同一群的點盡02/18 17:22
11F→: 量相似,而不同群的點盡量不相似」之類的粗略入門介紹,但02/18 17:23
12F→: 光是這句話就未必是絕對的02/18 17:25
13F推: 所以原Po你所提到的方向,只能說可以建立出「一種分群方式02/18 17:29
14F→: 」,而無法說「分群就是這個」02/18 17:30
15F推: 像k-means跟DBSCAN找出的分群天差地遠,但不能說誰比較對02/18 17:34
16F→: ,所謂的對稱性也沒有必然存在,分群是可以在有向圖的點上02/18 17:35
17F→: 進行的02/18 17:37
18F推: Clustering的主要目標本來也就不是要找出肯定的結論,反而02/18 17:49
19F→: 是偏重在分割之後能幫助到後續分析就是有益的分群了02/18 17:50
24F推: 有些分群方法有自己的特點,並不是可以用同樣方法加速的02/25 14:57
25F推: 你可能沒有考慮到有很多分群演算法根本跟對角化一丁點關係02/25 15:00
26F→: 都沒有,甚至連同一群的instances要彼此相似這種限制都不02/25 15:01
27F→: 存在02/25 15:01
28F→: 所謂分群的好壞也沒有絕對性,是依據後續應用而定02/25 15:05
5F推: 還在念博士時有做過用PTT文章預測投票票數的,當時結果很02/07 02:30
6F→: 神奇地好。不過預測推噓文,直覺上要好會需要用手段補充外02/07 02:31
7F→: 在背景知識02/07 02:31
8F→: 總之這題目確實挺有趣的02/07 02:32
9F→: 另外,其實我認為發文作者是其中一個鑑別力很強的feature02/07 02:33
10F→: ,這邊沒有提供XD02/07 02:33
14F推: 提供作者有個重點是可以查詢上站次數跟文章次數,而這兩項02/14 21:59
15F→: 我認為是很重要的特徵02/14 21:59
16F→: 舉一個已經有實用經驗的例子,Youtube的自動判斷機制在接02/14 22:00
17F→: 到影片舉報時,他們研究發現最有辨別能力的特徵就是發該影02/14 22:01
18F→: 片的使用者是否是很新的帳號,若是則大機率真的是問題影片02/14 22:01
19F→: 而針對PTT,我個人的觀察是去看 文章篇數/上站次數 這個比02/14 22:02
20F→: 值,對於文章是不是廢文的機率也有高辨識度02/14 22:02
21F→: 若這個比值達到1以上,越高就越可能是廢文02/14 22:03
22F→: 但如果比值大約在0.5前後,則相對用心發文的機率較高02/14 22:03
23F→: 比值若很接近0(也就是發文很少上站很多),又會反過來變02/14 22:04
24F→: 成內容不足的機率提升,但狀況相對比值高於1的輕微02/14 22:05
25F推: 另外取得作者還有一項判斷依據,就是有些人可能在特定版面02/14 22:08
26F→: 容易被噓但在別的特定版面容易被推,先不提所謂政治傾向,02/14 22:09
27F→: 那種在棒球版是大師但在遊戲版是廢文王的情況02/14 22:11
28F→: 也是很常見,所以使用者名稱搭配文章發表版面會是一組可能02/14 22:12
29F→: 不錯的特徵02/14 22:12
1F推: 推,這種比賽確實常常會贏在多一個有用獨家招數01/22 19:42
1F推: 你是不是根本沒搞懂K-means是啥?基本上你就把算出來的各12/03 23:20
2F→: 群中心點拿去分新資料就可以了啊。12/03 23:21
1F推: 基本上稀疏矩陣就會用特定的稀疏矩陣資料結構去存,不要存12/03 11:49
2F→: 一大堆無意義的0,空間會節省非常多12/03 11:49
3F→: [0,1,0,0,0,0,1]在資料結構內部會類似1:1,6:1的方式在存12/03 11:51
4F→: 當然做法也不只一種,自行Google 稀疏矩陣資料結構 有很多12/03 11:51
5F→: 資訊可以參考12/03 11:52
6F→: 或是你用特定framework就加上該關鍵字去查詢該framework有12/03 11:52
7F→: 支援的稀疏矩陣處理方式12/03 11:52
14F推: 基本上就是要採用I/O都支援稀疏矩陣的Framework吧12/03 13:53
15F→: 像這篇:12/03 13:55
16F→: https://bit.ly/39A4FnE12/03 13:55
17F→: 裡面就明確提到用sklearn的PCA輸入是稀疏,但輸出不是,那12/03 13:55
18F→: 自然你就可能在輸出上遭遇這個問題12/03 13:56
19F→: 所以要嘛去找更符合需求的Framework,不然就自己改12/03 13:56
20F→: 不過kmeans好像比較麻煩吧,就算輸入是稀疏,但途中計算只12/03 13:57
21F→: 要一個平均算中心點就都不稀疏了。12/03 13:59
22F推: 所以如果直接保持用矩陣一次運算,即便k值不大,也很可能12/03 14:01
23F→: 在運算過程中的某個時間點爆記憶體。12/03 14:01
24F→: 不過k-means這麼簡單的東西,可以自己手寫一個跑迴圈一點12/03 14:02
25F→: 點處理的版本,就很容易避開記憶體用量的問題,只不過可能12/03 14:02
26F→: 會在速度上付出代價12/03 14:03
27F→: 寫得好,記憶體用量就可以控制在只記錄k個中心點的值(非12/03 14:04
28F→: 稀疏)以及所有點當下所屬的cluster12/03 14:04
29F→: 如果資料筆數為n,維度為m,cluster數量為k,用量就可以精12/03 14:05
30F→: 確控制在km + n + 少量運算暫存(大約是m)吧12/03 14:06
1F→: overlap多反而不混亂吧,就相關領域啊11/09 09:54
2F→: 你也不會覺得微積分跟線性代數都用到加減乘除很混亂11/09 09:55
3F→: 更重要的事,這種事情你課堂或下課後就可以問老師馬上得到11/09 09:56
4F→: 不錯的答案了XD11/09 09:57