作者查詢 / ddavid

總覽項目：發文 | 留言 | 暱稱

作者 ddavid 在 PTT [ DataScience ] 看板的留言(推文), 共231則

限定看板：DataScience

看板排序：

全部TypeMoon9289H-GAME4300GO3873GameDesign2664FATE_GO2575JinYong2090FBG1867AC_In1774nobunyaga1708LoL1533Wrestle1251StarCraft879Poker815Python767Detective650CGI-Game645C_Chat531Steam414Old-Games345Magic338DMM_GAMES336OverWatch317Little-Games303C_and_CPP266historia256Inference253DataScience231WorldCup222RealPlaying221Programming196TRPG182ToS118Olympics_ISG114Expansion07109Prob_Solve90PathofExile85Salary53eSports47marvel41BattleRoyale35PUBG33C_Sharp30BlizzHeroes26NDS26SLG26NTUCCG25Palmar_Drama23politics23LeafKey18basketballTW17KanColle16Web_Design15ck51st31614Gossiping14PhD14NTU-Fantasy11mud10AndroidDev6Baseball6CS_IGO6KS92-3196AHQ4Ahqwestdoor4MATLAB4Toy4b885060xx3cat3CVS3HotBloodYuan3joke3LGS3NTUEE108HW3NTUVGC3SuperIdol3XiangSheng32nd_NTUCCC2AC_Music2b90902xxx2ck55th3332CLHS-50-142DummyHistory2FJU-ACC90a2FJU-AM-902GAMEMUSIC2japanavgirls2JD_Lover2KS93-3042NBA2NCCU08_SW2NTUST-DT92-12OrangeRoad2SC-91-3012SCU_Talk2tabletennis2talk2Viator94Ding2About_Clubs1AngelPray1b89902xxx1b92902xxx1C_GameBoard1CCU_COMM_ANT1cksh83rd3031CMWang1CSMU-MED901Dynasty1G-REX1HatePolitics1Hunter1KS94-3101Mabinogi1MobileComm1NDHU-His961PuzzleDragon1sex1SOFTSTAR1specialman1Sportcenter1SYSOP1WomenTalk1<< 收起看板(120)

首頁

尾頁

[問題] max pooling的梯度問題

[ DataScience ]23 留言, 推噓總分: +2

作者: subgn - 發表於 2021/10/17 18:07(4年前)

1^F推ddavid: 你如果真的很確定你的情況不適用max pooling，那就換成別10/17 19:16

2^F→ddavid: 種如average-pooling啊，為什麼要硬用10/17 19:17

3^F→ddavid: 或者每種pooling都跑多個不同參數測試看哪種好啊，也許你10/17 19:18

4^F→ddavid: 所想的問題其實會在某些參數設定下緩解10/17 19:19

[問題] 機器學習 re-training

[ DataScience ]4 留言, 推噓總分: +2

作者: ctr1 - 發表於 2021/08/21 23:20(4年前)

2^F推ddavid: 如果能預料會持續有資料進來，或者資料分佈會隨時間有變動08/22 22:08

3^F→ddavid: ，一開始就會採取具備incremental learning性質的方法了08/22 22:08

4^F→ddavid: 其實現在很多ANN相關的方式都可以做到08/22 22:09

路徑演算法已刪文

[ DataScience ]3 留言, 推噓總分: -2

作者: kero961240 - 發表於 2021/07/09 10:59(4年前)

1^F→ddavid: 整合的規則是什麼，超完美路徑的定義又是什麼都沒講啊07/09 12:32

[問題] 新手openpose與深度學習問題

[ DataScience ]23 留言, 推噓總分: +5

作者: kuku951 - 發表於 2021/02/14 19:03(5年前)

8^F推ddavid: 手臂位置多少會有關係，不過也有投手很刻意想辦法把不同球03/02 15:56

9^F→ddavid: 種練到手臂位置差不多，增加打者分辨的難度03/02 15:57

10^F→ddavid: 事實上就打者的角度，想要更早一點看出球路，就是想盡辦法03/02 15:58

11^F→ddavid: 從手臂、手掌、出手點甚至到準備動作微小習慣差異去判斷03/02 15:59

12^F→ddavid: 而投手也會想辦法掩飾修正這些差異03/02 16:00

13^F→ddavid: 所以就這問題來說，我們應該是一球一球給它正確的球種答案03/02 16:01

14^F→ddavid: ，期待學習出來的模型能夠找得出不同球種間的差異而能分辨03/02 16:01

15^F→ddavid: 我們不應該先行猜想手臂到底跟球種有沒有關聯性，而是讓模03/02 16:02

16^F→ddavid: 型去找找看關聯性存不存在03/02 16:02

17^F→ddavid: 另外，這些關聯性高機率每個投手都不一樣，當然你要嘗試找03/02 16:04

18^F→ddavid: 所有投手會不會也多少有什麼共通性也是可以嘗試，但就背景03/02 16:04

19^F→ddavid: 知識來看可能相對不容易找出有意義結論，先以單一投手個別03/02 16:05

20^F→ddavid: 建立模型可能比較有機會03/02 16:05

22^F推ddavid: 沒實際用過，居然有這事啊XD03/03 14:47

Re: [討論] 分團問題!?

[ DataScience ]28 留言, 推噓總分: +10

作者: peter308 - 發表於 2021/02/18 12:15(5年前)

1^F推ddavid: 等等，在你說的理想之前，先要考慮一件事情：所謂的分群（02/18 17:11

2^F推ddavid: Clustering）跟分類（Classification）有關鍵性的差異02/18 17:13

3^F→ddavid: 在你這串開頭第一篇中講了「經常會透過分團(Clique,02/18 17:14

4^F→ddavid: cluster analysis) 來將數據做分類」，我認為這邊用詞要更02/18 17:14

5^F→ddavid: 明確小心些，因為你同時講了分群又講了分類02/18 17:15

6^F→ddavid: 然後講回到分群，基本上是非監督式學習為主，所以事實上分02/18 17:15

7^F→ddavid: 群是沒有唯一標準的，所以「必然」不會有所謂「分群就是在02/18 17:17

8^F→ddavid: 找xxx」中的唯一xxx存在02/18 17:17

10^F推ddavid: 一般初接觸Clustering，往往會看到「分群是讓同一群的點盡02/18 17:22

11^F→ddavid: 量相似，而不同群的點盡量不相似」之類的粗略入門介紹，但02/18 17:23

12^F→ddavid: 光是這句話就未必是絕對的02/18 17:25

13^F推ddavid: 所以原Po你所提到的方向，只能說可以建立出「一種分群方式02/18 17:29

14^F→ddavid: 」，而無法說「分群就是這個」02/18 17:30

15^F推ddavid: 像k-means跟DBSCAN找出的分群天差地遠，但不能說誰比較對02/18 17:34

16^F→ddavid: ，所謂的對稱性也沒有必然存在，分群是可以在有向圖的點上02/18 17:35

17^F→ddavid: 進行的02/18 17:37

18^F推ddavid: Clustering的主要目標本來也就不是要找出肯定的結論，反而02/18 17:49

19^F→ddavid: 是偏重在分割之後能幫助到後續分析就是有益的分群了02/18 17:50

24^F推ddavid: 有些分群方法有自己的特點，並不是可以用同樣方法加速的02/25 14:57

25^F推ddavid: 你可能沒有考慮到有很多分群演算法根本跟對角化一丁點關係02/25 15:00

26^F→ddavid: 都沒有，甚至連同一群的instances要彼此相似這種限制都不02/25 15:01

27^F→ddavid: 存在02/25 15:01

28^F→ddavid: 所謂分群的好壞也沒有絕對性，是依據後續應用而定02/25 15:05

[情報] 新手向kaggle自辦競賽 ptt推噓文預測

[ DataScience ]29 留言, 推噓總分: +9

作者: jack1218 - 發表於 2021/02/05 20:25(5年前)

5^F推ddavid: 還在念博士時有做過用PTT文章預測投票票數的，當時結果很02/07 02:30

6^F→ddavid: 神奇地好。不過預測推噓文，直覺上要好會需要用手段補充外02/07 02:31

7^F→ddavid: 在背景知識02/07 02:31

8^F→ddavid: 總之這題目確實挺有趣的02/07 02:32

9^F→ddavid: 另外，其實我認為發文作者是其中一個鑑別力很強的feature02/07 02:33

10^F→ddavid: ，這邊沒有提供XD02/07 02:33

14^F推ddavid: 提供作者有個重點是可以查詢上站次數跟文章次數，而這兩項02/14 21:59

15^F→ddavid: 我認為是很重要的特徵02/14 21:59

16^F→ddavid: 舉一個已經有實用經驗的例子，Youtube的自動判斷機制在接02/14 22:00

17^F→ddavid: 到影片舉報時，他們研究發現最有辨別能力的特徵就是發該影02/14 22:01

18^F→ddavid: 片的使用者是否是很新的帳號，若是則大機率真的是問題影片02/14 22:01

19^F→ddavid: 而針對PTT，我個人的觀察是去看文章篇數/上站次數這個比02/14 22:02

20^F→ddavid: 值，對於文章是不是廢文的機率也有高辨識度02/14 22:02

21^F→ddavid: 若這個比值達到1以上，越高就越可能是廢文02/14 22:03

22^F→ddavid: 但如果比值大約在0.5前後，則相對用心發文的機率較高02/14 22:03

23^F→ddavid: 比值若很接近0（也就是發文很少上站很多），又會反過來變02/14 22:04

24^F→ddavid: 成內容不足的機率提升，但狀況相對比值高於1的輕微02/14 22:05

25^F推ddavid: 另外取得作者還有一項判斷依據，就是有些人可能在特定版面02/14 22:08

26^F→ddavid: 容易被噓但在別的特定版面容易被推，先不提所謂政治傾向，02/14 22:09

27^F→ddavid: 那種在棒球版是大師但在遊戲版是廢文王的情況02/14 22:11

28^F→ddavid: 也是很常見，所以使用者名稱搭配文章發表版面會是一組可能02/14 22:12

29^F→ddavid: 不錯的特徵02/14 22:12

[心得] kaggle競賽回顧 PKU Autonomous Driving

[ DataScience ]17 留言, 推噓總分: +17

作者: outrunner - 發表於 2021/01/22 18:35(5年前)

1^F推ddavid: 推，這種比賽確實常常會贏在多一個有用獨家招數01/22 19:42

[問題] KMeans clustering方法已刪文

[ DataScience ]2 留言, 推噓總分: +1

作者: nicha115 - 發表於 2020/12/03 19:51(5年前)

1^F推ddavid: 你是不是根本沒搞懂K-means是啥？基本上你就把算出來的各12/03 23:20

2^F→ddavid: 群中心點拿去分新資料就可以了啊。12/03 23:21

[問題] 巨量稀疏矩陣進行分群問題

[ DataScience ]34 留言, 推噓總分: +4

作者: blueblance - 發表於 2020/12/03 11:41(5年前)

1^F推ddavid: 基本上稀疏矩陣就會用特定的稀疏矩陣資料結構去存，不要存12/03 11:49

2^F→ddavid: 一大堆無意義的0，空間會節省非常多12/03 11:49

3^F→ddavid: [0,1,0,0,0,0,1]在資料結構內部會類似1:1,6:1的方式在存12/03 11:51

4^F→ddavid: 當然做法也不只一種，自行Google 稀疏矩陣資料結構有很多12/03 11:51

5^F→ddavid: 資訊可以參考12/03 11:52

6^F→ddavid: 或是你用特定framework就加上該關鍵字去查詢該framework有12/03 11:52

7^F→ddavid: 支援的稀疏矩陣處理方式12/03 11:52

14^F推ddavid: 基本上就是要採用I/O都支援稀疏矩陣的Framework吧12/03 13:53

15^F→ddavid: 像這篇：12/03 13:55

16^F→ddavid: https://bit.ly/39A4FnE12/03 13:55

17^F→ddavid: 裡面就明確提到用sklearn的PCA輸入是稀疏，但輸出不是，那12/03 13:55

18^F→ddavid: 自然你就可能在輸出上遭遇這個問題12/03 13:56

19^F→ddavid: 所以要嘛去找更符合需求的Framework，不然就自己改12/03 13:56

20^F→ddavid: 不過kmeans好像比較麻煩吧，就算輸入是稀疏，但途中計算只12/03 13:57

21^F→ddavid: 要一個平均算中心點就都不稀疏了。12/03 13:59

22^F推ddavid: 所以如果直接保持用矩陣一次運算，即便k值不大，也很可能12/03 14:01

23^F→ddavid: 在運算過程中的某個時間點爆記憶體。12/03 14:01

24^F→ddavid: 不過k-means這麼簡單的東西，可以自己手寫一個跑迴圈一點12/03 14:02

25^F→ddavid: 點處理的版本，就很容易避開記憶體用量的問題，只不過可能12/03 14:02

26^F→ddavid: 會在速度上付出代價12/03 14:03

27^F→ddavid: 寫得好，記憶體用量就可以控制在只記錄k個中心點的值（非12/03 14:04

28^F→ddavid: 稀疏）以及所有點當下所屬的cluster12/03 14:04

29^F→ddavid: 如果資料筆數為n，維度為m，cluster數量為k，用量就可以精12/03 14:05

30^F→ddavid: 確控制在km + n + 少量運算暫存（大約是m）吧12/03 14:06

[討論] 統計學習與機器學習的差異

[ DataScience ]10 留言, 推噓總分: +3

作者: wang19980531 - 發表於 2020/11/09 09:43(5年前)

1^F→ddavid: overlap多反而不混亂吧，就相關領域啊11/09 09:54

2^F→ddavid: 你也不會覺得微積分跟線性代數都用到加減乘除很混亂11/09 09:55

3^F→ddavid: 更重要的事，這種事情你課堂或下課後就可以問老師馬上得到11/09 09:56

4^F→ddavid: 不錯的答案了XD11/09 09:57

首頁

尾頁