作者查詢 / ddavid

總覽項目: 發文 | 留言 | 暱稱
作者 ddavid 在 PTT [ DataScience ] 看板的留言(推文), 共231則
限定看板:DataScience
[問題] max pooling的梯度問題
[ DataScience ]23 留言, 推噓總分: +2
作者: subgn - 發表於 2021/10/17 18:07(4年前)
1Fddavid: 你如果真的很確定你的情況不適用max pooling,那就換成別10/17 19:16
2Fddavid: 種如average-pooling啊,為什麼要硬用10/17 19:17
3Fddavid: 或者每種pooling都跑多個不同參數測試看哪種好啊,也許你10/17 19:18
4Fddavid: 所想的問題其實會在某些參數設定下緩解10/17 19:19
[問題] 機器學習 re-training
[ DataScience ]4 留言, 推噓總分: +2
作者: ctr1 - 發表於 2021/08/21 23:20(4年前)
2Fddavid: 如果能預料會持續有資料進來,或者資料分佈會隨時間有變動08/22 22:08
3Fddavid: ,一開始就會採取具備incremental learning性質的方法了08/22 22:08
4Fddavid: 其實現在很多ANN相關的方式都可以做到08/22 22:09
路徑演算法已刪文
[ DataScience ]3 留言, 推噓總分: -2
作者: kero961240 - 發表於 2021/07/09 10:59(4年前)
1Fddavid: 整合的規則是什麼,超完美路徑的定義又是什麼都沒講啊07/09 12:32
[問題] 新手openpose與深度學習問題
[ DataScience ]23 留言, 推噓總分: +5
作者: kuku951 - 發表於 2021/02/14 19:03(5年前)
8Fddavid: 手臂位置多少會有關係,不過也有投手很刻意想辦法把不同球03/02 15:56
9Fddavid: 種練到手臂位置差不多,增加打者分辨的難度03/02 15:57
10Fddavid: 事實上就打者的角度,想要更早一點看出球路,就是想盡辦法03/02 15:58
11Fddavid: 從手臂、手掌、出手點甚至到準備動作微小習慣差異去判斷03/02 15:59
12Fddavid: 而投手也會想辦法掩飾修正這些差異03/02 16:00
13Fddavid: 所以就這問題來說,我們應該是一球一球給它正確的球種答案03/02 16:01
14Fddavid: ,期待學習出來的模型能夠找得出不同球種間的差異而能分辨03/02 16:01
15Fddavid: 我們不應該先行猜想手臂到底跟球種有沒有關聯性,而是讓模03/02 16:02
16Fddavid: 型去找找看關聯性存不存在03/02 16:02
17Fddavid: 另外,這些關聯性高機率每個投手都不一樣,當然你要嘗試找03/02 16:04
18Fddavid: 所有投手會不會也多少有什麼共通性也是可以嘗試,但就背景03/02 16:04
19Fddavid: 知識來看可能相對不容易找出有意義結論,先以單一投手個別03/02 16:05
20Fddavid: 建立模型可能比較有機會03/02 16:05
22Fddavid: 沒實際用過,居然有這事啊XD03/03 14:47
Re: [討論] 分團問題!?
[ DataScience ]28 留言, 推噓總分: +10
作者: peter308 - 發表於 2021/02/18 12:15(5年前)
1Fddavid: 等等,在你說的理想之前,先要考慮一件事情:所謂的分群(02/18 17:11
2Fddavid: Clustering)跟分類(Classification)有關鍵性的差異02/18 17:13
3Fddavid: 在你這串開頭第一篇中講了「經常會透過分團(Clique,02/18 17:14
4Fddavid: cluster analysis) 來將數據做分類」,我認為這邊用詞要更02/18 17:14
5Fddavid: 明確小心些,因為你同時講了分群又講了分類02/18 17:15
6Fddavid: 然後講回到分群,基本上是非監督式學習為主,所以事實上分02/18 17:15
7Fddavid: 群是沒有唯一標準的,所以「必然」不會有所謂「分群就是在02/18 17:17
8Fddavid: 找xxx」中的唯一xxx存在02/18 17:17
10Fddavid: 一般初接觸Clustering,往往會看到「分群是讓同一群的點盡02/18 17:22
11Fddavid: 量相似,而不同群的點盡量不相似」之類的粗略入門介紹,但02/18 17:23
12Fddavid: 光是這句話就未必是絕對的02/18 17:25
13Fddavid: 所以原Po你所提到的方向,只能說可以建立出「一種分群方式02/18 17:29
14Fddavid: 」,而無法說「分群就是這個」02/18 17:30
15Fddavid: 像k-means跟DBSCAN找出的分群天差地遠,但不能說誰比較對02/18 17:34
16Fddavid: ,所謂的對稱性也沒有必然存在,分群是可以在有向圖的點上02/18 17:35
17Fddavid: 進行的02/18 17:37
18Fddavid: Clustering的主要目標本來也就不是要找出肯定的結論,反而02/18 17:49
19Fddavid: 是偏重在分割之後能幫助到後續分析就是有益的分群了02/18 17:50
24Fddavid: 有些分群方法有自己的特點,並不是可以用同樣方法加速的02/25 14:57
25Fddavid: 你可能沒有考慮到有很多分群演算法根本跟對角化一丁點關係02/25 15:00
26Fddavid: 都沒有,甚至連同一群的instances要彼此相似這種限制都不02/25 15:01
27Fddavid: 存在02/25 15:01
28Fddavid: 所謂分群的好壞也沒有絕對性,是依據後續應用而定02/25 15:05
[情報] 新手向kaggle自辦競賽 ptt推噓文預測
[ DataScience ]29 留言, 推噓總分: +9
作者: jack1218 - 發表於 2021/02/05 20:25(5年前)
5Fddavid: 還在念博士時有做過用PTT文章預測投票票數的,當時結果很02/07 02:30
6Fddavid: 神奇地好。不過預測推噓文,直覺上要好會需要用手段補充外02/07 02:31
7Fddavid: 在背景知識02/07 02:31
8Fddavid: 總之這題目確實挺有趣的02/07 02:32
9Fddavid: 另外,其實我認為發文作者是其中一個鑑別力很強的feature02/07 02:33
10Fddavid: ,這邊沒有提供XD02/07 02:33
14Fddavid: 提供作者有個重點是可以查詢上站次數跟文章次數,而這兩項02/14 21:59
15Fddavid: 我認為是很重要的特徵02/14 21:59
16Fddavid: 舉一個已經有實用經驗的例子,Youtube的自動判斷機制在接02/14 22:00
17Fddavid: 到影片舉報時,他們研究發現最有辨別能力的特徵就是發該影02/14 22:01
18Fddavid: 片的使用者是否是很新的帳號,若是則大機率真的是問題影片02/14 22:01
19Fddavid: 而針對PTT,我個人的觀察是去看 文章篇數/上站次數 這個比02/14 22:02
20Fddavid: 值,對於文章是不是廢文的機率也有高辨識度02/14 22:02
21Fddavid: 若這個比值達到1以上,越高就越可能是廢文02/14 22:03
22Fddavid: 但如果比值大約在0.5前後,則相對用心發文的機率較高02/14 22:03
23Fddavid: 比值若很接近0(也就是發文很少上站很多),又會反過來變02/14 22:04
24Fddavid: 成內容不足的機率提升,但狀況相對比值高於1的輕微02/14 22:05
25Fddavid: 另外取得作者還有一項判斷依據,就是有些人可能在特定版面02/14 22:08
26Fddavid: 容易被噓但在別的特定版面容易被推,先不提所謂政治傾向,02/14 22:09
27Fddavid: 那種在棒球版是大師但在遊戲版是廢文王的情況02/14 22:11
28Fddavid: 也是很常見,所以使用者名稱搭配文章發表版面會是一組可能02/14 22:12
29Fddavid: 不錯的特徵02/14 22:12
[心得] kaggle競賽回顧 PKU Autonomous Driving
[ DataScience ]17 留言, 推噓總分: +17
作者: outrunner - 發表於 2021/01/22 18:35(5年前)
1Fddavid: 推,這種比賽確實常常會贏在多一個有用獨家招數01/22 19:42
[問題] KMeans clustering方法已刪文
[ DataScience ]2 留言, 推噓總分: +1
作者: nicha115 - 發表於 2020/12/03 19:51(5年前)
1Fddavid: 你是不是根本沒搞懂K-means是啥?基本上你就把算出來的各12/03 23:20
2Fddavid: 群中心點拿去分新資料就可以了啊。12/03 23:21
[問題] 巨量稀疏矩陣進行分群問題
[ DataScience ]34 留言, 推噓總分: +4
作者: blueblance - 發表於 2020/12/03 11:41(5年前)
1Fddavid: 基本上稀疏矩陣就會用特定的稀疏矩陣資料結構去存,不要存12/03 11:49
2Fddavid: 一大堆無意義的0,空間會節省非常多12/03 11:49
3Fddavid: [0,1,0,0,0,0,1]在資料結構內部會類似1:1,6:1的方式在存12/03 11:51
4Fddavid: 當然做法也不只一種,自行Google 稀疏矩陣資料結構 有很多12/03 11:51
5Fddavid: 資訊可以參考12/03 11:52
6Fddavid: 或是你用特定framework就加上該關鍵字去查詢該framework有12/03 11:52
7Fddavid: 支援的稀疏矩陣處理方式12/03 11:52
14Fddavid: 基本上就是要採用I/O都支援稀疏矩陣的Framework吧12/03 13:53
15Fddavid: 像這篇:12/03 13:55
16Fddavid: https://bit.ly/39A4FnE12/03 13:55
17Fddavid: 裡面就明確提到用sklearn的PCA輸入是稀疏,但輸出不是,那12/03 13:55
18Fddavid: 自然你就可能在輸出上遭遇這個問題12/03 13:56
19Fddavid: 所以要嘛去找更符合需求的Framework,不然就自己改12/03 13:56
20Fddavid: 不過kmeans好像比較麻煩吧,就算輸入是稀疏,但途中計算只12/03 13:57
21Fddavid: 要一個平均算中心點就都不稀疏了。12/03 13:59
22Fddavid: 所以如果直接保持用矩陣一次運算,即便k值不大,也很可能12/03 14:01
23Fddavid: 在運算過程中的某個時間點爆記憶體。12/03 14:01
24Fddavid: 不過k-means這麼簡單的東西,可以自己手寫一個跑迴圈一點12/03 14:02
25Fddavid: 點處理的版本,就很容易避開記憶體用量的問題,只不過可能12/03 14:02
26Fddavid: 會在速度上付出代價12/03 14:03
27Fddavid: 寫得好,記憶體用量就可以控制在只記錄k個中心點的值(非12/03 14:04
28Fddavid: 稀疏)以及所有點當下所屬的cluster12/03 14:04
29Fddavid: 如果資料筆數為n,維度為m,cluster數量為k,用量就可以精12/03 14:05
30Fddavid: 確控制在km + n + 少量運算暫存(大約是m)吧12/03 14:06
[討論] 統計學習與機器學習的差異
[ DataScience ]10 留言, 推噓總分: +3
作者: wang19980531 - 發表於 2020/11/09 09:43(5年前)
1Fddavid: overlap多反而不混亂吧,就相關領域啊11/09 09:54
2Fddavid: 你也不會覺得微積分跟線性代數都用到加減乘除很混亂11/09 09:55
3Fddavid: 更重要的事,這種事情你課堂或下課後就可以問老師馬上得到11/09 09:56
4Fddavid: 不錯的答案了XD11/09 09:57