作者查詢 / ddavid
作者 ddavid 在 PTT [ DataScience ] 看板的留言(推文), 共231則
限定看板:DataScience
看板排序:
全部TypeMoon9289H-GAME4300GO3873GameDesign2664FATE_GO2575JinYong2086FBG1867AC_In1774nobunyaga1708LoL1533Wrestle1251StarCraft879Poker815Python767Detective650CGI-Game645C_Chat531Steam414Old-Games345Magic338DMM_GAMES336OverWatch317Little-Games303C_and_CPP266historia256Inference253DataScience231WorldCup222RealPlaying221Programming196TRPG182ToS118Olympics_ISG114Expansion07109Prob_Solve90PathofExile85Salary53eSports47marvel41BattleRoyale35PUBG33C_Sharp30BlizzHeroes26NDS26SLG26NTUCCG25Palmar_Drama23politics23LeafKey18basketballTW17KanColle16Web_Design15ck51st31614Gossiping14PhD14NTU-Fantasy11mud10AndroidDev6Baseball6CS_IGO6KS92-3196AHQ4Ahqwestdoor4MATLAB4Toy4b885060xx3cat3CVS3HotBloodYuan3joke3LGS3NTUEE108HW3NTUVGC3SuperIdol3XiangSheng32nd_NTUCCC2AC_Music2b90902xxx2ck55th3332CLHS-50-142DummyHistory2FJU-ACC90a2FJU-AM-902GAMEMUSIC2japanavgirls2JD_Lover2KS93-3042NBA2NCCU08_SW2NTUST-DT92-12OrangeRoad2SC-91-3012SCU_Talk2tabletennis2talk2Viator94Ding2About_Clubs1AngelPray1b89902xxx1b92902xxx1C_GameBoard1CCU_COMM_ANT1cksh83rd3031CMWang1CSMU-MED901Dynasty1G-REX1HatePolitics1Hunter1KS94-3101Mabinogi1MobileComm1NDHU-His961PuzzleDragon1sex1SOFTSTAR1specialman1Sportcenter1SYSOP1WomenTalk1<< 收起看板(120)
2F→: 原 po 會問這樣的問題就很顯然自己 survey 都沒做好11/30 20:18
3F→: 資本沒有大到一個程度,幾乎不會選擇自 train 模型,連微11/30 20:20
4F→: 調都是很下位的選項11/30 20:20
5F推: 現在最多只有理解底層可以買書了(但事實上網路整理資料11/06 17:09
6F→: 也都夠豐富)11/06 17:09
7F→: 而最新研究更是根本來不及成書,連會議論文都可能嫌慢了11/06 17:13
8F→: ,只有 arXiv 這種先行發佈比較夠時效性11/06 17:13
11F→: 好書可以讓理解變容易,但那本好書是否出現了不好說11/17 22:59
12F→: 網路上的好文章也一樣可以讓理解變容易,這倒是已經有很多11/17 22:59
1F→: 先對每一個步驟印出 log 看時間瓶頸是什麼步驟或動作啊01/06 02:07
2F→: 確定了瓶頸後,如果那是可以改善的就改,如果那不能改善,01/06 02:08
3F→: 那就開很多台電腦一起爬01/06 02:08
21F推: 業界才是能用套件就盡量用,必須特化才會修改01/24 21:52
22F→: 基本上要有修改能力,但絕不是什麼都自己造輪子01/24 21:53
17F推: 也可以針對 A vs (B + C + other) 做一個二元訓練,B 跟 C04/27 21:41
18F→: 也以此類推,然後再做一層用來 ensemble 這三個之類的,玩04/27 21:43
19F→: 法很多04/27 21:43
6F→: frequent pattern mining / association rule04/24 20:47
7F→: 可見上次給你關鍵字,你根本沒去了解04/24 20:47
16F→: 你是不是沒發現 fp 的後面還有另一個關鍵字 association04/27 21:34
17F→: rule XD04/27 21:34
18F→: 然後你這目標性,看起來並不是要做詞向量啊04/27 21:36
19F→: 你可以明確說看看拿了詞向量要怎麼用嗎,你期待一個詞向量04/27 21:37
20F→: 在 A 情況跟一個詞向量 X 距離近,在 B 情況卻又要能跟另04/27 21:38
21F→: 一個詞向量 Y 接近?04/27 21:38
1F推: Word2vec、GloVe04/21 15:38
2F→: 網路資源很多,這兩個也都有公開的 GitHub 實作可以研究04/21 15:40
8F推: 如果只是要一起出現的頻率,那請找04/21 23:48
9F→: frequent pattern mining / association rule04/21 23:49
10F→: 要演算法名的話可以從最基本的 Apriori 和 FP Growth 開始04/21 23:50
5F推: 不 10-Fold 就給他一個 Leave-one-out 啊02/14 13:44
11F推: 辨識翻譯已知意義的語言,跟解譯未知語言的意義,是兩個完01/21 10:09
12F→: 全不同的 work 喔01/21 10:09
13F推: 然後後者要徹底非監督,憑我的知識覺得有點困難01/21 10:12
14F→: 直覺上需要與可能相近脈絡語言的字頻分析比對之類的額外知01/21 10:15
15F→: 識加入01/21 10:15
18F推: 中文房間那個講的又是第三類不同 work 了,就這個問題上應01/24 12:14
19F→: 該是不能直接類比01/24 12:14
20F→: 因為就這個問題上,我們並沒有要求「AI 像人類一樣理解文01/24 12:15
21F→: 字」而是「AI 做出可供人類使用的翻譯」而已,在命題的層01/24 12:16
22F→: 級上還沒有碰觸到中文房間那一塊01/24 12:16
2F推: 其實是可以做的,但會是很大的一個問題12/08 10:50
3F→: 思路是這樣的,影片看來雖然解析度不夠文字不清楚,但是因12/08 10:51
4F→: 為文字大致外形還是可辨識,因此至少每一個字可以得到一個12/08 10:51
5F→: 可能是哪些字的文字分佈機率函數12/08 10:52
6F→: 然後再靠自然語言相關的技術,從機率函數中去挑選最可能組12/08 10:53
7F→: 成有意義句子的可能性12/08 10:53
8F→: 好了,概念說起來很簡單,但是技術難度就高了,特別是第二12/08 10:54
9F→: 階段的組句難度很高XD12/08 10:54
30F推: @yoyololicon 我說的外型,是指一些明顯可見的特徵01/21 11:15
31F→: 比如就算這麼模糊,但其中很多字明顯可見是左右兩塊組成,01/21 11:16
32F→: 中間那一頁最右上角那個字明顯有像「地」或「他」右下那個01/21 11:17
33F→: 彎勾形狀,另外從文字色的密度可猜測筆畫的密集程度等等01/21 11:18
34F→: 更細微還能看出一些如「然」「無」這些上密下疏,或是「喝01/21 11:20
35F→: 」左短右長而「和」會左長右短的特徵01/21 11:21
36F→: 因此先弄到大量手寫字庫訓練針對這類特徵的模型後,就有機01/21 11:22
37F→: 會嘗試對模糊的字進行辨識輸出候選字列表與對應機率01/21 11:23
38F→: 進一步就是上面講的,再串自然語言模型嘗試最可能組詞組句01/21 11:24
39F→: 的選項,就有機會輸出候選句子01/21 11:24
40F→: 但這真的是個可以寫無數篇 Paper 的大題目XD01/21 11:25
44F推: 候選句可能很多,但特徵取得夠好夠多的話,有可能意外地機01/21 16:11
45F→: 率處理後高低機率差距很容易拉開,畢竟有些特徵事實上蠻容01/21 16:12
46F→: 易鎖定到相對少數的字,而文字本身就已經有字頻差距,再套01/21 16:13
47F→: 到詞庫又可以篩選掉很多低機率可能性,再進一步到了自然語01/21 16:14
48F→: 言模型又可以除去文法上直接不可能或低機率的組合01/21 16:15
49F→: 我直覺上是認為過程超級繁複且運算量很大,但做完的結果有01/21 16:17
50F→: 可能意外地不會有大量高機率候選句,因為某些特徵的篩選力01/21 16:18
51F→: 還是蠻強大的01/21 16:18
52F→: 當然,如果寫作者本身行文的文法就很特別或很糟會是麻煩01/21 16:20