作者查詢 / f496328mm
作者 f496328mm 在 PTT [ Python ] 看板的留言(推文), 共344則
限定看板:Python
看板排序:
全部NBA4020Boy-Girl1165Soft_Job650Gossiping409WomenTalk401Python344R_Language288StarCraft256Tech_Job222home-sale218MiamiHeat209Master_D195Pisces157Statistics153NARUTO141DataScience131Stock123Cavaliers114TKU_Talk110NBAGAME107ONE_PIECE107sex79fastfood61Simcity49PC_Shopping44AllTogether43SouthPark32Lifeismoney30movie26Rockets25CATCH24C_JapanBoard21CodeJob20Taurus15LeBronJames14Miaoli14Mavericks13BLEACH10Hualien10marriage10Orl-Magic9Celtics8FuMouDiscuss8Hawks8joke8Nuggets8Salary8BLAZERS7HomeTeach7NDHU7PublicIssue7ToS7UTAH-JAZZ7Windows7AOE6Hunter6Instant_Food6Bucks5PHX-Suns5Sagittarius5Spurs5Thunder5Wanted5DragonBall4Gersang4japanavgirls4Kings4KoreaDrama4Trading4Wizards4Anchors3ChicagoBulls3CourtBasketB3Employee3Grizzlies3KS98-3023L_TalkandCha3LoL3Militarylife3Nets3NTU3SP2_Basket3Beauty2graduate2Hornets2JD_Lover2Lakers2MapleStory2RDSS2specialman2Steam2Teacher2Women_Picket2CYCU_Talk1DummyHistory1Economics1FJU1G-S-WARRIORS1job1Kaohsiung1Knicks1LaClippers1LaTeX1Loan1MATLAB1MenTalk1need_student1Nightmarket1NSYSU1NTUHistory011Option1Raptors1RTS1SENIORHIGH1Taitung1TigerBlue1Timberwolves1TKU_EE_92C1Wen-Shan1worldbasket1<< 收起看板(120)
2F推: 推selenium,可以說是萬解,不過缺點是速度比較慢01/03 07:35
6F→: 建議有個目標 單純學習會沒什麼感覺01/02 17:05
15F→: 建議一步一步來 先從簡單的爬蟲開始01/02 22:27
2F→: datatime01/02 18:22
9F推: 零基礎的話,建議去上課,雖然網路上很多免費課程,相01/02 18:21
10F→: 關書籍也多,但程式0基礎會有點困難01/02 18:21
4F推: 推,另外提一點,真正要去辨識台鐵驗證碼時,會遇到驗12/25 00:09
5F→: 證碼是js的問題,動態圖,不好抓,你動一次它就變一次12/25 00:09
22F推: 這篇討論串都有講到關鍵點 蠻不錯的12/25 18:41
23F推: 大致上看完 寫的蠻不錯的 很有幫助12/25 23:07
1F推: 轉編碼?12/23 21:36
5F推: 驗證碼識別蠻簡單的,我有做一個11/08 12:29
22F推: 驗證碼,自己做一個CNN就好了,麻煩的是,驗證碼是JS,11/09 10:04
23F→: 直接抓會一直變,我是用selenium截圖後,再去處理11/09 10:04
24F→: 另外我是手動做train data,目前1萬張11/09 10:05
26F推: 很累啊,我也試過一大堆方法,都有現成套件,但都有些11/09 13:39
27F→: 缺陷,結果都不好,demo時都很猛,實際上不見得好11/09 13:39
28F推: 標解答,也可以寫成程式,盡量提高速度啦,我一開始一11/09 13:41
29F→: 天就可以1萬張,5個驗證碼大約90%正確率,剩下就可以利11/09 13:41
30F→: 用台鐵驗證碼系統,幫我上label啦11/09 13:41
31F推: 簡單講,對或錯台鐵會幫我判定,對的就存label,這樣就11/09 13:45
32F→: 變成自動上label啦,data會越來越多,有點類似reinforc11/09 13:45
33F→: ement learning,當然這很像ddos攻擊,是不太好啦11/09 13:45
37F推: 之後你data越多,基本上準確率越高11/09 16:23
41F推: 還有一點是,在辨識之前,你的影像處理好不好,對之後11/09 19:32
42F→: 的辨識,影響很大11/09 19:32
43F→: 另外台鐵算是最簡單的驗證碼,有些連人都很難辨識11/09 19:32
49F推: 是一整張圖辨識?我目前是切割,分開辨識11/09 20:11
51F推: 了解,因為切割也很麻煩,台鐵還算可以切,其他的很複11/09 20:29
52F→: 雜11/09 20:29
72F推: 單純用CNN做分類的話,5個數字,有10^5種組合耶,況且11/10 07:00
73F→: 有時是4個數字,有時是6個,真的可以不切割?11/10 07:00
74F推: alan,我的數字影像處理,切割+旋轉,之後再用CNN,1萬11/10 07:10
75F→: 張圖,大約80~90%正確率11/10 07:10
76F→: 其實驗證碼的影像處理,網路上一大堆人做過,可以去找11/10 07:11
77F→: 找11/10 07:11
114F推: 感謝開示11/11 09:03
115F推: 一維化,所以沒有用到pooling?11/11 09:32
120F推: blue大有github可以參考嗎?感恩11/11 11:23
121F推: 問一個問題,圖片本來不是2維嗎?為什麼要先一維化,再11/11 13:37
122F→: 變2維?改變整張圖的大小嗎?11/11 13:37
126F推: ok,那我自己研究看看11/11 18:36
144F推: 比較想問,如果沒固定5個字的話,可以不切割嗎?因為台11/13 23:25
145F→: 鐵驗證碼,4~6個字11/13 23:25
146F→: 因為難一點的驗證碼,非常難切割,有些都黏在一起11/13 23:26
185F推: 這串討論蠻不錯的,講了很多重點,感謝上面的大大11/15 13:36
198F推: 切割有缺點,切的不好會影響結果,error會累加上去11/28 21:19
11F推: 我印象中,欄位是按照a-z去自動排的,可以再下指令讓11/28 16:53
12F→: 欄位順序變成你要的11/28 16:53
1F推: 我也想問類似問題11/13 23:23
12F→: 樓上其實說的沒錯,爬蟲有點遊走在法律邊緣,甚至有些11/06 20:05
13F→: 網站會擋,程式瀏覽網頁跟人的行為非常不同,不難抓/11/06 20:05
14F→: 擋11/06 20:05
19F→: 我的目的就是text mining、nlp11/07 20:18
20F→: 目前在當兵,PTT也快抓完了,會再去抓其他data11/08 07:10
23F→: chan,我目前都沒遇到過,爬新聞、雜誌等等都沒遇到11/13 19:40