[問題] 請教這驗證碼如何解析

看板Python作者 (亨利王子)時間6年前 (2017/09/05 21:16), 6年前編輯推噓10(11118)
留言30則, 11人參與, 5年前最新討論串1/1
大家好 我最近剛開始在研究爬蟲 在登入的時候,看到這樣的驗證碼圖片 http://imgur.com/a/vO5GX 我嘗試過把他轉成 numpy array 後 切掉旁邊的邊邊 然後用 pytesseract 去讀圖片 但是辨識率超級低 不知道要如何著手解析這樣驗證碼的文字 想請教一下各位前輩這種類型的要如何分析 謝謝!! 補: 剛剛沒說到 其實我有做過一點點處理 大致上是這樣 https://goo.gl/zFPBDg 但是辨識成功率大概是 10~40%左右 超級低QQ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.43.71.211 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1504617371.A.CF2.html

09/05 21:17, , 1F
去雜點,去邊框,文字跟四週留些空白,轉成黑白
09/05 21:17, 1F

09/05 21:18, , 2F
白底黑字,然後tesseract定白名單,應該差不多了
09/05 21:18, 2F
感謝分享! 不知道能不能大致跟我說明一下 "去雜點,去邊框" 要用什麼方法呀?

09/05 22:15, , 3F
這種用 tensorflow 寫個三層 CNN 訓練一下就解決了
09/05 22:15, 3F

09/05 22:16, , 4F
要作到辨識成功率到99%不難
09/05 22:16, 4F
我今天已經下載好 TensorFlow 了XD 開始研究要如何辨識 不 到能不能給我一點研究方向得提示呀? 我沒接觸過DL QQ

09/06 10:42, , 5F
如果字跟雜點都是固定顏色直接用色碼把雜點濾掉就好了
09/06 10:42, 5F
雜點顏色都是不固定的 但是好像都是比較淡的顏色!

09/06 10:59, , 6F
我也想問 一樓說的方法 image 要事前做好多處理阿@@
09/06 10:59, 6F

09/06 11:47, , 7F
我之前做的筆記http://docdro.id/4cVgmsJ
09/06 11:47, 7F

09/06 13:09, , 8F
感謝 另外tensorflos實戰的網址 404
09/06 13:09, 8F

09/06 13:45, , 9F
網址掛掉就直接google標題吧
09/06 13:45, 9F
我看不到網址內容耶 請問要找的標題就是 tensorflows實戰嗎? ※ 編輯: HenryLiKing (140.138.155.196), 09/06/2017 15:28:25

09/06 15:41, , 10F
剛google一下好像找不到了
09/06 15:41, 10F

09/06 16:06, , 11F
學習圖片的前處理的話,推薦PyImageSearch,也可撿到現成
09/06 16:06, 11F

09/06 17:26, , 12F
太感謝這裡的大大了,給做image的一個方向,不然根本
09/06 17:26, 12F

09/06 17:26, , 13F
不知要從何做起,只好一直調vgg
09/06 17:26, 13F

09/06 20:04, , 14F
不想前置處理的話可以參考這個https://goo.gl/2k74V2
09/06 20:04, 14F

09/06 20:05, , 15F
pip安裝captcha庫然後把扭曲線的那個砍掉字型替換成
09/06 20:05, 15F

09/06 20:05, , 16F
相近的字體
09/06 20:05, 16F

09/07 00:51, , 17F
我試過自已做訓練集 用肉眼辨識5000份就累了
09/07 00:51, 17F

09/07 00:52, , 18F
樓上那方法要自已產驗證碼自已辨識才行
09/07 00:52, 18F

09/08 00:31, , 19F
學弟安安
09/08 00:31, 19F

09/08 02:48, , 20F
可以先去看論文,有很多相關的研究。
09/08 02:48, 20F

09/08 21:16, , 21F
我做過這種 幾乎一模一樣的驗證碼 直接二值化 去雜點
09/08 21:16, 21F

09/08 21:17, , 22F
不知道為什麼圖片size會影響 我就把它放大在平滑
09/08 21:17, 22F

09/08 21:18, , 23F
然後差不多就能有個8成成功率了
09/08 21:18, 23F

09/08 21:24, , 24F
想請教怎麼放大啊? 例如 DATA 給 64*64
09/08 21:24, 24F

09/08 21:24, , 25F
不想太多變數就取樣成 32*32
09/08 21:24, 25F

09/08 21:25, , 26F
不知道怎麼放大 或是放大的概念
09/08 21:25, 26F

09/08 22:22, , 27F
圖片存下來我是在把它做拉大的動作 還有四周加上空白
09/08 22:22, 27F

05/02 11:37, 5年前 , 28F
直就推用 ml 方法的真的母湯
05/02 11:37, 28F

05/02 11:37, 5年前 , 29F
生資料花的時間傳統演算法就解決問題了
05/02 11:37, 29F

05/02 11:40, 5年前 , 30F
花一天準確度80%的模型vs十天95%的模型
05/02 11:40, 30F
文章代碼(AID): #1PhgERpo (Python)