Re: [新聞] 搶太妍門票僅須4秒!警破獲首宗AI搶票黃牛 逮30歲台大畢
阿肥外商碼農阿肥啦!
其實就是使用langchain加上類GPT 3.5-4(當前很多開源的,一張4090就可以運行起來),
透過模型輔助加上langchain可以直接接上Google等搜索引擎或特定網站解鎖語言模型讀
取最新資訊的能力,這樣就可以規避掉官方要識別人類(粉絲?)的特殊問題。
然後圖片驗證識別這個目前就被玩爛開源Acc都可以到99%以上了,基本上你想用CNN或swi
n transformer來做效果都非常好。
至於自動爬蟲程式,阿肥最近也再跟公司的爬蟲同事一起研究有打算搜集一些人類點擊速
度跟滑動速度的資訊讓模型學習一些策略做反防爬蟲,這個我印象中也是有幾篇論文在研
究只是不多,主要是搜集人類瀏覽軌跡的資料比較困難,而且要搜集這東西要做也只能暗
著做。
差不多4醬
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.216.90.41 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1694130400.A.749.html
推
09/08 07:49,
8月前
, 1F
09/08 07:49, 1F
五年前圖片驗證技術就很成熟了,中間也可能優化他的爬蟲程式啊
推
09/08 07:49,
8月前
, 2F
09/08 07:49, 2F
※ 編輯: sxy67230 (49.216.90.41 臺灣), 09/08/2023 07:51:36
推
09/08 07:50,
8月前
, 3F
09/08 07:50, 3F
→
09/08 07:51,
8月前
, 4F
09/08 07:51, 4F
→
09/08 07:51,
8月前
, 5F
09/08 07:51, 5F
→
09/08 07:51,
8月前
, 6F
09/08 07:51, 6F
搶票這個我不知道,不過反防爬蟲公司一直有這個需求啊,反反防爬蟲也是一個剛需。
※ 編輯: sxy67230 (49.216.90.41 臺灣), 09/08/2023 07:55:11
推
09/08 07:56,
8月前
, 7F
09/08 07:56, 7F
推
09/08 07:58,
8月前
, 8F
09/08 07:58, 8F
推
09/08 07:59,
8月前
, 9F
09/08 07:59, 9F
→
09/08 08:00,
8月前
, 10F
09/08 08:00, 10F
噓
09/08 08:02,
8月前
, 11F
09/08 08:02, 11F
主要是Selenium的點擊模式很好識別啊,就算是你設定一個亂數隨機也很好抓,抓到就直
接band掉ip,又不是每個人都有幾萬組IP可以使用的。
※ 編輯: sxy67230 (49.216.90.41 臺灣), 09/08/2023 08:08:11
推
09/08 08:07,
8月前
, 12F
09/08 08:07, 12F
→
09/08 08:07,
8月前
, 13F
09/08 08:07, 13F
→
09/08 08:07,
8月前
, 14F
09/08 08:07, 14F
可以直接用市面開源框架的OCR模型,連gpu 不用可以直接用cpu推理不用1秒就有結果,
實測直接拿他們官網提供的模型跟常見的圖形驗證就有9成命中率了,我推測他們也是有
拿那些數據加上大量其他的圖片文件去練蠱,所以效果連微調都不用。
→
09/08 08:13,
8月前
, 15F
09/08 08:13, 15F
※ 編輯: sxy67230 (49.216.90.41 臺灣), 09/08/2023 08:17:06
推
09/08 08:23,
8月前
, 16F
09/08 08:23, 16F
推
09/08 08:36,
8月前
, 17F
09/08 08:36, 17F
推
09/08 09:15,
8月前
, 18F
09/08 09:15, 18F
→
09/08 09:15,
8月前
, 19F
09/08 09:15, 19F
→
09/08 09:15,
8月前
, 20F
09/08 09:15, 20F
→
09/08 09:15,
8月前
, 21F
09/08 09:15, 21F
討論串 (同標題文章)