請益Request爬蟲

看板Soft_Job作者 (andy22543)時間1年前 (2023/01/19 20:03), 編輯推噓10(13338)
留言54則, 24人參與, 1年前最新討論串1/3 (看更多)
最近接到一個專案要爬購物網站存mySQL 爬分類裡面各產品資訊+內頁詳細資訊 目前已經使用selenium+multithreading寫完 可惜速度不夠快 所以正改用request改寫 但發現不管用什麼方法(session、cookie、payload)都沒辦法取得首頁的商品資訊 已經把網路上能看的解決方式都看過一遍還是無解 另外也試過network的event(貌似是api? 把相關資訊post上去爆出ConnectionError: ('Connection aborted.' 所有能試解法都試過還是無法 有沒有精通的高手幫看一下還有甚麼辦法呢 附上連結 https://www.hktvmall.com/hktv/zh/%E8%B6%85%E7%B4%9A%E5%B7%BF%E5%A0%B4/%E8%B6%85%E7%B4%9A%E5%B8%82%E5%A0%B4/%E5%86%B7%E5%87%8D-%E6%80%A5%E5%87%8D%E9%A3%9F%E5%93%81/main/search?page=0&q=%3Arelevance%3Astreet%3Amain%3Acategory%3AAA11110000000 ----- Sent from JPTT on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.137.8.129 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1674129833.A.F17.html

01/19 20:13, 1年前 , 1F
標題分類跟縮網址都不會嗎...
01/19 20:13, 1F

01/19 20:23, 1年前 , 2F
非親非故又問的不清不楚,願意幫忙的人可能不多:(
01/19 20:23, 2F

01/19 20:40, 1年前 , 3F
你瀏覽器看得到用爬蟲至少能抓個幾次(後續可能被擋)
01/19 20:40, 3F

01/19 20:40, 1年前 , 4F
不要放棄
01/19 20:40, 4F

01/19 22:01, 1年前 , 5F
直接回到完成的版本,然後複製多份同時跑,每支爬的範圍
01/19 22:01, 5F

01/19 22:01, 1年前 , 6F
指定一下
01/19 22:01, 6F

01/19 22:40, 1年前 , 7F
先縮網址再說
01/19 22:40, 7F

01/20 00:03, 1年前 , 8F
dynamic websites?
01/20 00:03, 8F

01/20 00:25, 1年前 , 9F
印象中好像如果是spa爬蟲抓不到(?)
01/20 00:25, 9F

01/20 00:33, 1年前 , 10F
如果你是女生 幫的人可能會多一點
01/20 00:33, 10F

01/20 00:34, 1年前 , 11F
只能給你關鍵字 用wireshark或fiddler看request的raw
01/20 00:34, 11F

01/20 00:34, 1年前 , 12F
data 想辨法模擬出一個一模一樣的request
01/20 00:34, 12F

01/20 00:38, 1年前 , 13F
這是get的raw data https://imgur.com/EViD6Ld
01/20 00:38, 13F

01/20 00:39, 1年前 , 14F
我網路亂抓的圖 我比較常用fiddler 你可以找個順手的
01/20 00:39, 14F

01/20 01:03, 1年前 , 15F
你很不想問問題?
01/20 01:03, 15F

01/20 01:19, 1年前 , 16F
問chatGPT
01/20 01:19, 16F

01/20 07:38, 1年前 , 17F
你給的這個網址,超級市場分類商品,點進去就timeout了
01/20 07:38, 17F

01/20 09:17, 1年前 , 18F
不好意思第一次在本版發文
01/20 09:17, 18F

01/20 09:17, 1年前 , 19F
感謝各位指教
01/20 09:17, 19F

01/20 10:07, 1年前 , 20F
selenium 笑死 怎麼可能快
01/20 10:07, 20F

01/20 15:44, 1年前 , 21F
建議先去搞懂request的運作方式,不然以後也是一個頁面
01/20 15:44, 21F

01/20 15:44, 1年前 , 22F
問一次
01/20 15:44, 22F

01/20 16:41, 1年前 , 23F
這兩本書我沒讀過 不過看目錄應該有你要的東西
01/20 16:41, 23F

01/20 16:41, 1年前 , 24F

01/20 16:41, 1年前 , 25F

01/20 16:42, 1年前 , 26F
看反爬蟲那個章節就好
01/20 16:42, 26F

01/20 20:29, 1年前 , 27F
selenium不夠快你不會多開幾台?
01/20 20:29, 27F

01/20 20:30, 1年前 , 28F
你在那邊破解反爬蟲的成本絕對夠你多開好幾台
01/20 20:30, 28F

01/21 00:34, 1年前 , 29F
多開幾台治標不治本 又浪費效能 學好request才是正解
01/21 00:34, 29F

01/21 11:04, 1年前 , 30F
謝謝各位意見,小弟再回去多研究request
01/21 11:04, 30F

01/21 17:48, 1年前 , 31F
你要先了解request和Selenium兩個爬出來的網頁差異還
01/21 17:48, 31F

01/21 17:48, 1年前 , 32F
有運作原理
01/21 17:48, 32F

01/22 01:00, 1年前 , 33F
網路上能看的解決方式都看過一遍???你可以看兩遍
01/22 01:00, 33F

01/22 12:30, 1年前 , 34F
連縮網址都不會你回去報資測會比較快
01/22 12:30, 34F

01/22 19:19, 1年前 , 35F
01/22 19:19, 35F

01/22 19:57, 1年前 , 36F
有些反爬蟲技術就不是requests學好就能解決的
01/22 19:57, 36F

01/23 06:30, 1年前 , 37F
弱弱問一下,用爬蟲進行商業行為(外包),這樣不違法
01/23 06:30, 37F

01/23 06:30, 1年前 , 38F
嗎…?
01/23 06:30, 38F

01/23 20:07, 1年前 , 39F
爬蟲大部份都是違法的 請低調使用
01/23 20:07, 39F

01/23 20:17, 1年前 , 40F
之前請益過,有一說是真的要起訴的話,可能需要舉證爬蟲的
01/23 20:17, 40F

01/23 20:17, 1年前 , 41F
運作造成的實際損失。有些爬蟲比如是電商販售物品,沒有公
01/23 20:17, 41F

01/23 20:17, 1年前 , 42F
開 API 又希望第三方行銷團隊或是其他平台想要同步銷售而去
01/23 20:17, 42F

01/23 20:17, 1年前 , 43F
爬取資料,好像就比較難判斷。建議還是了解一下對方意圖會
01/23 20:17, 43F

01/23 20:17, 1年前 , 44F
比較好
01/23 20:17, 44F

01/24 14:30, 1年前 , 45F
真的不行就headless,慢了一點但是在背景慢慢爬,太
01/24 14:30, 45F

01/24 14:30, 1年前 , 46F
快有時候反而也會被擋
01/24 14:30, 46F

01/25 08:10, 1年前 , 47F
謝謝大家的解說
01/25 08:10, 47F

01/25 14:54, 1年前 , 48F
這種通常要另外打 API 拿到資料,如果習慣爬蟲寫法可以考
01/25 14:54, 48F

01/25 14:54, 1年前 , 49F
慮 jsdom,比 headless 再更輕量點
01/25 14:54, 49F

01/25 22:44, 1年前 , 50F
如上推文 爬蟲是灰色地帶 慢不一定是壞事 別人不讓你
01/25 22:44, 50F

01/25 22:45, 1年前 , 51F
爬事小 告你事大 要快也不是不行 不論你用不用合法的
01/25 22:45, 51F

01/25 22:45, 1年前 , 52F
方式還是要付錢 直接跟購物網站接洽比較好
01/25 22:45, 52F

01/26 00:58, 1年前 , 53F
快速就是固定時間增加request數量,小型點的就營運會卡
01/26 00:58, 53F

01/26 00:58, 1年前 , 54F
了。
01/26 00:58, 54F
文章代碼(AID): #1ZoJ6fyN (Soft_Job)
文章代碼(AID): #1ZoJ6fyN (Soft_Job)