[問題] 爬蟲網站

看板Python作者jackjenny (痛苦)時間5年前 (2020/10/14 01:44)推噓8(8推 0噓 16→)

留言24則, 10人參與討論串1/1

請教大家有關爬蟲問題我有爬蟲各航空公司的貨物運單狀態甲去大陸購物可從業者提供的報關單、主提單、副提單查到包裹狀態例如:飛機起飛與否等資訊、清關狀態這是華航的CARGO 貨況查詢網站 https://reurl.cc/5qKZzq 因為有JS所以利用selenium+BeautifulSoup 可以輕鬆爬到任何html資料我不是用path下去定位而是抓取id找想要的到資料但有些id長這樣: ContentPlaceHolder1_rpFlightEvent_lblWgt_0 ContentPlaceHolder1_rpFlightEvent_lblPcs_0 ContentPlaceHolder1_rpFlightEvent_lblArrTime_0 ContentPlaceHolder1_rpFlightEvent_lblOff_0 Q1.id尾數都是無意義的亂碼字母與數字組成我這次可以輕鬆爬到資料，下次該怎防範尾數產生新的亂碼id了? Q2.如Q1. 網站這樣做算是反爬蟲手段之一嗎? 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.167.210.16 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1602611080.A.48D.html

推

totte

10/14 02:31, 5年前 , 1^F

10/14 02:31, 1^F

→

totte

10/14 02:31, 5年前 , 2^F

10/14 02:31, 2^F

推

mychiux413

10/14 11:42, 5年前 , 3^F

10/14 11:42, 3^F