[問題] 爬蟲只抓得到標籤名,但內容抓不到消失

看板Python作者時間7年前 (2018/04/26 19:28), 編輯推噓6(6010)
留言16則, 5人參與, 最新討論串1/1
大家好 這是我想爬的網站https://web2.sa8888.net/ https://imgur.com/x6VhTMT
在<div id="scheduleMiddle">下面的表格就是我想抓的資料 以下是我的程式碼 driver = webdriver.Chrome(chrome_options=chrome_options) driver.get("https://web2.sa8888.net/") pageSource = driver.page_source driver.close() soup = BeautifulSoup(pageSource, "html.parser") print(soup) https://imgur.com/VBeZQjp
<div id="scheduleMiddle">下面顯示不出來任何表格 就算print(soup.find_all('div',id="scheduleMiddle")) 也只會出現[<div id="scheduleMiddle"></div>] 請教大家有沒有什麼想法? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.224.134.112 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1524742106.A.F43.html

04/26 20:06, , 1F
在這網站按ctrl+U你會發現找不到比分
04/26 20:06, 1F

04/26 20:06, , 2F
因為這網頁是用POST的方式
04/26 20:06, 2F

04/26 20:09, , 3F
所以應該是要去抓有table資料的那個網頁
04/26 20:09, 3F

04/26 20:14, , 4F
用request.post抓看看
04/26 20:14, 4F

04/26 20:23, , 5F
用requests.post(Url2,headers=headers2).text 好像沒差
04/26 20:23, 5F

04/26 20:23, , 6F
出來一樣的結果
04/26 20:23, 6F

04/26 21:32, , 7F
可以trace一下source code它只有minify過
04/26 21:32, 7F

04/26 21:32, , 8F
我大概看一下 它是用websocket去抓資料
04/26 21:32, 8F

04/26 21:37, , 9F
看起來是先把資料抓出來 再用js動態產生的
04/26 21:37, 9F

04/26 21:37, , 10F
你可以研究一下資料是何時載進來的
04/26 21:37, 10F

04/26 21:38, , 11F
你在左邊的頁籤隨便按一下 會發現scheduleMiddle有變化
04/26 21:38, 11F

04/26 21:38, , 12F
但是沒有任何request 可能資料是一開始就載好了
04/26 21:38, 12F

04/27 10:04, , 13F

04/27 10:49, , 14F

04/27 11:14, , 15F
資料在wss裡面
04/27 11:14, 15F

04/27 12:03, , 16F
TO樓上 我有看到WS有彈出很像資料的部分 我研究研究一下
04/27 12:03, 16F
文章代碼(AID): #1QuRVQz3 (Python)