[討論] 秀泰影城爬蟲

看板Python作者 (無敵風火輪)時間8年前 (2017/12/20 11:53), 8年前編輯推噓0(006)
留言6則, 3人參與, 8年前最新討論串1/1
最近在練習寫爬蟲,決定把全台灣影城的電影時刻表當作爬蟲的練習對象。 第一次爬了威秀影城,比較簡單,搞定了。 第二次爬了環球影城,雖然似乎只能爬到當日的時刻表,但也沒什麼問題。 第三次挑戰秀泰影城,發現他的時刻表資訊沒有秀在前端HTML上? https://www.showtimes.com.tw/events?corpId=8 仔細觀察,他在載入網頁時,會轉一個「請稍候」然後才顯示內容。 於是我使用Chrome的右鍵「檢查」工具。 發現兩個問題: 1.為什麼在網頁上點右鍵顯示原始碼,出現的是隱藏資訊的原始碼,然後在「檢查」工具 中的 Elements 欄位會顯示比較詳細的原始碼呢? 但偏偏,我使用BeautifulSoup抓上面那個連結時,他抓的是「顯示網頁上右鍵原始碼版 本」的。 所以我怎麼印都印不出來我想要的那個「電影時刻」。 2.更進一步,我在「檢查」工具中的Network欄位中觀察,選擇XHR,看看有沒有相關的AP I,果然被我找到了! 示意圖 https://i.imgur.com/UYEZs3b.png
https://capi.showtimes.com.tw/1/events/listForCorporation/8?date=2017-12-20&li mit=2000 但是在使用線上JSON工具檢查後,發現資訊不是我要的。 示意圖 https://i.imgur.com/tH12ulr.png
有大大找過秀泰影城的時刻資訊嗎? #他隱藏得太深,我找得好苦。 #覺得秀泰在躲我。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.217.151.83 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1513741999.A.A58.html ※ 編輯: students (180.217.151.83), 12/20/2017 11:57:32

12/20 12:14, 8年前 , 1F
events裡面的startedAt就是時刻,只是要自己換成GMT+8
12/20 12:14, 1F

12/20 12:16, 8年前 , 2F
底下programs對應影片,venues對應廳號就想辦法mapping
12/20 12:16, 2F

12/20 12:18, 8年前 , 3F
關於 1 原始碼那個是直接抓 html 下來 但是 Element
12/20 12:18, 3F

12/20 12:18, 8年前 , 4F
那頁會包含 js 執行完的結果 所以會比較多東西
12/20 12:18, 4F

12/20 12:20, 8年前 , 5F
應該說 Element 那頁會反應目前網頁的狀態
12/20 12:20, 5F

12/20 12:26, 8年前 , 6F
原來如此,謝謝兩位大大
12/20 12:26, 6F
文章代碼(AID): #1QETwlfO (Python)