[問題]爬蟲問題

看板Python作者Thisisnotptt (這不是PTT)時間12年前 (2013/08/24 02:32)推噓1(1推 0噓 0→)

留言1則, 1人參與討論串1/2 (看更多)

小弟最近想練習python的抓站功能，目的是每天定時抓取記憶體顆粒網站的價格但是小弟功力尚淺，怎麼撈都只撈到 "loading...." 撈不到載入過後的表格內文小弟嘗試加入等待時間，但是不是很有效，以下是程式碼，請問該如何抓取載入後的內文呢? 網站: DRAMeXchange 網址: http://www.dramexchange.com/#memory 小弟抓到的狀況都是如圖右，在入中的程式碼，加入延遲後還是得不到圖左的內文圖片: http://www.imgur.com/a7zmgyM.jpg

---- # -*- coding: utf-8 -*- import urllib2 from bs4 import BeautifulSoup opener = urllib2.build_opener() URL = 'http://www.dramexchange.com/#memory' Header = [('User-Agent', 'Mozilla/5.0')] Req = urllib2.Request(URL) Req.addheaders = Header Res = opener.open(Req) Html = Res.read() soup = BeautifulSoup(Html) MidFrame = soup.find_all('div', class_='left_tab') // data 位置 print MidFrame[0] // 先只取第一個Frame --- 執行後可以看到倒數第9行左右顯示: <tr> <td align="center" colspan"12"> <img scr ="Common/Images/ajax_loading.gif"/> <br/> loading..... <font color="#FFFFFF">DDR3 2G 256Mx8 1333MHz, DDR3 2Gb 256Mx8 eTT,<br/> DDR3 1Gb 128Mx8 eTT, DDR3 1Gb 128Mx8 1333Mhz<br/> . . . . . 請問該怎麼抓到該處Loading後的DATA呢? 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.122.141.131 ※ 編輯: Thisisnotptt 來自: 140.122.141.131 (08/24 10:35)

推

z101924512

08/24 12:08, , 1^F

08/24 12:08, 1^F

‣ 返回看板[ Python ] 程設

‣ 更多 Thisisnotptt 的文章

文章代碼(AID): #1I61iZee (Python)