[問題]爬蟲問題

看板Python作者 (這不是PTT)時間10年前 (2013/08/24 10:32), 編輯推噓1(100)
留言1則, 1人參與, 最新討論串1/2 (看更多)
小弟最近想練習python的抓站功能,目的是每天定時抓取記憶體顆粒網站的價格 但是小弟功力尚淺,怎麼撈都只撈到 "loading...." 撈不到載入過後的表格內文 小弟嘗試加入等待時間,但是不是很有效,以下是程式碼,請問該如何抓取載入 後的內文呢? 網站: DRAMeXchange 網址: http://www.dramexchange.com/#memory 小弟抓到的狀況都是如圖右,在入中的程式碼,加入延遲後還是得不到圖左的內文 圖片: http://www.imgur.com/a7zmgyM.jpg
---- # -*- coding: utf-8 -*- import urllib2 from bs4 import BeautifulSoup opener = urllib2.build_opener() URL = 'http://www.dramexchange.com/#memory' Header = [('User-Agent', 'Mozilla/5.0')] Req = urllib2.Request(URL) Req.addheaders = Header Res = opener.open(Req) Html = Res.read() soup = BeautifulSoup(Html) MidFrame = soup.find_all('div', class_='left_tab') // data 位置 print MidFrame[0] // 先只取第一個Frame --- 執行後可以看到倒數第9行左右 顯示: <tr> <td align="center" colspan"12"> <img scr ="Common/Images/ajax_loading.gif"/> <br/> loading..... <font color="#FFFFFF">DDR3 2G 256Mx8 1333MHz, DDR3 2Gb 256Mx8 eTT,<br/> DDR3 1Gb 128Mx8 eTT, DDR3 1Gb 128Mx8 1333Mhz<br/> . . . . . 請問該怎麼抓到該處Loading後的DATA呢? 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.122.141.131 ※ 編輯: Thisisnotptt 來自: 140.122.141.131 (08/24 10:35)

08/24 12:08, , 1F
試試看ghost.py
08/24 12:08, 1F
文章代碼(AID): #1I61iZee (Python)
討論串 (同標題文章)
文章代碼(AID): #1I61iZee (Python)