[問題]爬蟲問題
小弟最近想練習python的抓站功能,目的是每天定時抓取記憶體顆粒網站的價格
但是小弟功力尚淺,怎麼撈都只撈到 "loading...." 撈不到載入過後的表格內文
小弟嘗試加入等待時間,但是不是很有效,以下是程式碼,請問該如何抓取載入
後的內文呢?
網站: DRAMeXchange
網址: http://www.dramexchange.com/#memory
小弟抓到的狀況都是如圖右,在入中的程式碼,加入延遲後還是得不到圖左的內文
圖片: http://www.imgur.com/a7zmgyM.jpg
----
# -*- coding: utf-8 -*-
import urllib2
from bs4 import BeautifulSoup
opener = urllib2.build_opener()
URL = 'http://www.dramexchange.com/#memory'
Header = [('User-Agent', 'Mozilla/5.0')]
Req = urllib2.Request(URL)
Req.addheaders = Header
Res = opener.open(Req)
Html = Res.read()
soup = BeautifulSoup(Html)
MidFrame = soup.find_all('div', class_='left_tab') // data 位置
print MidFrame[0] // 先只取第一個Frame
---
執行後可以看到倒數第9行左右 顯示:
<tr>
<td align="center" colspan"12">
<img scr ="Common/Images/ajax_loading.gif"/>
<br/>
loading.....
<font color="#FFFFFF">DDR3 2G 256Mx8 1333MHz, DDR3 2Gb 256Mx8 eTT,<br/>
DDR3 1Gb 128Mx8 eTT, DDR3 1Gb 128Mx8 1333Mhz<br/>
.
.
.
.
.
請問該怎麼抓到該處Loading後的DATA呢?
謝謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.122.141.131
※ 編輯: Thisisnotptt 來自: 140.122.141.131 (08/24 10:35)
推
08/24 12:08, , 1F
08/24 12:08, 1F
討論串 (同標題文章)