[問題] 新手爬蟲爬開放式政府網站遇到困難
最近在爬一個法學網站的資料
網址是http://jirs.judicial.gov.tw/FJUD/index_1.htm
選擇司法院--刑事補償 判決日期選擇106年 按查詢就會進到查詢頁面
但這時候問題就來了,我的爬蟲看到的頁面似乎跟網頁所顯示的不太一樣
<frameset cols="220,*" frameborder="no" border="0" framespacing="0">
<frame src="FJUDQRY02_1.aspx?courtFullName=&v_sys=&jud_year=&jud_case=&jud_no=&jud_no_end=&jud_title=&keyword=&sdate=&edate=&page=&id=&searchkw=&v_booktype=&deepsearch=&jmain=&JSTOCK=&JDG_COMMIS=&JDG_PRESID=" name="leftFrame" scrolling="auto" noresize="noresize" id="leftFrame" title="leftFrame"> <frame
src="FJUDQRY02_1.aspx?courtFullName=&v_sys=&jud_year=&jud_case=&jud_no=&jud_no
_end=&jud_title=&keyword=&sdate=&edate=&page=&id=&searchkw=&v_booktype=&deepse
arch=&jmain=&JSTOCK=&JDG_COMMIS=&JDG_PRESID=" name="contentFrame" id="content
Frame" title="contentFrame"> </frameset>
上面這是我爬蟲所看到的部分而我想去的真正網站是src後面那串,我試過直接用爬蟲
抓取src那一段再用新分頁開啟他,但這樣瀏覽器好像會擋
小弟才疏學淺還請大家多幫忙
以下是小弟的程式碼
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
driver = webdriver.Chrome(executable_path=r'/Users/terry/chromedriver')
driver.get("http://jirs.judicial.gov.tw/FJUD/FJUDQRY01M_1.aspx")
driver.find_element_by_name("dy1").click()
driver.find_element_by_name("dy1").clear()
driver.find_element_by_name("dy1").send_keys("106")
driver.find_element_by_name("Button").click()
time.sleep(5)
soup=bs(driver.page_source,'html.parser')
elem=soup.select('frameset frame')
url='http://jirs.judicial.gov.tw/FJUD/'+elem[1]['src']
driver.get(url)
driver.find_element_by_link_text(u"106,台重覆,13").click()
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.217.185.101
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1511371315.A.AA0.html
推
11/23 13:29,
8年前
, 1F
11/23 13:29, 1F