[問題] lxml 特定字串過濾

看板Python作者u9211008 (雪影)時間12年前 (2013/06/11 11:30)推噓1(1推 0噓 7→)

留言8則, 4人參與討論串1/1

各位先進大家好小弟最近為了要抓一些資料所以剛接觸python這個程式目前已經可以抓取網頁原始碼以及找出element內的text 不過有很多資訊是我不需要的，所以想問問看大大們有甚麼方式可以用lxml過濾以下為部分原始碼，網站鏈結我砍掉了部分每個id後面都有一串文字，我想要透過那串文字去過慮我要的資料例如id="ctl00_ContentPlaceHolder1_gvStock_ctl02_hyNumber 我想要用ctl00_ContentPlaceHolder1_gvStock作為過濾條件並且用hyNumber作分類請各位大大能否指點一下，謝謝。 <a id="ctl00_ContentPlaceHolder1_gvStock_ctl02_hyNumber" href="http://corpinfom.aspx?stockno=2429" target="_blank">2429</a></td><td> <a id="ctl00_ContentPlaceHolder1_gvStock_ctl02_hyStock" href="http://corpinfom.aspx?stockno=2429" target="_blank">銘旺科</a></td><td> 45.15</td><td> ▲2.95</td><td> +6.99%</td><td> 21.70%</td><td> 5.09%</td><td> 45.15</td><td> 43.00</td><td> 42.20</td><td> 17</td><td> 0.01</td> -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 59.124.199.162

→

kilfu0701

06/11 12:54, , 1^F

06/11 12:54, 1^F

→

vagrants

06/11 19:23, , 2^F

06/11 19:23, 2^F

→

vagrants

06/11 19:24, , 3^F

06/11 19:24, 3^F

當初就是看到相關文章說BS的效率蠻差的，所以沒用 RE我是有想過，不過用了lxml我就覺得再用RE過濾感覺多此一舉目前程式如下 import urllib from lxml eterr html=urllib.urlopen('http:// ').read() elements=etree.HTML(html) text=element.xpath(u"//a") for element in elements: print element.text 我想在text=element.xpath(u"//a")這裡面順便加過濾字串在ctl00_ContentPlaceHolder1_gvStock_ctl02_lblMoney 把ctl00_ContentPlaceHolder1_gvStock作為過濾條件把lblMoney作為分類條件如果只能用RE去過濾的話，請大大告知一下，順便跟我說一下RE的效率如何，謝謝。 ※ 編輯: u9211008 來自: 59.124.199.162 (06/13 13:04)

→

kilfu0701

06/13 13:16, , 4^F

06/13 13:16, 4^F

→

u9211008

06/13 17:39, , 5^F

06/13 17:39, 5^F

→

u9211008

06/13 17:40, , 6^F

06/13 17:40, 6^F

推

vagrants

06/13 18:04, , 7^F

06/13 18:04, 7^F

經由k大的指點已經能夠抓取相關id的資料了，不過有時候會抓不到一些資料其原因詢問過k大後才知道子節點的內容有可能會沒抓到，k大幫我解決這問題了我把完整的程式碼放上 # -*- coding: utf-8 -*- import urllib import lxml.etree html=urllib.urlopen('http:// ').read() tree=lxml.etree.HTML(html) regexpNS = "http://exslt.org/regular-expressions" hrefs = tree.xpath("//a[re:match(@id, 'ctl00_ContentPlaceHolder1_gvStock(.*)')]|\ //span[re:match(@id, 'ctl00_ContentPlaceHolder1_gvStock(.*)')]", namespaces={'re': regexpNS}) for href in hrefs: print "".join(href.itertext()) ※ 編輯: u9211008 來自: 124.219.26.45 (06/17 20:18)

→

swpoker

06/18 10:29, , 8^F

06/18 10:29, 8^F

‣ 返回看板[ Python ] 程設

‣ 更多 u9211008 的文章

文章代碼(AID): #1Hjfd2HH (Python)