Re: [問題] 請問如何抓網頁上的文字

看板Programming作者yoco315 (眠月)時間18年前 (2007/08/13 20:49)推噓5(5推 0噓 6→)

留言11則, 5人參與討論串3/3 (看更多)

※ 引述《liptonbin (wind)》之銘言： : 請問各位高手 : 有沒有辦法抓到特定網頁上的特定數字 : 例如http://tw.bid.yahoo.com/tw/2092073547-category-leaf.html?.r=1186936134 用 python == import urllib2, BeautifulSoup url='http://tw.bid.yahoo.com/tw/2092073547-category-leaf.html?.r=1186936134' htm = urllib2.urlopen(url).read() soup = BeautifulSoup.BeautifulSoup(htm) tabs = soup('table') trs = tabs[2]('tr') for i in range(1, len(trs)) : print trs[i]('td')[0] trs = tabs[3]('tr') for i in range(1, len(trs)) : print trs[i]('td')[0] == output <td>1,720 元</td> <td>2,499 元</td> <td>1,999 元</td> <td>1,580 元</td> <td>1,400 元</td> <td>150 元</td> <td>150 元</td> <td>300 元</td> <td>500 元</td> <td>2,650 元</td> <td>800 元</td> <td>900 元</td> <td>2,350 元</td> <td>2,600 元</td> <td>2,150 元</td> <td>3,200 元</td> <td>6,501 元</td> <td>360 元</td> <td>1,450 元</td> <td>800 元</td> <td>150 元</td> <td>150 元</td> <td>299 元</td> <td>299 元</td> <td>1,199 元</td> <td>1,500 元</td> <td>1,199 元</td> <td>1,250 元</td> <td>1,550 元</td> <td>1,450 元</td> <td>1,800 元</td> <td>550 元</td> <td>1,422 元</td> <td>2 元</td> <td>750 元</td> <td>450 元</td> <td>1,450 元</td> <td>150 元</td> <td>1,800 元</td> <td>99,999 元</td> <td>99,999 元</td> <td>4,800 元</td> <td>750 元</td> <td>2,200 元</td> <td>331 元</td> <td>350 元</td> <td>900 元</td> <td>1,600 元</td> <td>2,200 元</td> <td>800 元</td> == BeautifulSoup 是 python 的一個 html parser 支援一定程度的容錯（還沒有到瀏覽器強度，不過已經很好用了） http://www.crummy.com/software/BeautifulSoup/ 到這邊抓 -- To iterate is human, to recurse is divine. 遞迴只應天上有, 凡人該當用迴圈. 　 L. Peter Deutsch -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.114.78.32

推

qrtt1

08/13 21:14, , 1^F

08/13 21:14, 1^F

推

superGA

08/13 23:07, , 2^F

08/13 23:07, 2^F

推

StubbornLin

08/13 23:51, , 3^F

08/13 23:51, 3^F