[問題] 台銀網頁爬蟲

看板Python作者 (fealing)時間7年前 (2017/04/14 17:55), 7年前編輯推噓3(305)
留言8則, 6人參與, 最新討論串1/1
各位前輩大家好 最近練習爬蟲寫BeautifulSoup 主要是只想要抓取台銀網頁,貨幣及現金匯率(本行賣出)就好 目前是可以抓到資料,但是貨幣那欄的值一直都是置中 但是我只想要單純的文字就好,不要置中QQ 以下是code,還請各位前輩幫忙指教 import requests from bs4 import BeautifulSoup res = requests.get('http://rate.bot.com.tw/xrt?Lang=zh-TW') soup = BeautifulSoup(res.text,'html.parser') Currency = soup.find_all(class_='hidden-phone print_show') Rate = soup.find_all(class_='rate-content-cash text-right print_hide') for x in range(0,18): print(Currency[x].text) print(Rate[x*2+1].text) 輸出結果: 美金 (USD) 30.572 港幣 (HKD) 3.953 英鎊 (GBP) 38.89 澳幣 (AUD) 23.35 加拿大幣 (CAD) 23.17 新加坡幣 (SGD) 22.01 瑞士法郎 (CHF) 30.61 (列出幾行參考結果....) 另外想請問大家一個問題 抓取網頁時 .content / .string / .text有什麼不同呢? 目前還是新手,如果問題很爛,還請大家多多包涵 謝謝大家 ※ 編輯: fealing (125.227.157.49), 04/14/2017 17:56:18

04/14 18:02, , 1F
strip()?
04/14 18:02, 1F

04/14 23:06, , 2F
因為他本來就有很多空白.....
04/14 23:06, 2F

04/14 23:10, , 3F
同一樓 print(Currency[x].text.strip())
04/14 23:10, 3F

04/15 13:02, , 4F
非常感謝樓上各位版友的幫忙,終於可以了,謝謝
04/15 13:02, 4F

04/15 15:36, , 5F
contents:把一階子標籤拆開整理成list
04/15 15:36, 5F

04/15 15:37, , 6F
string:只針對只有一個子標籤在用,取得裡面的string
04/15 15:37, 6F

04/15 15:38, , 7F
text:把所有子標籤內的string合併成一個string
04/15 15:38, 7F

04/16 16:25, , 8F
台銀網頁不是可以取CSV格式??
04/16 16:25, 8F
文章代碼(AID): #1Oy9o1QN (Python)