[問題] 自動載入網頁且分析問題

看板Python作者 (busystudent)時間8年前 (2016/04/01 23:20), 8年前編輯推噓2(2016)
留言18則, 6人參與, 最新討論串1/1
hi 最近寫python遇到幾個問題,想跟大家請教 1.我有一個txt檔,內有多筆網址,這是我爬蟲下來的隨機網站,如下範例 http://goo.gl/hZM42U http://goo.gl/fjJ0lG http://goo.gl/N9HjLw ..........................等多筆資料 我希望在下面的url中,可以自動載入上述的網址, import xml from __future__ import division import nltk, re, pprint from urllib import urlopen url = "http://goo.gl/hZM42U" text = urlopen(url).read() 你可以觀察url = "http://goo.gl/hZM42U ",這一行就可。 我想請問要如何自動把網址加入url這一行中呢?我原本是打算一次open這個txt檔,可以是馬上就出錯了, 只好一筆筆手動貼上,還請大家幫我解答,謝謝。 -- Sent from my Windows -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.110.158.25 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1459524000.A.B07.html

04/01 23:23, , 1F
再問個延伸問題到底要如何把 例如'aaa'這類型的物件塞進 ure = []的
04/01 23:23, 1F

04/01 23:23, , 2F
框框裡?
04/01 23:23, 2F
※ 編輯: busystudent (42.72.191.2), 04/01/2016 23:28:06

04/01 23:56, , 3F
可以敘述得詳細點嗎?這聽起來像是ure + ['aaa']就好
04/01 23:56, 3F

04/01 23:58, , 4F
你只要用個array塞進這些網址 然後iterate就好了
04/01 23:58, 4F

04/02 00:00, , 5F
ok 問題點在於我有很多像是'aaa' 'bb'等
04/02 00:00, 5F

04/02 00:00, , 6F
的網頁,可是我不會讓這些網頁一次ㄧ個載
04/02 00:00, 6F

04/02 00:00, , 7F
04/02 00:00, 7F

04/02 00:07, , 8F
我希望一次再入一個網址,我後續還有分析,等run完再
04/02 00:07, 8F

04/02 00:07, , 9F
跑第二個。
04/02 00:07, 9F

04/02 09:48, , 10F
For I in my list: url=i
04/02 09:48, 10F

04/02 12:08, , 11F
看你的描述應該可以用generator, 一次跑一個網址
04/02 12:08, 11F

04/02 12:20, , 12F
重看一次不用generator, 就用for迴圈跑就好
04/02 12:20, 12F

04/02 13:38, , 13F
三樓的解應該就是正解了
04/02 13:38, 13F

04/02 14:24, , 14F
感謝大家的回應,謝謝
04/02 14:24, 14F

04/02 14:49, , 15F
題外話個人建議用 requests 取代內建那個 urllib 更好用
04/02 14:49, 15F

04/02 14:50, , 16F
若你用 python3 urllib 會有異動,程式碼也要改
04/02 14:50, 16F

04/02 16:11, , 17F
又載入xml又載入re又載入nltk...你是想要擷取資訊? 可以用
04/02 16:11, 17F

04/02 16:11, , 18F
BeautifulSoup...會簡單很多
04/02 16:11, 18F
文章代碼(AID): #1M_f6Wi7 (Python)