Re: [問題] 網路爬蟲 抓不到標籤<img>的src屬性

看板Python作者 (ccccccc)時間5年前 (2018/11/11 21:30), 編輯推噓1(103)
留言4則, 3人參與, 5年前最新討論串1/1
不在意速度的話... from selenium import webdriver from bs4 import BeautifulSoup url = 'https://v.comicbus.com/online/comic-103.html?ch=924' browser = webdriver.PhantomJS() browser.get(url) html = browser.page_source soup = BeautifulSoup(html, 'html.parser') img_url = 'https:%s' % soup.find('img', {'id': 'TheImg'})['src'] print img_url ==== 不過其實phantomjs已經deprecated了,但還是可以用。 上面那段我自己跑過,可以抓到,只是真的很慢 ※ 引述《bugbug777 (sil)》之銘言: : 大家好,小魯是個網路爬蟲新手 : 最近想來寫一個下載圖片的網路爬蟲 : 這裡附上簡短的程式碼 : <img border="0" id="TheImg" name="TheImg"/> : 似乎抓不到src的這個屬性,請問這是為什麼? : 圖示8comic的海賊王924話圖片 : https://imgur.com/ccnRjKr
-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.160.207.149 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1541943001.A.D7D.html

11/11 21:55, 5年前 , 1F
請問用火狐可以嘛 還是你只是隨便挑一個瀏覽器用@@a
11/11 21:55, 1F

11/11 22:06, 5年前 , 2F
都可以 我只是順手用個default headless的driver
11/11 22:06, 2F

11/11 22:15, 5年前 , 3F
謝謝你喔 還貼出完整的程式碼
11/11 22:15, 3F

11/12 00:34, 5年前 , 4F
我在上一串貼的圖用火狐,是因為在Linux比較好裝
11/12 00:34, 4F
文章代碼(AID): #1Rw2xPrz (Python)