[問題] Selenium與BeautifulSoup有什麼不同?

看板Python作者 (謝謝你9527)時間9年前發表 (2016/02/15 10:04), 9年前編輯推噓2(209)
留言11則, 4人參與, 最新討論串1/1
各位前輩大家好 目前正在學習python來當網路爬蟲 之前用BS成功抓取table的資料 也知道BS的強大 後來發現BS還是有他的瓶頸 因為他不是瀏覽器 他無法幫我們選取按鈕或觸發AJAX 後來爬文後發現selenium好像可以實現這些行為 透過觸發後 就可以獲得BS原本無法得到的資訊 例如要onclick後才會出現的網址或按鈕 我只要用selenium去觸發onclick 就可以獲得網址 然後再用BS去分析這個網址 看起來我自己好像已經講完了 但其實我不是很肯定我的理解對不對 希望各位大神能幫我解答 看看是否正確 如果方便的話 也麻煩大家提醒我 我的理解還有哪些不足 感謝大家! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.232.184.189 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1455530682.A.8FE.html ※ 編輯: peace9527 (36.232.184.189), 02/15/2016 18:05:29

02/15 19:25, , 1F
bs只是用來處理你抓下來的網頁文字檔,所以seleniu
02/15 19:25, 1F

02/15 19:25, , 2F
m跟bs應該是不衝突的
02/15 19:25, 2F

02/15 21:59, , 3F
不衝突 要做動作的話request好像也可以
02/15 21:59, 3F

02/16 00:57, , 4F
一般用selenium+css/xpath selector抓element text, 除非需要
02/16 00:57, 4F

02/16 00:57, , 5F
複雜互動再考慮混用。高效應該還是BS only抓已知網址內容。
02/16 00:57, 5F

02/16 01:02, , 6F
request data/url/selector當然就靠browser developer tool功
02/16 01:02, 6F

02/16 01:02, , 7F
能找出來
02/16 01:02, 7F

02/16 14:08, , 8F
叫做 Headless browser 的樣子。
02/16 14:08, 8F

02/25 13:47, , 9F
我錯了,selenium跟headless browser差頗多。
02/25 13:47, 9F

03/05 22:32, , 10F
selenium可以用phantomjs的ghostdriver是headless的…
03/05 22:32, 10F

03/05 22:37, , 11F
前面說的不太對.selenium適合需要複雜互動時用 一般BS就夠
03/05 22:37, 11F
文章代碼(AID): #1MmQAwZ- (Python)