[問題] 爬蟲出網站中所有的內文

看板Python作者 (翰)時間6年前 (2017/09/01 22:42), 編輯推噓-4(0414)
留言18則, 8人參與, 最新討論串1/1
大家好 小弟目前爬蟲初學者 在目前的專案中需要用到爬蟲 但是是不知道會去爬哪個網站 應該說目標是丟入任意網址都要可以丟出該網站的內文 有點像是google搜尋引擎中 搜尋完的網站下方會出現預覽內文一樣 不知道有沒有辦法可以做到 或是github上面有神人已經寫出相關的API可以使用 因為不知道用什麼關鍵字搜尋比較好 所以找到的大部分都是只能爬出特定網站 或是只能爬出網址中的網址 跟我所想要的不太一樣 拜託各位神人大大了 謝謝!!! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 119.77.130.74 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1504276959.A.C92.html

09/01 23:18, , 1F
beautifulsoup 你有點懶惰哦
09/01 23:18, 1F

09/02 00:11, , 2F
首先你要定義內文
09/02 00:11, 2F

09/02 03:20, , 3F
請定義內文
09/02 03:20, 3F

09/02 14:11, , 4F
謝謝樓上大大們的回應
09/02 14:11, 4F

09/02 14:11, , 5F
我想要的內文就是網站的所有文字內容
09/02 14:11, 5F

09/02 14:11, , 6F
只有會給使用者看得到的內容
09/02 14:11, 6F

09/02 14:11, , 7F
小弟我會使用beautifulsoup
09/02 14:11, 7F

09/02 14:11, , 8F
但是一定要定義tag才能find並解析
09/02 14:11, 8F

09/02 14:11, , 9F
有沒有辦法是不需要定義tag就可以爬出來
09/02 14:11, 9F

09/02 14:11, , 10F
因為每一個網址的tag都不一樣
09/02 14:11, 10F

09/02 14:11, , 11F
不知道有沒有辦法
09/02 14:11, 11F

09/02 14:11, , 12F
先在此謝謝大家!!
09/02 14:11, 12F

09/02 15:47, , 13F
urllib.open(url).read()
09/02 15:47, 13F

09/03 11:28, , 14F
網頁頁面是人寫的,沒人規定tag要怎麼用 頁面要怎麼排
09/03 11:28, 14F

09/03 11:29, , 15F
簡單一句話:case by case
09/03 11:29, 15F

09/03 14:33, , 16F
search engine crawler
09/03 14:33, 16F

09/04 23:38, , 17F
上網查都是英文的,看不懂可以買中文書啊,又不是說沒
09/04 23:38, 17F

09/04 23:38, , 18F
書可買
09/04 23:38, 18F
文章代碼(AID): #1PgN7VoI (Python)