[問題] Pchome股票網站爬蟲

看板Python作者 (挖哩勒)時間2年前 (2021/12/08 22:13), 編輯推噓0(003)
留言3則, 2人參與, 2年前最新討論串1/1
各位版上大大好 小弟剛進到爬蟲的世界 想嘗試爬取Pchome股市的概念股清單 網址如下 https://pchome.megatime.com.tw/group/sto3 先附上程式碼 import time import requests from bs4 import BeautifulSoup header={'Referer':'http://pchome.megatime.com.tw/stock/sto3/', 'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'} url = "https://pchome.megatime.com.tw/group/sto3" r = requests.post(url,header) r.encoding = 'UTF-8' sp = BeautifulSoup(r.text, 'html5lib') sp 在sto3 那個Document裡面有看到需要的資料但爬出來的資料卻只有下面幾行 但爬出來只有看到下面幾行 <html><head> </head> <body> <form action="https://pchome.megatime.com.tw/group/sto3" id="submit_form" method="post" name="submit_form"> <input name="is_check" type="hidden" value="1"/> </form> <script type="text/javascript"> document.getElementById('submit_form').submit(); </script> </body></html> 有爬到之前的文章說是header設定不對 https://pttdigit.com/python/M.1485354796.A.810.html 但我header 照著這篇大大說的設定方法類比去設還是沒辦法成功 有另外嘗試使用pyppeteer 但也是爬不出來 想請版上大神能指點迷津 感謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.135.101.62 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1638972815.A.1BC.html

12/10 02:42, 2年前 , 1F
第一則推文不是有說不能用requests嗎
12/10 02:42, 1F

12/10 20:30, 2年前 , 2F
Referer的意思是 從哪個url來的 不是填你要連的網址
12/10 20:30, 2F

12/10 20:33, 2年前 , 3F
抱歉我搞錯了 把Referer最後的 / 去掉試試
12/10 20:33, 3F
文章代碼(AID): #1XiBsF6y (Python)