[問題] pandas爬蟲被擋下來

看板Python作者 (Jimmy)時間6年前 (2018/02/22 14:30), 編輯推噓2(2012)
留言14則, 8人參與, 6年前最新討論串1/1
各位版大好,剛接觸python爬蟲沒多久,想要嘗試抓取網站表格, 隨便找了個股票網站,http://stock.nlog.cc/b/1101 原本是使用bs4來爬,但是後來發現有pandas可以抓取表格, 因此想要嘗試使用pandas, 程式碼如下: import pandas url='http://stock.nlog.cc/b/1101' pd=pandas.read_html(url) print(pd) 但是卻出現了 ConnectionResetError: [WinError 10054] 遠端主機已強制關閉一個現存的連線。 這樣的文字,但是我嘗試抓別的網站,卻都沒有問題, 想問一下這是甚麼狀況?是被擋下來了嗎?該怎麼解決? 先謝謝各位了~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.226.218.20 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1519281042.A.9C5.html

02/22 16:21, 6年前 , 1F
他會檢查是否有傳User-Agent的樣子
02/22 16:21, 1F

02/22 19:39, 6年前 , 2F
from fake_useragent import UserAgent
02/22 19:39, 2F

02/22 23:33, 6年前 , 3F
我加上了header仍然會出現同樣的問題耶~
02/22 23:33, 3F

02/23 01:38, 6年前 , 4F
我有讀到,但產生另一個問題是回傳的結果非常非常難看
02/23 01:38, 4F

02/23 01:39, 6年前 , 5F
這可能反而是需要花更多時間的地方
02/23 01:39, 5F

02/23 01:39, 6年前 , 6F
建議不好用的方法就不要用
02/23 01:39, 6F

02/23 09:49, 6年前 , 7F
其實我是建議你先用req拿回來再給pandas讀啦
02/23 09:49, 7F

02/23 09:50, 6年前 , 8F
這樣速度也會提升不少
02/23 09:50, 8F

02/23 19:44, 6年前 , 9F
好的 謝謝~
02/23 19:44, 9F

03/03 07:11, 6年前 , 10F

03/06 03:39, 6年前 , 11F
03/06 03:39, 11F

03/06 04:17, 6年前 , 12F
03/06 04:17, 12F

03/06 04:30, 6年前 , 13F
03/06 04:30, 13F

03/06 04:40, 6年前 , 14F
文章代碼(AID): #1QZcEId5 (Python)