[問題] 批踢踢Crawler

看板Python作者 (阿吉amig)時間13年前 (2012/05/19 08:23), 編輯推噓4(409)
留言13則, 8人參與, 最新討論串1/1
大家好 最近我試著要寫一個PTT Crawler 利用的是telnetlib tn = telnetlib.Telnet(host) 我想要做的是將某人po的文整篇複製下來 我的方法簡單說是這樣 1. 進入某文章 2. tn.read_very_eager() 3. 往下一行 4. tn.read_very_eager() ... 直到讀完該文章為止 但效果其實並不好 有沒有人有處理這方面的經驗呢? 懇請賜教, 感激不盡! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 125.227.97.242 ※ 編輯: amigcamel 來自: 125.227.97.242 (05/19 17:11)

05/20 00:11, , 1F
對 Web 版來抓呢?我以前抓過 ptt web 版資料,不過有些
05/20 00:11, 1F

05/20 00:11, , 2F
時候會 cgi 錯誤之類的問題
05/20 00:11, 2F

05/20 00:13, , 3F
web 沒有問題,但是我想抓八卦版的資料,但似乎web版沒
05/20 00:13, 3F

05/20 00:13, , 4F
有八卦版...
05/20 00:13, 4F

05/20 09:23, , 5F
「效果其實並不好」的意思是?
05/20 09:23, 5F

05/21 00:56, , 6F
編碼問題會有一些奇怪的亂碼出現, 我之前也試過
05/21 00:56, 6F

05/30 12:39, , 7F
以前有用這個方法抓過其他BBS站的文章
05/30 12:39, 7F

05/30 12:40, , 8F
抓下來要把BBS控制碼和色碼的部份去掉
05/30 12:40, 8F

05/31 12:06, , 9F
PTT BBS 這些控制碼等..這有沒有documentation可以讀?
05/31 12:06, 9F

06/02 01:15, , 10F
去讀 VT100 Terminal 的 control sequence 就行了
06/02 01:15, 10F

06/02 01:18, , 11F
我自己是直接 K BBS 軟體 (Nally) 的實作...
06/02 01:18, 11F

06/02 21:25, , 12F
樓上真猛@@
06/02 21:25, 12F

01/07 09:40, , 13F
請愛用 PTT Library
01/07 09:40, 13F
文章代碼(AID): #1FjrYPCy (Python)