[心得] PTT 爬蟲函式庫

看板Python作者時間7年前 (2017/07/08 23:01), 6年前編輯推噓14(1404)
留言18則, 15人參與, 最新討論串1/1
Hi 因為有需要跟PTT銜接的需求 所以寫了一個PTT爬蟲可以使用的函式庫 算是把散佈在版上關於PTT爬蟲的知識做個整理 不用再每個人都自己把底層實做一次 有缺少的功能 api 請立馬告訴我 有需要歡迎引用 有問題歡迎回報 最後如果可以 不吝給個星星 謝謝 <3 https://github.com/Truth0906/PTTCrawlerLibrary 20171013 更新 整理了前人的程式碼 更新字元對照表共十三萬行 成功支援 PTT 編碼 big5uao 備註一下 這個編碼計畫在2006年社群就停止了 找到的程式碼也停留在 python2跟蠻早版本的對照表 更只有實作 decode 的狀態。 PTT 預設使用這種編碼 當然大部分情況可以使用big5運作 但有人回報內文日文會爆炸 讓我不得不研究一下這富有歷史意義的 big5uao。 我整理出來的這份編碼程式碼 應該是目前年代最新最完整的版本了。 CodingMan -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.161.55.119 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1499526083.A.9F4.html ※ 編輯: CodingMan (218.161.55.119), 07/08/2017 23:14:04

07/09 00:52, , 1F
07/09 00:52, 1F

07/09 09:13, , 2F
07/09 09:13, 2F

07/09 22:32, , 3F
07/09 22:32, 3F
※ 編輯: CodingMan (218.161.55.119), 07/10/2017 00:14:56

07/10 10:39, , 4F
<3
07/10 10:39, 4F

07/10 14:53, , 5F
07/10 14:53, 5F

07/11 00:40, , 6F
我有寫一個multithreaded的爬蟲https://goo.gl/768vmV
07/11 00:40, 6F

07/11 08:48, , 7F
謝謝 我研究一下
07/11 08:48, 7F

07/12 07:57, , 8F
07/12 07:57, 8F

07/13 19:01, , 9F
推一個
07/13 19:01, 9F

07/14 10:04, , 10F
推一個 太強大了
07/14 10:04, 10F

07/15 17:24, , 11F
在import出現error http://imgur.com/wvQKmhw
07/15 17:24, 11F

07/15 17:24, , 12F
有專家可以幫小弟解答嗎Orz
07/15 17:24, 12F

07/15 23:23, , 13F
.......他又沒有丟上 PyPI ...
07/15 23:23, 13F

07/16 10:38, , 14F
....我丟 我丟
07/16 10:38, 14F

07/17 11:58, , 15F
抱歉抱歉 小弟初學python 不清楚流程 謝謝原PO z大
07/17 11:58, 15F

07/17 14:39, , 16F
還不快丟XDDD
07/17 14:39, 16F

07/18 19:42, , 17F
讚,我是剛開始進入程式的初心者,向巨人說謝謝
07/18 19:42, 17F

08/24 15:26, , 18F
cool!!!
08/24 15:26, 18F
※ 編輯: CodingMan (110.28.226.62), 10/13/2017 21:20:58
文章代碼(AID): #1POFF3dq (Python)