Hi 因為有需要跟PTT銜接的需求
所以寫了一個PTT爬蟲可以使用的函式庫
算是把散佈在版上關於PTT爬蟲的知識做個整理
不用再每個人都自己把底層實做一次
有缺少的功能 api 請立馬告訴我
有需要歡迎引用 有問題歡迎回報
最後如果可以 不吝給個星星 謝謝 <3
https://github.com/Truth0906/PTTCrawlerLibrary
20171013 更新
整理了前人的程式碼
更新字元對照表共十三萬行
成功支援 PTT 編碼 big5uao
備註一下
這個編碼計畫在2006年社群就停止了
找到的程式碼也停留在 python2跟蠻早版本的對照表
更只有實作 decode 的狀態。
PTT 預設使用這種編碼
當然大部分情況可以使用big5運作
但有人回報內文日文會爆炸
讓我不得不研究一下這富有歷史意義的 big5uao。
我整理出來的這份編碼程式碼
應該是目前年代最新最完整的版本了。
CodingMan
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.161.55.119
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1499526083.A.9F4.html
※ 編輯: CodingMan (218.161.55.119), 07/08/2017 23:14:04
推
07/09 00:52, , 1F
07/09 00:52, 1F
推
07/09 09:13, , 2F
07/09 09:13, 2F
推
07/09 22:32, , 3F
07/09 22:32, 3F
※ 編輯: CodingMan (218.161.55.119), 07/10/2017 00:14:56
推
07/10 10:39, , 4F
07/10 10:39, 4F
推
07/10 14:53, , 5F
07/10 14:53, 5F
推
07/11 00:40, , 6F
07/11 00:40, 6F
→
07/11 08:48, , 7F
07/11 08:48, 7F
推
07/12 07:57, , 8F
07/12 07:57, 8F
推
07/13 19:01, , 9F
07/13 19:01, 9F
推
07/14 10:04, , 10F
07/14 10:04, 10F
推
07/15 17:24, , 11F
07/15 17:24, 11F
→
07/15 17:24, , 12F
07/15 17:24, 12F
→
07/15 23:23, , 13F
07/15 23:23, 13F
→
07/16 10:38, , 14F
07/16 10:38, 14F
推
07/17 11:58, , 15F
07/17 11:58, 15F
推
07/17 14:39, , 16F
07/17 14:39, 16F
推
07/18 19:42, , 17F
07/18 19:42, 17F
推
08/24 15:26, , 18F
08/24 15:26, 18F
※ 編輯: CodingMan (110.28.226.62), 10/13/2017 21:20:58