[討論] 分享個人爬蟲資料 ( PTT文章 )
分享給對text mining有興趣的朋友
以下是我個人架設的 MySQL 平台
目前累積超過 500 萬篇 ptt 文章 ( 包含八卦版,總共36GB ),連結如下
http://114.34.138.146/phpmyadmin/
另外以下連結是我的 github ,有對平台做一些介紹,
https://github.com/f496328mm/Crawler_and_Share
github中提供關於 py 連上 MySQL 的範例
1.
py_connect_sql_example.py,可自由取得 SQL 中的 data,該程式中已將格式轉為
dataframe ,利於分析。
2.
upload_clean_data.py,可上傳 data 的帳號,提供各位進行 data clean 後,
一個上傳/分享的管道,這樣就不需要每個人都進行 data clean,合作的概念。
程式中提供建立 data file 和上傳 data 的範例。
PS : 如需其他 PTT 文章,可以私訊我,我會優先進行爬蟲。
PS2: 本人在當兵中,放假不固定,有時間會上 github or ptt 進行回覆。
----------------------------------------------------------------------
另外即使我當兵期間,程式也設定好,每天爬取新文章 and 舊的文章,
基本上 500 萬篇應該超過 PTT 一半以上的文章了吧?
如果有些版,特別多文章,而我沒有注意到,麻煩再寄信提醒我,謝謝
---------------------------------------------------------------------
如果有建議也歡迎提供,本人數學系出身,這方面沒什麼經驗,
幾乎都是土法煉鋼
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.63.132
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1509802847.A.AFB.html
推
11/04 21:42,
6年前
, 1F
11/04 21:42, 1F
推
11/05 01:32,
6年前
, 2F
11/05 01:32, 2F
→
11/05 01:33,
6年前
, 3F
11/05 01:33, 3F
推
11/05 01:41,
6年前
, 4F
11/05 01:41, 4F
推
11/05 08:41,
6年前
, 5F
11/05 08:41, 5F
→
11/05 11:14,
6年前
, 6F
11/05 11:14, 6F
推
11/05 20:47,
6年前
, 7F
11/05 20:47, 7F
→
11/06 12:29,
6年前
, 8F
11/06 12:29, 8F
→
11/06 12:29,
6年前
, 9F
11/06 12:29, 9F
→
11/06 12:30,
6年前
, 10F
11/06 12:30, 10F
→
11/06 12:30,
6年前
, 11F
11/06 12:30, 11F
→
11/06 20:05,
6年前
, 12F
11/06 20:05, 12F
→
11/06 20:05,
6年前
, 13F
11/06 20:05, 13F
→
11/06 20:05,
6年前
, 14F
11/06 20:05, 14F
推
11/07 15:21,
6年前
, 15F
11/07 15:21, 15F
→
11/07 15:23,
6年前
, 16F
11/07 15:23, 16F
→
11/07 15:24,
6年前
, 17F
11/07 15:24, 17F
→
11/07 15:27,
6年前
, 18F
11/07 15:27, 18F
→
11/07 20:18,
6年前
, 19F
11/07 20:18, 19F
→
11/08 07:10,
6年前
, 20F
11/08 07:10, 20F
※ 編輯: f496328mm (42.78.158.110), 11/10/2017 07:13:55
推
11/13 12:11,
6年前
, 21F
11/13 12:11, 21F
→
11/13 12:11,
6年前
, 22F
11/13 12:11, 22F
→
11/13 19:40,
6年前
, 23F
11/13 19:40, 23F