[討論] 分享個人爬蟲資料 ( PTT文章 )

看板Python作者 (123)時間6年前 (2017/11/04 21:40), 6年前編輯推噓7(7016)
留言23則, 9人參與, 6年前最新討論串1/1
分享給對text mining有興趣的朋友 以下是我個人架設的 MySQL 平台 目前累積超過 500 萬篇 ptt 文章 ( 包含八卦版,總共36GB ),連結如下 http://114.34.138.146/phpmyadmin/ 另外以下連結是我的 github ,有對平台做一些介紹, https://github.com/f496328mm/Crawler_and_Share github中提供關於 py 連上 MySQL 的範例 1. py_connect_sql_example.py,可自由取得 SQL 中的 data,該程式中已將格式轉為 dataframe ,利於分析。 2. upload_clean_data.py,可上傳 data 的帳號,提供各位進行 data clean 後, 一個上傳/分享的管道,這樣就不需要每個人都進行 data clean,合作的概念。 程式中提供建立 data file 和上傳 data 的範例。 PS : 如需其他 PTT 文章,可以私訊我,我會優先進行爬蟲。 PS2: 本人在當兵中,放假不固定,有時間會上 github or ptt 進行回覆。 ---------------------------------------------------------------------- 另外即使我當兵期間,程式也設定好,每天爬取新文章 and 舊的文章, 基本上 500 萬篇應該超過 PTT 一半以上的文章了吧? 如果有些版,特別多文章,而我沒有注意到,麻煩再寄信提醒我,謝謝 --------------------------------------------------------------------- 如果有建議也歡迎提供,本人數學系出身,這方面沒什麼經驗, 幾乎都是土法煉鋼 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.63.132 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1509802847.A.AFB.html

11/04 21:42, 6年前 , 1F
11/04 21:42, 1F

11/05 01:32, 6年前 , 2F
推 我也是用python寫 還有搭配mail會通知
11/05 01:32, 2F

11/05 01:33, 6年前 , 3F
為了抓股版的抄底王XD
11/05 01:33, 3F

11/05 01:41, 6年前 , 4F
話說我每次都在想 不想被放在ptt以外的人可以告嗎XD
11/05 01:41, 4F

11/05 08:41, 6年前 , 5F
樓上是想說智財的重製跟散佈?
11/05 08:41, 5F

11/05 11:14, 6年前 , 6F
站方本身是不允許這種備份行為的.. 只是抓不到
11/05 11:14, 6F

11/05 20:47, 6年前 , 7F
如果不允許,那麼fb的出賣表特又該如何解釋呢?
11/05 20:47, 7F

11/06 12:29, 6年前 , 8F
違反站規的事情你做了沒被抓不代表站方默許
11/06 12:29, 8F

11/06 12:29, 6年前 , 9F
可以去看看PttAntiBot這個看板
11/06 12:29, 9F

11/06 12:30, 6年前 , 10F
如果是單個爬蟲就算了 做了分散式爬蟲算是DDOS了
11/06 12:30, 10F

11/06 12:30, 6年前 , 11F
要用法律治你也是可以的
11/06 12:30, 11F

11/06 20:05, 6年前 , 12F
樓上其實說的沒錯,爬蟲有點遊走在法律邊緣,甚至有些
11/06 20:05, 12F

11/06 20:05, 6年前 , 13F
網站會擋,程式瀏覽網頁跟人的行為非常不同,不難抓/
11/06 20:05, 13F

11/06 20:05, 6年前 , 14F
11/06 20:05, 14F

11/07 15:21, 6年前 , 15F
除非要玩文字探勘不然架這個用途想不太出要做什麼,
11/07 15:21, 15F

11/07 15:23, 6年前 , 16F
不如架一個股票股價相關資訊的資料庫應該會大受歡迎
11/07 15:23, 16F

11/07 15:24, 6年前 , 17F
(純屬個人偏見)
11/07 15:24, 17F

11/07 15:27, 6年前 , 18F
不過受歡迎後吃掉的頻寬/資源就很可觀了 :p
11/07 15:27, 18F

11/07 20:18, 6年前 , 19F
我的目的就是text mining、nlp
11/07 20:18, 19F

11/08 07:10, 6年前 , 20F
目前在當兵,PTT也快抓完了,會再去抓其他data
11/08 07:10, 20F
※ 編輯: f496328mm (42.78.158.110), 11/10/2017 07:13:55

11/13 12:11, 6年前 , 21F
你中文都沒遇到問題嗎,我常遇到 cp950,即便對方編碼是 u
11/13 12:11, 21F

11/13 12:11, 6年前 , 22F
tf8
11/13 12:11, 22F

11/13 19:40, 6年前 , 23F
chan,我目前都沒遇到過,爬新聞、雜誌等等都沒遇到
11/13 19:40, 23F
文章代碼(AID): #1P_SDVhx (Python)