[問卦] 八卦版資料結構化有沒有搞頭?已回收

看板Gossiping作者 (daviden)時間7年前 (2018/11/22 03:56), 編輯推噓8(8010)
留言18則, 9人參與, 7年前最新討論串1/1
最近看到越來越多用八卦版做資料分析的例子。 像先前的異常爆文統計器,或是更早以前的推文時段分析 我就在想,不知道做八卦版資料結構化有沒有搞頭? 所謂資料結構化,就是把PO文、推文從人類可讀的格式 轉成機器可讀的格式。例如表格。 下面是我用手邊現有的程式爬取的資料 https://imgur.com/mYGzaKp.jpg
用網址做ID,紀錄文章分類(tag),標題、作者、發文IP、日期、文章內文 程式也順便統計了推、噓、箭頭的數量。 推文部分,則記錄在另一個表格 https://imgur.com/t3IvHlf.jpg
用網址連接到文章(foreign key)。 我現在的想法是,做一個自動化的流程,每天定時更新。 更新的資料自動上傳到Dropbox,讓有需要的人下載。 目前的困難有: 1. 需要一台固定的電腦/伺服器。 這種例行的程式,用我的筆電執行太不穩定了。 家裡斷網、出門旅行都會影響資料的收集。 我先前是用一個雲端伺服器(Scrapy cloud),但他們最近開始收費了,一個月9鎂。 2. 不知道output哪一種格式,對大家比較方便。 目前是用csv,因為最簡單,也可以用excel開啟。 但如果要整合長時間的資料,csv就不方便。可能用資料庫會比較好。 總之,就是想問問這樣做有沒有搞頭,有沒有人想使用? 如果有,我再來想怎麼解決上述的問題。 如果沒有,嗯...我還是會把程式放在Github,讓有需要的人使用。 以上 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 129.109.143.147 ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1542830177.A.ED4.html

11/22 03:59, 7年前 , 1F
Structurlized?
11/22 03:59, 1F

11/22 04:00, 7年前 , 2F
總覺得這個應該是站方自己要生個API來給
11/22 04:00, 2F

11/22 04:00, 7年前 , 3F
大家用,不是每個人都開自己的爬蟲來浪費
11/22 04:00, 3F

11/22 04:00, 7年前 , 4F
時間資源發明重複的輪子…但可能也有難處
11/22 04:00, 4F

11/22 04:00, 7年前 , 5F
吧,像是文章著作權問題…還是遊走在灰色
11/22 04:00, 5F

11/22 04:00, 7年前 , 6F
地帶
11/22 04:00, 6F

11/22 04:00, 7年前 , 7F
你這只是爬蟲而已吧,記得github上有
11/22 04:00, 7F

11/22 04:00, 7年前 , 8F
不少不錯的爬蟲範本
11/22 04:00, 8F

11/22 04:05, 7年前 , 9F
推 板上一堆只看標題不看內文的
11/22 04:05, 9F

11/22 04:05, 7年前 , 10F
要有搞頭得給大家 批判抓網軍時候有用吧
11/22 04:05, 10F

11/22 04:07, 7年前 , 11F
像iA那樣?把爬來得數據統合架個網頁擺伺
11/22 04:07, 11F

11/22 04:07, 7年前 , 12F
服器,ㄅ過這些成本承擔又和ia類似??
11/22 04:07, 12F

11/22 04:10, 7年前 , 13F
想收集的應該也會自己想辦法搞爬蟲去搜??
11/22 04:10, 13F

11/22 04:40, 7年前 , 14F
募資R 我每個月斗你一鎂 樓下八ㄍ跟上
11/22 04:40, 14F

11/22 05:26, 7年前 , 15F
不要
11/22 05:26, 15F

11/22 07:52, 7年前 , 16F
八卦板算是半結構化資料,適用搜尋引擎吧
11/22 07:52, 16F

11/22 08:52, 7年前 , 17F
ptt 開放直接讀取原始資料的功能
11/22 08:52, 17F

11/22 08:53, 7年前 , 18F
別再爬了 太浪費資源了
11/22 08:53, 18F
文章代碼(AID): #1RzRXXxK (Gossiping)