[問卦] 八卦版資料結構化有沒有搞頭?已回收
最近看到越來越多用八卦版做資料分析的例子。
像先前的異常爆文統計器,或是更早以前的推文時段分析
我就在想,不知道做八卦版資料結構化有沒有搞頭?
所謂資料結構化,就是把PO文、推文從人類可讀的格式
轉成機器可讀的格式。例如表格。
下面是我用手邊現有的程式爬取的資料
https://imgur.com/mYGzaKp.jpg

用網址做ID,紀錄文章分類(tag),標題、作者、發文IP、日期、文章內文
程式也順便統計了推、噓、箭頭的數量。
推文部分,則記錄在另一個表格
https://imgur.com/t3IvHlf.jpg

用網址連接到文章(foreign key)。
我現在的想法是,做一個自動化的流程,每天定時更新。
更新的資料自動上傳到Dropbox,讓有需要的人下載。
目前的困難有:
1. 需要一台固定的電腦/伺服器。
這種例行的程式,用我的筆電執行太不穩定了。
家裡斷網、出門旅行都會影響資料的收集。
我先前是用一個雲端伺服器(Scrapy cloud),但他們最近開始收費了,一個月9鎂。
2. 不知道output哪一種格式,對大家比較方便。
目前是用csv,因為最簡單,也可以用excel開啟。
但如果要整合長時間的資料,csv就不方便。可能用資料庫會比較好。
總之,就是想問問這樣做有沒有搞頭,有沒有人想使用?
如果有,我再來想怎麼解決上述的問題。
如果沒有,嗯...我還是會把程式放在Github,讓有需要的人使用。
以上
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 129.109.143.147
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1542830177.A.ED4.html
推
11/22 03:59,
7年前
, 1F
11/22 03:59, 1F
推
11/22 04:00,
7年前
, 2F
11/22 04:00, 2F
→
11/22 04:00,
7年前
, 3F
11/22 04:00, 3F
→
11/22 04:00,
7年前
, 4F
11/22 04:00, 4F
→
11/22 04:00,
7年前
, 5F
11/22 04:00, 5F
→
11/22 04:00,
7年前
, 6F
11/22 04:00, 6F
推
11/22 04:00,
7年前
, 7F
11/22 04:00, 7F
→
11/22 04:00,
7年前
, 8F
11/22 04:00, 8F
推
11/22 04:05,
7年前
, 9F
11/22 04:05, 9F
→
11/22 04:05,
7年前
, 10F
11/22 04:05, 10F
→
11/22 04:07,
7年前
, 11F
11/22 04:07, 11F
→
11/22 04:07,
7年前
, 12F
11/22 04:07, 12F
→
11/22 04:10,
7年前
, 13F
11/22 04:10, 13F
推
11/22 04:40,
7年前
, 14F
11/22 04:40, 14F
推
11/22 05:26,
7年前
, 15F
11/22 05:26, 15F
推
11/22 07:52,
7年前
, 16F
11/22 07:52, 16F
推
11/22 08:52,
7年前
, 17F
11/22 08:52, 17F
→
11/22 08:53,
7年前
, 18F
11/22 08:53, 18F