Re: [新聞] 柯P「開放政府」大檢驗 學界:多數資料品質低端、更新不定期已回收
: 1★ 採用開放授權,讓手上的資料(任何資料格式)可以在網路上取得
: 比方說pdf、圖片檔img等等
: 機器可讀性幾乎是零,只能看不能夠得到數據檔
: 2★ 讓這份資料能以結構化的方式取得(例如用 Excel 取代掃描的表格)
: 這就是常見的office,機器可以讀內容,但需要特定的軟體開啟
結構化更重要是要把資料轉成起碼是key-value的形式
政府很多開放資料雖然近年已在檔案格式上都做到三星,
但一打開來其實只有一星,因為裡面根本只是開放格式版的PDF,
例如下載了ODS,結果打開來一堆合併儲存格、排版用的spacing、縮排、空列空欄等
舊一點的資料裡面可能還有從別的軟體轉檔過程中產生的髒東西
在真正開始分析資料以前,大概有80%的時間都用在ETL
如果是一般公務單位提供的資料是如此就算了
即使中央或地方的主計單位,也幾乎都是提供這類非結構化資料
不是沒有官方數據已經做成key-value,
但最重要、最完整的,幾乎都還是各種假開放格式、真pdf的東西
在我看來,政府的開放資料有95%都只有一星
: 3★ 使用開放格式取代專屬格式(例如用 CSV 取代 Excel)
: 大家看到範例csv,其實剛剛提到的json、xml等等常用格式也是
: 很多網站或app能夠直接吃,就可以顯示數據的圖表或分布
: 這樣就是三星等
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.230.110.100
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1514627137.A.F45.html
→
12/30 17:48,
6年前
, 1F
12/30 17:48, 1F
→
12/30 17:51,
6年前
, 2F
12/30 17:51, 2F
→
12/30 17:51,
6年前
, 3F
12/30 17:51, 3F
→
12/30 17:51,
6年前
, 4F
12/30 17:51, 4F
→
12/30 17:52,
6年前
, 5F
12/30 17:52, 5F
→
12/30 17:52,
6年前
, 6F
12/30 17:52, 6F
→
12/30 17:53,
6年前
, 7F
12/30 17:53, 7F
→
12/30 17:53,
6年前
, 8F
12/30 17:53, 8F
推
12/30 17:58,
6年前
, 9F
12/30 17:58, 9F
→
12/30 17:59,
6年前
, 10F
12/30 17:59, 10F
→
12/30 18:13,
6年前
, 11F
12/30 18:13, 11F
推
12/30 18:16,
6年前
, 12F
12/30 18:16, 12F
推
12/30 19:21,
6年前
, 13F
12/30 19:21, 13F
→
12/30 19:21,
6年前
, 14F
12/30 19:21, 14F
→
12/30 19:21,
6年前
, 15F
12/30 19:21, 15F
推
12/30 23:51,
6年前
, 16F
12/30 23:51, 16F
討論串 (同標題文章)