[請益] 如何將網頁的數據自動轉成csv?

看板Soft_Job作者 (pete)時間4年前 (2020/03/05 13:05), 4年前編輯推噓9(9013)
留言22則, 15人參與, 4年前最新討論串1/1
hi 各位好 我覺得這個問題應該難不倒大家 但我發現我不太知道怎麼下手 我目前在統計中國cov感染的數據 比方說安徽省的官方統計數據可在這邊找到 http://wjw.ah.gov.cn/news_details_54250.html 這是1月30日的 我有把從1/22-今天的html都下載到一個資料夾下 共40幾個html檔案 我希望能寫個script將 不同日期的新增確診病例 自動產生csv 報表 類似這樣 一月22 一月23 一月24 ...................三月五日 合肥 xx 蚌阜 yy 阜陽 zz 六安 aa 銅陵 bb 池州 黃山 .. . . 我是想過用linux bash 去寫一個script 不過有點卡住 或是用panda應該也可以 能否請各位指點一些方向呢?? 感謝!! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 155.69.170.63 (新加坡) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1583384723.A.CFB.html ※ 編輯: peter308 (155.69.170.63 新加坡), 03/05/2020 13:11:04 ※ 編輯: peter308 (155.69.170.63 新加坡), 03/05/2020 13:12:24

03/05 13:12, 4年前 , 1F
估狗 generate csv file in <你熟悉的程式語言>
03/05 13:12, 1F

03/05 13:19, 4年前 , 2F

03/05 13:23, 4年前 , 3F
用爬蟲 parse dom呢?
03/05 13:23, 3F

03/05 13:23, 4年前 , 4F
read file然後分析然後save csv
03/05 13:23, 4F

03/05 13:25, 4年前 , 5F
啊原來是這個樣子的資料, 那就抓字串分析了
03/05 13:25, 5F

03/05 13:29, 4年前 , 6F
資料來源只有新聞嗎? 這樣只能手動整理了
03/05 13:29, 6F

03/05 13:34, 4年前 , 7F
selenium
03/05 13:34, 7F

03/05 14:15, 4年前 , 8F
使用這些數據之前應該要先問這些中國給出的數字可信度有多
03/05 14:15, 8F

03/05 14:15, 4年前 , 9F
少 ...
03/05 14:15, 9F

03/05 14:37, 4年前 , 10F
不是很建議這種超級不具格式的資料.. 先不論正確與否啦...
03/05 14:37, 10F

03/05 14:40, 4年前 , 11F
真要做,可能也等所以資料都塵埃落定不再變動 才開始寫對應
03/05 14:40, 11F

03/05 14:40, 4年前 , 12F
的parser...
03/05 14:40, 12F

03/05 17:32, 4年前 , 13F
用Excel阿 貼到excel 在存檔 存成CSV
03/05 17:32, 13F

03/05 17:39, 4年前 , 14F
PapaParse
03/05 17:39, 14F

03/05 19:28, 4年前 , 15F
蒙恬 掃描筆???orz
03/05 19:28, 15F

03/05 22:00, 4年前 , 16F
你可以用C寫 這樣應該會更快一點 咚
03/05 22:00, 16F

03/06 11:49, 4年前 , 17F
這個連表格都沒有 很難用程式處理吧
03/06 11:49, 17F

03/06 14:29, 4年前 , 18F
這個怎麼做都可以吧就字串處理mapping在塞到csv裡.
03/06 14:29, 18F

03/06 14:29, 4年前 , 19F
例如regex 擷取,前後的四個數字。 ex:(合肥50例
03/06 14:29, 19F

03/06 14:29, 4年前 , 20F
),(豪洲20例) 之類的
03/06 14:29, 20F

03/06 15:29, 4年前 , 21F
沒有特定格式就抓關鍵字
03/06 15:29, 21F

03/07 11:43, 4年前 , 22F
感謝各位提供的資訊。
03/07 11:43, 22F
文章代碼(AID): #1UO8YJpx (Soft_Job)