Re: [問題] 取得大量數據的管道?

看板DataScience作者 (Cosmajoonitist)時間5年前 (2019/01/23 11:49), 5年前編輯推噓13(1300)
留言13則, 13人參與, 最新討論串2/2 (看更多)
※ 引述《dharma (達)》之銘言: : 一般人能拿到的大數據資料 : 除了股市、政府公開資訊(例如氣象) : 還有自己爬蟲爬網頁 : 之外可能還有什麼門路取得大量有品質的數據? : 且不用花什麼錢的 : 一般人指的是沒有身在什麼學術/研究單位 : 或相關的職場單位 : thanks 數據的類別很多,你可能要先描述一下你需要什麼數據 幾個比較有名的門路 政府數據: 美國(現在下架了只能下載 archive) https://www.data.gov/ 台灣 https://data.moi.gov.tw/MoiOD/default/Index.aspx 圖像數據: 最有名的 ImageNet http://www.image-net.org/ 做 Segmentation 的 Coco http://cocodataset.org/ 各種類型的數據: Kaggle 不解釋 https://www.kaggle.com/ Google Dataset Search https://toolbox.google.com/datasetsearch 微軟研究院數據集 https://msropendata.com/ 數據領域的 The Pirate Bay: Paper 跟數據集都能搜 http://academictorrents.com/ 二次元美少女數據集: 不美不負責 https://github.com/jayleicn/animeGAN 最完整的數據收錄名單: Awesome 系列數據集 https://github.com/awesomedata/awesome-public-datasets 主要還是看你想做什麼領域 現在越來越多會議或是期刊都要求使用開源數據集 所以其實你想找什麼數據集就多看看那個領域大家都用什麼數據集就好了 這樣可以省去很多清洗的時間 -- 「但如果你在懼怯中,只想尋求愛的恬靜和愛的愉悅, 那麼不如遮掩著你的裸體,避開愛的打穀場,進入那無季節的世界, 在那兒你會歡笑,但非全心的笑,你會哭泣,卻非盡情的哭。」 - Kahlil Gibran -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.186.9.86 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1548215380.A.14F.html ※ 編輯: Equalmusic (118.186.9.86), 01/23/2019 11:53:49 ※ 編輯: Equalmusic (118.186.9.86), 01/23/2019 11:54:07 ※ 編輯: Equalmusic (118.186.9.86), 01/23/2019 11:54:52

01/23 14:00, 5年前 , 1F
KDnuggets
01/23 14:00, 1F

01/23 14:52, 5年前 , 2F
看有什麼數據來源來想想可以做什麼
01/23 14:52, 2F

01/23 21:00, 5年前 , 3F
先推
01/23 21:00, 3F

01/24 20:42, 5年前 , 4F
good~~
01/24 20:42, 4F

01/25 16:57, 5年前 , 5F
推起來
01/25 16:57, 5F

01/30 07:36, 5年前 , 6F
感謝^_^
01/30 07:36, 6F

02/05 18:49, 5年前 , 7F
02/05 18:49, 7F

02/08 17:15, 5年前 , 8F
02/08 17:15, 8F

02/11 09:42, 5年前 , 9F
02/11 09:42, 9F

02/12 14:42, 5年前 , 10F
02/12 14:42, 10F

02/12 19:41, 5年前 , 11F
02/12 19:41, 11F

02/21 19:36, 5年前 , 12F
02/21 19:36, 12F

03/01 20:43, , 13F
淚推
03/01 20:43, 13F
文章代碼(AID): #1SH-HK5F (DataScience)
文章代碼(AID): #1SH-HK5F (DataScience)