Re: [請益] 資料歸納
※ 引述《hihieveryone ( )》之銘言:
: 我有將近 10萬筆的資料 可是是不同類型的
: 有文章 有圖片 有影片 小到連網址都有 ..
: 可是我不太會收納
: 不知道有沒有什麼好的收納方式可以供參考呢 ?
: 有人專門在研究電子資料收納的嗎 ?
: thx
當然有,而且是一個曾經熱門過的技術潮流,事實上關心資訊科技的人應該都聽過,
只是可能因為是商業化的技術名詞而被忽視,這就是資料倉儲 (data warehouse) 。
資料倉儲的原始目的,就是讓企業可以簡單地堆積和保存資料,並有效地取用分析。
在實際的建構方法上,則有許多種不同的派別,其中最早發展出來也最簡單的做法,
稱之為資料超市 (data mart), 把每個可能有用的資料打上簡單的標籤描述和分類,
然後可以在資料的使用過程中做進一步的處理和分析。
當然,事情沒有這麼簡單,後面的發展和問題一大堆。
但是在概念上,就是我們無法預期資料如何被使用,所以就只能在資料匯入的初期,
以合於成本考量的方式,儘量讓資料結構化,往後再進一步地通過各種方法來調整,
而這樣的一個高度彈性的架構,是很不容易的,我們會需要做一些資料特性的假設,
來建構合適的資料倉儲系統。
例如以個人使用來說,多媒體資料可能佔了很大部分,於是就不能像企業資料一樣,
以大量的結構化資料來考量,目前的資料倉儲方法,可能就有很多不能適用的部分,
這可能就是一個商機所在,只是個人使用者一般不會為此付出高昂成本。
也因此,現在的軟體公司不會為此發展個人的資料倉儲系統,但主要技術已經有了,
未來也可能在技術成本和個人需求的考量下,在適當的時候出現。
而現在根據不同的資料格式做搜尋和標籤的技術,其實已經很夠了。
但未來在語意化資料模型 (semantic data model) 的發展下,多數資料在建置時,
就可能會帶有資料內容的描述,個人資料倉儲的需求也未必會持續增長到哪裡去。
至於實體的資料保存使用,像是 SAN 或 NAS 之類的技術一大堆,就不用多說了。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.41.126.67
→
06/07 21:07, , 1F
06/07 21:07, 1F
→
06/07 21:08, , 2F
06/07 21:08, 2F
→
06/07 21:08, , 3F
06/07 21:08, 3F
推
06/07 21:40, , 4F
06/07 21:40, 4F
→
06/07 21:41, , 5F
06/07 21:41, 5F
→
06/07 21:41, , 6F
06/07 21:41, 6F
→
06/07 21:42, , 7F
06/07 21:42, 7F
→
06/07 21:42, , 8F
06/07 21:42, 8F
→
06/07 21:43, , 9F
06/07 21:43, 9F
→
06/07 21:43, , 10F
06/07 21:43, 10F
→
06/07 21:44, , 11F
06/07 21:44, 11F
→
06/07 21:44, , 12F
06/07 21:44, 12F
→
06/07 21:45, , 13F
06/07 21:45, 13F
→
06/07 21:46, , 14F
06/07 21:46, 14F
→
06/07 21:46, , 15F
06/07 21:46, 15F
→
06/07 21:47, , 16F
06/07 21:47, 16F
→
06/07 21:47, , 17F
06/07 21:47, 17F
→
06/07 21:48, , 18F
06/07 21:48, 18F
→
06/07 21:48, , 19F
06/07 21:48, 19F
→
06/07 21:49, , 20F
06/07 21:49, 20F
→
06/07 21:50, , 21F
06/07 21:50, 21F
→
06/07 21:51, , 22F
06/07 21:51, 22F
→
06/07 21:51, , 23F
06/07 21:51, 23F
→
06/07 21:52, , 24F
06/07 21:52, 24F
討論串 (同標題文章)