[問題] 大量資料處理

看板Programming作者 (NC)時間13年前 (2012/09/09 15:55), 編輯推噓0(0021)
留言21則, 5人參與, 最新討論串1/2 (看更多)
小弟最近要處理幾百萬筆的資料,格式以.txt檔為主 除了原本的資料檔外,還要另外Output出兩個檔 兩個檔的差別就在於 一個檔是印出原本資料檔裡,所有重複的字串 而另一個檔則是印出原本資料檔裡,所有不重複的字串 而小弟所遇到的問題就是 我在程式裡每讀一筆資料,就要跟之前的"""已讀的"""資料比對一次 然後就很耗時間........ 想問大家有沒有哪種"""程式語言"""(混合也可),可以較為快速處理大量的文字資料 ----- PS希望可以不要用到database來處理 先感謝大家了>___<" ----- 補充一下,目前小弟是用python中的字典,來存放key和value 跑了半小時,只跑了5000筆資料><" -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 1.172.92.111

09/10 00:21, , 1F
你需要的是夠大的RAM來跑
09/10 00:21, 1F

09/10 00:22, , 2F
基本上 先把檔案丟到RAM裡去比對
09/10 00:22, 2F

09/10 00:22, , 3F
會比你用IO的方式比對快很多
09/10 00:22, 3F

09/10 00:33, , 4F
喔喔,謝謝大大><
09/10 00:33, 4F

09/10 00:36, , 5F
只是想問問有沒有可以讓處理速度更快的程
09/10 00:36, 5F

09/10 00:37, , 6F
式語言,GOOGLE後有發現好像有些程式語言
09/10 00:37, 6F

09/10 00:37, , 7F
在處理大量資料上,速度會有所差異
09/10 00:37, 7F
※ 編輯: jackal11 來自: 1.172.92.111 (09/10 00:38)

09/10 02:10, , 8F
用hashtable不就結了。
09/10 02:10, 8F

09/10 02:11, , 9F
不然就是搜尋樹。
09/10 02:11, 9F

09/10 02:11, , 10F
再不然裝SQL來用。怎樣都比你現在好。
09/10 02:11, 10F

09/10 10:18, , 11F
實際上 你的問題癥結點不在那個"語言"
09/10 10:18, 11F

09/10 10:19, , 12F
而是你的資料結構跟演算法
09/10 10:19, 12F

09/10 10:19, , 13F
以前cpu慢得時候 或許語言速度差異很
09/10 10:19, 13F

09/10 10:19, , 14F
顯 但現在除非是量大到很誇張的地步
09/10 10:19, 14F

09/10 10:19, , 15F
不然通常已經很難看出差異點了
09/10 10:19, 15F

09/10 11:10, , 16F
是你看不出差異而已吧.
09/10 11:10, 16F

09/10 15:27, , 17F
好的,謝謝以上大大的指導>___<
09/10 15:27, 17F

09/10 18:11, , 18F
SQL是你最好的朋友。不然就先uniq再diff
09/10 18:11, 18F

09/10 18:11, , 19F
不過那麼多筆uniq可能會爆炸,哈哈
09/10 18:11, 19F
※ 編輯: jackal11 來自: 1.172.92.111 (09/10 21:55)

09/11 06:24, , 20F
為啥不要db 自己查一下uniq, diff是啥
09/11 06:24, 20F

09/13 01:54, , 21F
python有那麼慢?!
09/13 01:54, 21F
文章代碼(AID): #1GJBm3_D (Programming)
討論串 (同標題文章)
以下文章回應了本文
完整討論串 (本文為第 1 之 2 篇):
問題
0
21
文章代碼(AID): #1GJBm3_D (Programming)