[問題] 大量資料處理
小弟最近要處理幾百萬筆的資料,格式以.txt檔為主
除了原本的資料檔外,還要另外Output出兩個檔
兩個檔的差別就在於
一個檔是印出原本資料檔裡,所有重複的字串
而另一個檔則是印出原本資料檔裡,所有不重複的字串
而小弟所遇到的問題就是
我在程式裡每讀一筆資料,就要跟之前的"""已讀的"""資料比對一次
然後就很耗時間........
想問大家有沒有哪種"""程式語言"""(混合也可),可以較為快速處理大量的文字資料
-----
PS希望可以不要用到database來處理
先感謝大家了>___<"
-----
補充一下,目前小弟是用python中的字典,來存放key和value
跑了半小時,只跑了5000筆資料><"
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 1.172.92.111
→
09/10 00:21, , 1F
09/10 00:21, 1F
→
09/10 00:22, , 2F
09/10 00:22, 2F
→
09/10 00:22, , 3F
09/10 00:22, 3F
→
09/10 00:33, , 4F
09/10 00:33, 4F
→
09/10 00:36, , 5F
09/10 00:36, 5F
→
09/10 00:37, , 6F
09/10 00:37, 6F
→
09/10 00:37, , 7F
09/10 00:37, 7F
※ 編輯: jackal11 來自: 1.172.92.111 (09/10 00:38)
→
09/10 02:10, , 8F
09/10 02:10, 8F
→
09/10 02:11, , 9F
09/10 02:11, 9F
→
09/10 02:11, , 10F
09/10 02:11, 10F
→
09/10 10:18, , 11F
09/10 10:18, 11F
→
09/10 10:19, , 12F
09/10 10:19, 12F
→
09/10 10:19, , 13F
09/10 10:19, 13F
→
09/10 10:19, , 14F
09/10 10:19, 14F
→
09/10 10:19, , 15F
09/10 10:19, 15F
→
09/10 11:10, , 16F
09/10 11:10, 16F
→
09/10 15:27, , 17F
09/10 15:27, 17F
→
09/10 18:11, , 18F
09/10 18:11, 18F
→
09/10 18:11, , 19F
09/10 18:11, 19F
※ 編輯: jackal11 來自: 1.172.92.111 (09/10 21:55)
→
09/11 06:24, , 20F
09/11 06:24, 20F
→
09/13 01:54, , 21F
09/13 01:54, 21F
討論串 (同標題文章)