[問題] 大量資料處理

看板Programming作者jackal11 (NC)時間13年前 (2012/09/09 15:55)推噓0(0推 0噓 21→)

留言21則, 5人參與討論串1/2 (看更多)

小弟最近要處理幾百萬筆的資料，格式以.txt檔為主除了原本的資料檔外，還要另外Output出兩個檔兩個檔的差別就在於一個檔是印出原本資料檔裡，所有重複的字串而另一個檔則是印出原本資料檔裡，所有不重複的字串而小弟所遇到的問題就是我在程式裡每讀一筆資料，就要跟之前的"""已讀的"""資料比對一次然後就很耗時間........ 想問大家有沒有哪種"""程式語言"""(混合也可)，可以較為快速處理大量的文字資料 ----- PS希望可以不要用到database來處理先感謝大家了>___<" ----- 補充一下，目前小弟是用python中的字典，來存放key和value 跑了半小時，只跑了5000筆資料><" -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 1.172.92.111

→

09/10 00:21, , 1^F

09/10 00:21, 1^F

→

09/10 00:22, , 2^F

09/10 00:22, 2^F

→

09/10 00:22, , 3^F

09/10 00:22, 3^F

→

09/10 00:33, , 4^F

09/10 00:33, 4^F

→

09/10 00:36, , 5^F

09/10 00:36, 5^F

→

09/10 00:37, , 6^F

09/10 00:37, 6^F

→

09/10 00:37, , 7^F

09/10 00:37, 7^F

※ 編輯: jackal11 來自: 1.172.92.111 (09/10 00:38)

→

09/10 02:10, , 8^F

09/10 02:10, 8^F

→

09/10 02:11, , 9^F

09/10 02:11, 9^F

→

09/10 02:11, , 10^F

09/10 02:11, 10^F

→

09/10 10:18, , 11^F

09/10 10:18, 11^F

→

09/10 10:19, , 12^F

09/10 10:19, 12^F

→

09/10 10:19, , 13^F

09/10 10:19, 13^F

→

09/10 10:19, , 14^F

09/10 10:19, 14^F

→

09/10 10:19, , 15^F

09/10 10:19, 15^F

→

09/10 11:10, , 16^F

09/10 11:10, 16^F

→

09/10 15:27, , 17^F

09/10 15:27, 17^F

→

09/10 18:11, , 18^F

09/10 18:11, 18^F

→

09/10 18:11, , 19^F

09/10 18:11, 19^F

※ 編輯: jackal11 來自: 1.172.92.111 (09/10 21:55)

→

09/11 06:24, , 20^F

09/11 06:24, 20^F

→

09/13 01:54, , 21^F

09/13 01:54, 21^F

‣ 返回看板[ Programming ] 程設

‣ 更多 jackal11 的文章

文章代碼(AID): #1GJBm3_D (Programming)

討論串 (同標題文章)

以下文章回應了本文：

問題

1

4

Re: [問題] 大量資料處理 Re: 大量資料處理

13年前, 2012/09/10 15:23

完整討論串 (本文為第 1 之 2 篇)：

排序：最新先 | 最舊先 | 留言數

問題

1

4

Re: [問題] 大量資料處理 Re: 大量資料處理

13年前, 2012/09/10 15:23

問題

0

21

[問題] 大量資料處理大量資料處理

13年前, 2012/09/09 15:55

在新視窗開啟完整討論串 (共2篇)

‣ 返回看板[ Programming ] 程設

‣ 更多 jackal11 的文章

文章代碼(AID): #1GJBm3_D (Programming)