[問題] 關於用python存資料庫的問題
我用的資料庫是mysql
我現在想要把大量的文章(幾十萬篇吧)切token
然後針對每個token存進去資料庫裡,但隨著資料量越大,速度越緩慢
假設我有一個存token的table,裡面有token,token_frequency
每次我parser出一個token的話,我都要跟table裡面token做比對,看有無這筆資料
沒有的話就insert,但做到越後面,我速度就會越慢(table的token有在msql裡選了建index)
然後我有想了1個解決方法:
就是不用mysql裡的"把此鍵設為index"
改為程式開始跑時,我就用dict建hash table,當parser出一個token就比對到hash table
沒有的話就insert,不用再去資料庫找
請問以上這方法會比在mysql裡直接把key建成index快嗎?
這種問題還有其他種比較有效率的解法嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.116.141.42
→
11/06 10:20, , 1F
11/06 10:20, 1F
→
11/06 10:20, , 2F
11/06 10:20, 2F
→
11/06 10:21, , 3F
11/06 10:21, 3F
→
11/06 10:21, , 4F
11/06 10:21, 4F
推
11/06 11:13, , 5F
11/06 11:13, 5F
推
11/06 12:04, , 6F
11/06 12:04, 6F
→
11/06 12:05, , 7F
11/06 12:05, 7F
推
11/06 12:12, , 8F
11/06 12:12, 8F
→
11/06 12:13, , 9F
11/06 12:13, 9F
推
11/06 12:32, , 10F
11/06 12:32, 10F
→
11/06 12:33, , 11F
11/06 12:33, 11F
→
11/06 12:34, , 12F
11/06 12:34, 12F
→
11/06 12:34, , 13F
11/06 12:34, 13F
→
11/10 11:36, , 14F
11/10 11:36, 14F