[請益]請問中文,無語義的二字詞頻資料哪兒有?

看板Linguistics作者 (呼~呼~叔叔覺得妳好可愛~)時間5年前 (2018/07/20 22:24), 5年前編輯推噓3(308)
留言11則, 3人參與, 5年前最新討論串1/1
大家好, 我知道中研院的「搜詞尋字」可以找到中文的詞頻資料。如下網站 http://words.sinica.edu.tw/sou/sou.html 可是我心血來潮,想要找「無語義」的二字詞的詞頻資料,請問哪兒會有呢? 在中研院的「搜詞尋字」的網站中,可以找二字詞的詞頻。 可是「二字詞」都是有意義的。 我所謂的「無語義」,就是任二字組合起來,常在文章中出現的頻率。 當然,我只要找頻率高的較好了,不然太多了。 只是好奇,哪些二個字連在一起出現的頻率較高而已。 像中研院之類的詞頻分析,我相信也是把資料用電腦分析後, 在所有二個字連在一起出現的結果中,把沒有詞義的部分去掉後,所整理出來的資料。 我就是想看看那些因為沒有詞意而被去掉的部分。 請問有人有辦法嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.242.47 ※ 文章網址: https://www.ptt.cc/bbs/Linguistics/M.1532096669.A.19F.html ※ 編輯: ddqueen (114.36.242.47), 07/21/2018 00:54:40 ※ 編輯: ddqueen (114.36.242.47), 07/21/2018 00:56:41

07/21 16:39, 5年前 , 1F
你的意思是不成詞的任兩個字組合嗎?如果是,你找不。
07/21 16:39, 1F

07/21 16:39, 5年前 , 2F
到的。
07/21 16:39, 2F

07/21 16:42, 5年前 , 3F
因為做這個沒意義。你可以自己寫個像bigram的程式,找
07/21 16:42, 3F

07/21 16:42, 5年前 , 4F
個沒斷詞的語料庫,跑跑看。
07/21 16:42, 4F

07/22 16:37, 5年前 , 5F
同樓上,跑bigram去掉詞庫的entry~暴力解 XD
07/22 16:37, 5F

07/22 16:38, 5年前 , 6F
中研院的詞頻分析應該是先斷詞過了 所有結果都是有意義的
07/22 16:38, 6F

07/22 16:40, 5年前 , 7F
要不然你找最常共現的兩個詞 前詞後字跟後詞前字不成詞
07/22 16:40, 7F

07/22 16:40, 5年前 , 8F
的話 大概就會是無意義任二字組合比較高的那些了?XD
07/22 16:40, 8F
恩~~ 我不會寫程式啦。也不知去哪裡找語料庫。@@ 沒人做過相關研究嗎? ※ 編輯: ddqueen (114.25.201.169), 07/23/2018 04:23:00

07/24 02:25, 5年前 , 9F
Google Ngram corpus V2 http://bit.ly/2JOkHd1
07/24 02:25, 9F

07/24 02:26, 5年前 , 10F
資料量很大,缺點是簡體中文。
07/24 02:26, 10F
Hi CCY0927,感謝您,有可能就是我要的。可是我找到Chinese (simplified)後,下截任一個,用word打開,看不太懂也。也沒有中文。擷取一行如下: _ADV_ 007_NOUN 1982 5 5 您看,這樣是什麼? 還是說這個檔案不是用word開的呢? ※ 編輯: ddqueen (114.36.228.99), 07/25/2018 04:29:42

07/27 16:21, 5年前 , 11F
跟中研院買(欸
07/27 16:21, 11F
文章代碼(AID): #1RKV2T6V (Linguistics)