[問題] 求推薦中文的語料庫

看板DataScience作者 (運氣小馬)時間6年前 (2018/03/29 10:13), 6年前編輯推噓10(10022)
留言32則, 6人參與, 6年前最新討論串1/1
大家好 小弟最近在做 文本摘要中生成式摘要 需要中文的文本資料庫去進行訓練模型 但上網找都沒有找到 合適用來訓練模型的資料庫 不知道各位大大 有沒有推薦適合的資料庫呢? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.137.243.9 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1522289588.A.097.html ※ 編輯: D0128431 (114.137.243.9), 03/29/2018 10:15:13

03/29 10:44, 6年前 , 1F
中午的語料庫?
03/29 10:44, 1F
※ 編輯: D0128431 (114.137.243.9), 03/29/2018 10:58:17

03/29 10:58, 6年前 , 2F
中午的 拍謝
03/29 10:58, 2F

03/29 11:09, 6年前 , 3F
我有明清小說
03/29 11:09, 3F

03/29 11:09, 6年前 , 4F
的語料庫
03/29 11:09, 4F

03/29 11:11, 6年前 , 5F
是做text summarization的意思嗎?
03/29 11:11, 5F

03/29 11:24, 6年前 , 6F
L 大 是的
03/29 11:24, 6F

03/29 11:37, 6年前 , 7F
L大已pm詢問囉
03/29 11:37, 7F

03/29 11:40, 6年前 , 8F
術語翻成中文 我一下子看不懂
03/29 11:40, 8F

03/29 11:48, 6年前 , 9F
chinese gigaword 可能可以喔
03/29 11:48, 9F

03/29 11:51, 6年前 , 10F
openNmt 的論壇有用english gigaword 來訓練text summ
03/29 11:51, 10F

03/29 11:51, 6年前 , 11F
arier 的示範
03/29 11:51, 11F

03/29 11:54, 6年前 , 12F
中文的應該可以用 chinese gigaword 但我自己也沒實
03/29 11:54, 12F

03/29 11:54, 6年前 , 13F
際看過chiese gigaword的語料庫長怎樣
03/29 11:54, 13F

03/29 11:58, 6年前 , 14F
03/29 11:58, 14F

03/29 12:09, 6年前 , 15F
我找到樣本了 沒錯 這個可以用
03/29 12:09, 15F

03/29 12:10, 6年前 , 16F
這個我有看過 但她的檔案格式都好陌生QQ
03/29 12:10, 16F

03/29 12:10, 6年前 , 17F
就是學會把text 變成headline
03/29 12:10, 17F

03/29 12:11, 6年前 , 18F
可以請問一下l大的下載網址嗎
03/29 12:11, 18F

03/29 12:15, 6年前 , 19F
搞定(懂)格式 整理資料 真的是最花心力的
03/29 12:15, 19F

03/29 12:21, 6年前 , 20F
這個好像不是open dataset
03/29 12:21, 20F

, , 21F
看看你的圖書館有沒有買
我今天看好像要付費 Q 不過還是謝謝你 03/29 12:24

Lope PTT corpus
我剛剛去看好像找不到地方抓資料唉Q

03/29 20:05, 6年前 , 23F
L大 我今天上去看好像要付費的樣子
03/29 20:05, 23F
※ 編輯: D0128431 (114.137.243.9), 03/29/2018 20:07:24 ※ 編輯: D0128431 (114.137.243.9), 03/29/2018 20:35:36

03/29 23:36, 6年前 , 24F
這個我也有寄信去問了 還沒人回覆我QQ ※ 編輯: D0128431 (114.137.243.9), 03/30/2018 07:43:24

03/30 08:09, 6年前 , 25F
我以前有用過中文維基當作語料
03/30 08:09, 25F

03/30 08:10, 6年前 , 26F
也有做chatbot時去爬蟲ptt的大板當作語料 ptt爬蟲還滿方
03/30 08:10, 26F

03/30 08:10, 6年前 , 27F
便的 google一下github有別人寫好的crawler
03/30 08:10, 27F

03/30 08:10, 6年前 , 28F
中文維基也可以自己google一下怎麼爬
03/30 08:10, 28F
目前我想法跟你類似 我也是打算去爬新聞來訓練xD ※ 編輯: D0128431 (114.137.243.9), 03/30/2018 10:02:21

04/12 21:54, 6年前 , 29F
那請問有人做English的text summarization嗎?有推薦
04/12 21:54, 29F

04/12 21:54, 6年前 , 30F
的模型和語料庫嗎
04/12 21:54, 30F

04/13 03:17, 6年前 , 31F
我知道英文的
04/13 03:17, 31F

04/13 08:23, 6年前 , 32F
04/13 08:23, 32F
文章代碼(AID): #1Ql4kq2N (DataScience)