[閒聊] 赤松健:國圖的全書籍導入光學字元辨識

看板C_Chat作者 (洛城浪子)時間3年前 (2022/07/14 21:57), 3年前編輯推噓19(19022)
留言41則, 24人參與, 3年前最新討論串1/1
https://twitter.com/KenAkamatsu/status/1547567317894463488 https://pbs.twimg.com/media/FXoQRY5akAAWOYo.jpg
拜訪了(株)モルフォAIソリューションズ株式會社 我曾經闡述我的夢想是 「國會圖書館的全書籍都以光學字元辨認技術來建置,並且可以進行全文檢索為目標」 沒想到負責該技術的就是這間公司。 古文書的圖像→文本轉化,以現在的技術已經非常高水準, 以後期待能朝著利用人工智慧的領域, 利用到AI來判斷前後的文字脈絡或用字遣詞,這樣的目標邁進。 如果這個夢想成真,那麼其益處將是無法計量的。 -- 「胡鐵花,我希望你以後知道,世上的女孩子, 並不是每個都像高亞男那麼好對付的,你覺得高亞男好對付,只因為她喜歡你。」 「不錯,從今以後,我再不敢說我會對付女人了, 我現在簡直恨不得跪在高亞男面前,去嗅她的腳。」 《楚留香傳奇‧大沙漠》 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.161.181.6 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1657807072.A.040.html ※ 編輯: LABOYS (118.161.181.6 臺灣), 07/14/2022 21:58:25

07/14 21:58, 3年前 , 1F
GOOGLE:為什麼要花錢?
07/14 21:58, 1F

07/14 21:58, 3年前 , 2F
錢哪來
07/14 21:58, 2F

07/14 21:59, 3年前 , 3F
掃描還要去比對吧?
07/14 21:59, 3F

07/14 21:59, 3年前 , 4F
他這裡的古文書指的是古代日本的手寫草書字體,
07/14 21:59, 4F

07/14 21:59, 3年前 , 5F
以前都要人工辨認,非常費時,
07/14 21:59, 5F

07/14 21:59, 3年前 , 6F
現在技術已經可以用電腦辨認,
07/14 21:59, 6F

07/14 21:59, 3年前 , 7F
大圖書館計畫,
07/14 21:59, 7F

07/14 22:00, 3年前 , 8F
今後的目標是用電腦靠前後文來提升字體辨認率
07/14 22:00, 8F

07/14 22:00, 3年前 , 9F
不是單純舊書籍的意思
07/14 22:00, 9F

07/14 22:00, 3年前 , 10F
抓一下古文抄襲
07/14 22:00, 10F
※ 編輯: LABOYS (118.161.181.6 臺灣), 07/14/2022 22:01:43

07/14 22:02, 3年前 , 11F
先不論這件事的必要程度,畢竟將書本電子化的確可以以
07/14 22:02, 11F

07/14 22:02, 3年前 , 12F
防萬一未來發生什麼事,但是全書的數字很龐大吧,要去
07/14 22:02, 12F

07/14 22:02, 3年前 , 13F
哪生錢來搞這種事,政府也不會輕易撥款在這種事上吧
07/14 22:02, 13F

07/14 22:02, 3年前 , 14F
GOOGLE能做到判別古文書????
07/14 22:02, 14F

07/14 22:03, 3年前 , 15F
對於1樓,免費OCR服務不夠理想
07/14 22:03, 15F

07/14 22:03, 3年前 , 16F
中文有一個老外發起的網站叫做中國哲學書電子化計劃
07/14 22:03, 16F

07/14 22:07, 3年前 , 17F
OCR只是合標準的字體 字體一歪很容易辨識不到
07/14 22:07, 17F

07/14 22:08, 3年前 , 18F
GOOGLE以前是用reCAPTCHA叫大家幫他辨識 不是指用免費OCR
07/14 22:08, 18F

07/14 22:09, 3年前 , 19F
免費OCR連標準英文字體都會認錯
07/14 22:09, 19F

07/14 22:10, 3年前 , 20F
不會掃描後,做成驗證碼
07/14 22:10, 20F

07/14 22:17, 3年前 , 21F
有點跑太多的感覺 不如先數位化 辨識以後再說
07/14 22:17, 21F

07/14 22:22, 3年前 , 22F
google的reCAPTCHA那堆填字就是讓無數下載(?)的用戶
07/14 22:22, 22F

07/14 22:22, 3年前 , 23F
來進行人肉訓練AI
07/14 22:22, 23F

07/14 22:22, 3年前 , 24F
免費的最貴
07/14 22:22, 24F

07/14 22:22, 3年前 , 25F
訓練到google的OCR對英文古書有特攻了
07/14 22:22, 25F

07/14 22:24, 3年前 , 26F
不過最大的問題還是錢
07/14 22:24, 26F

07/14 22:27, 3年前 , 27F
這個真的成功會很棒 一堆古早論文都只有圖檔
07/14 22:27, 27F

07/14 22:32, 3年前 , 28F
之後會有古文書的圖片來辨別50音嗎XD
07/14 22:32, 28F

07/14 22:34, 3年前 , 29F
研究生福音
07/14 22:34, 29F

07/14 22:47, 3年前 , 30F
選上議員就是要爭取用政府的錢做這件事啊==
07/14 22:47, 30F

07/14 23:07, 3年前 , 31F
這種就是整理期超苦但一旦成型超方便
07/14 23:07, 31F

07/14 23:13, 3年前 , 32F
07/14 23:13, 32F

07/14 23:51, 3年前 , 33F
OCR技術需求太高先不論 單純掃描的話不會花到非常多錢吧
07/14 23:51, 33F

07/14 23:51, 3年前 , 34F
應該幾千萬台幣內能搞定?
07/14 23:51, 34F

07/15 00:18, 3年前 , 35F
日本國會圖書館目前一直有在做絕版書數位化,只是目前要看
07/15 00:18, 35F

07/15 00:18, 3年前 , 36F
電子檔還是要到國會圖書館才行
07/15 00:18, 36F

07/15 07:47, 3年前 , 37F
07/15 07:47, 37F

07/15 09:01, 3年前 , 38F
這個推
07/15 09:01, 38F

07/15 10:18, 3年前 , 39F
這個推,現在在推AI的字元圖像辨認學習了
07/15 10:18, 39F

07/15 10:19, 3年前 , 40F
如果持續擴大字元數據庫,那未來一本書電子化將會是幾秒內的事
07/15 10:19, 40F

07/15 10:20, 3年前 , 41F
全文檢索與現行的影像數位化,還是有很大區別的
07/15 10:20, 41F
文章代碼(AID): #1Yq23W10 (C_Chat)