Re: [爆卦] 今日黃國昌質詢逐字稿 VS 羅瑩雪消失
※ 引述《hlai (無)》之銘言:
: 請問一下逐字稿怎麼產生的, 是人工看影片逐字打出來的嗎? 是否考慮用電腦科技使其更有效率?
: 1. 訂定一個標準格式,使其達到 a 或 b
: a. 把內容照標準格式打出 -> 產生逐字稿
: -> 產生字幕 -> 嵌入影片 (聾人也能看到)
: b. 寫個軟體使其可以把逐字稿轉成字幕或把字幕轉成逐字稿
: 2. 利用語音辨識讓電腦先產生初稿,再用人工訂正成完稿?
雖然不敢說是逐字稿專業,
不過在我這個年紀就打了幾百萬字的逐字稿的人應該也不多,
先簡單說一下我工作的流程:
下載影片>載入逐字稿軟體>設定常用字>逐字打出
雖然看起來很簡單,不過有打過逐字稿的人應該知道這非常花時間,
新手在接逐字稿案件時,
花的時間應該至少是1:8以上(影片一小時要打8小時以上)
公定價是一小時的音檔1000,
但如果專業名詞過多或打字速度不夠快,工資率一定低於$120
我的均速可以到1:6,
極限大概是1:5(這篇羅瑩雪的逐字稿就是用1:5的速度打的,因為下午還要趕上課)
不過比較有時間的時候不會打那麼快,像那次打太快,整個下午手都會痛QQ
回到你問的問題可不可以用語音辨識協助,我想依照現今的科技還不可行,
雖然現在youtube已經有英文語音辨識功能,準確度也有一定水準,
但也只是有"一定水準",不能達到"完美無誤"。
逐字稿要求的是完整還原訪談者與受訪者交談時的情況,甚至要包含語助詞,
在中文語音辨識還不夠成熟,
(有興趣可以去試試內建的windows語音辨識,講10個字語音辨識出的10個字是錯的)
使用中文的人有時還會夾雜英文和台語,
更何況中文的同音字太多,若演講的人講的是「涵攝」卻辨識出「含射」
這逐字稿還能看嗎...
另外的問題是像質詢的逐字稿很多地方是在對話,
如何讓軟體分辨不同的聲源也會是一個問題,
逐字稿還有另外一個重點是「專業名詞」,
不論是人名、地名、專業術語、英文都可以算在內,
所以其實打逐字稿時也不是一股腦的狂打,很多時候都是在找資料,
綜合上述其實用語音辨識做出來再訂正恐怕花的時間會比直接打更長,
當然這裡是指中文,不過以現在CS如此蓬勃發展未來也是很難說
大概是這樣
--
http://marshuang.com/
http://marshuang.tw/
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.227.241.61
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1460768501.A.B78.html
推
04/16 09:03, , 1F
04/16 09:03, 1F
→
04/16 09:04, , 2F
04/16 09:04, 2F
推
04/16 09:05, , 3F
04/16 09:05, 3F
真的,有些時候講話的人一堆語助詞要不然就是話都講不清楚,
像之前打過一次柯P的就有點抓狂...
文裡忘了說配備也很重要,我的鍵盤+手托就超過1萬,
因為這真的是非常長時間的工作,用爛鍵盤手很有可能會受傷
推
04/16 09:05, , 4F
04/16 09:05, 4F
※ 編輯: noworneverev (61.227.241.61), 04/16/2016 09:12:00
→
04/16 09:09, , 5F
04/16 09:09, 5F
→
04/16 09:10, , 6F
04/16 09:10, 6F
推
04/16 09:11, , 7F
04/16 09:11, 7F
推
04/16 09:17, , 8F
04/16 09:17, 8F
推
04/16 09:27, , 9F
04/16 09:27, 9F
推
04/16 09:35, , 10F
04/16 09:35, 10F
推
04/16 09:40, , 11F
04/16 09:40, 11F
推
04/16 09:49, , 12F
04/16 09:49, 12F
推
04/16 10:48, , 13F
04/16 10:48, 13F
推
04/16 10:54, , 14F
04/16 10:54, 14F
推
04/16 12:40, , 15F
04/16 12:40, 15F
推
04/16 13:16, , 16F
04/16 13:16, 16F
推
04/16 20:19, , 17F
04/16 20:19, 17F
推
04/16 21:18, , 18F
04/16 21:18, 18F
推
04/18 12:28, , 19F
04/18 12:28, 19F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 23 之 24 篇):