[問題] 關於語音訊號分析的倒頻譜

看板Electronics作者 (水喔)時間9年前 (2016/11/07 21:37), 編輯推噓0(003)
留言3則, 1人參與, 最新討論串1/1
最近開時研究關於語音訊號方面的東西 其中有讀到分析頻譜很方便的方法叫做倒頻譜(CEPSTRUM) 在這之中為了要找出一個頻譜的包絡線要做一些步驟 其中一個就是要取對數 例如說本來一個訊號X=H*K H為我們要取出來的地方 K為頻譜細節 如果取對數後就會變成 logX= logH+logK 之後再做完逆轉換(這裡也有一個問題等等把問題整理好) 就能得到已quefregency當作時間參考的座標 來查看這個頻譜的組成方便把H取出來 在這邊有第一個問題 1.取對數是真的單純因為要把我們要的H取出來而做的數學技巧,還是有其他的涵意呢? 2.本來音訊頻譜圖的縱軸應該是幅值,這其中的內容就只有幅值嗎?還是也有包含相位? 3.為什麼不是做IFFT或是IDFT而是做DCT呢? 因為我看很多篇有提到的都是說要做 逆傅立葉轉換,但其實實作都是用DCT... PS 第3個問題 我有看到網路上別人給的解答是因為做完對數後只有LOG ENERGY的訊息 如果做IFFT的話會有複數,但若是做DCT就能夠得出比較容易看的實數,這也是讓我想 到第2個問題,本來的縱軸代表的應該是DB值,那代表他本來就是拿來看振幅的還是 因為取完對數後把一些東西去掉只剩下energy這個內容呢? 謝謝各位耐心看完 這部份我實在是在網路上找不太到解答 同學也沒有人是做語音處理的 麻煩大家了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.129.151.249 ※ 文章網址: https://www.ptt.cc/bbs/Electronics/M.1478525827.A.DBC.html

11/12 09:19, , 1F
你應該是做語音辨識要求取MFCC(特徵值)吧 先念熟它的過程
11/12 09:19, 1F

11/12 09:20, , 2F
可以去找張智星的網站補相關知識
11/12 09:20, 2F

11/12 09:21, , 3F
不然問看看做語音的教授 全台有名的就那幾隻
11/12 09:21, 3F
文章代碼(AID): #1O88E3sy (Electronics)