[問題] 關於語音訊號分析的倒頻譜
最近開時研究關於語音訊號方面的東西
其中有讀到分析頻譜很方便的方法叫做倒頻譜(CEPSTRUM)
在這之中為了要找出一個頻譜的包絡線要做一些步驟
其中一個就是要取對數
例如說本來一個訊號X=H*K H為我們要取出來的地方 K為頻譜細節
如果取對數後就會變成 logX= logH+logK
之後再做完逆轉換(這裡也有一個問題等等把問題整理好)
就能得到已quefregency當作時間參考的座標 來查看這個頻譜的組成方便把H取出來
在這邊有第一個問題
1.取對數是真的單純因為要把我們要的H取出來而做的數學技巧,還是有其他的涵意呢?
2.本來音訊頻譜圖的縱軸應該是幅值,這其中的內容就只有幅值嗎?還是也有包含相位?
3.為什麼不是做IFFT或是IDFT而是做DCT呢? 因為我看很多篇有提到的都是說要做
逆傅立葉轉換,但其實實作都是用DCT...
PS 第3個問題 我有看到網路上別人給的解答是因為做完對數後只有LOG ENERGY的訊息
如果做IFFT的話會有複數,但若是做DCT就能夠得出比較容易看的實數,這也是讓我想
到第2個問題,本來的縱軸代表的應該是DB值,那代表他本來就是拿來看振幅的還是
因為取完對數後把一些東西去掉只剩下energy這個內容呢?
謝謝各位耐心看完 這部份我實在是在網路上找不太到解答 同學也沒有人是做語音處理的
麻煩大家了
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.129.151.249
※ 文章網址: https://www.ptt.cc/bbs/Electronics/M.1478525827.A.DBC.html
→
11/12 09:19, , 1F
11/12 09:19, 1F
→
11/12 09:20, , 2F
11/12 09:20, 2F
→
11/12 09:21, , 3F
11/12 09:21, 3F