Re: [語音] 你好 我是旁聽語音處理的學生 有些問쌠…
※ 引述《kobetodd (供水電)》之銘言:
: 本人在處理相關語音的研究,
: 知道語音相關理論一開始要做預處理,
: 如預強調、去靜音,再做特徵提取
: 首先我的問題是
: 1.預強調目的在提升高頻的振幅大小,
: 使高頻帶的聲音能聽較明顯,訊噪比提高。
: 至於特徵提取是看瞬時頻率(頻率隨時間變化)
: 兩者的目的不一樣,故看瞬時頻率可以不用做預處理吧?
做語音MFCC抽取時,必須做pre-emphasis,加強高頻的部分
由於高頻帶能量通常很小,但卻常保留重要的phoneme鑑別資訊
故須先做pre-emphasis,使其能量和低頻能量接近
之後做處理時,才不致於被低頻的能量所dominate
至於feature並不能說是描述瞬時頻率,這種說法有點奇怪
MFCC是由通過數組(通常23組)Mel-filter bank得到的值再取DCT而得到,
DCT主要功用是de-correlation和降維
所以MFCC描述的應該是"語音信號通過23個頻帶的能量值"再降成13維而得到
MFCC並非描述瞬時頻率,他描述的仍然是能量
: 2.現在有了特徵提取的瞬時頻率,如何利用向量量化得到編碼本?
: 向量量化的理論我是有看了相關資料,有問過同學是用htk
: 不過是對於MFCC,如果是對其他特徵提取方法也能用htk嗎
: htk對於c語言,如果是使用matlab要如何處理這種問題 ?
用 k-means 的演算法來做即可,HTK也可以處理PLP之類的參數
如果要用matlab,你應該先決定要變成幾維的codebook
然後再寫個k-means,就可以搞定了吧....
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.21.33
討論串 (同標題文章)