聲紋識(shí)別原理
聲紋是用電聲學(xué)儀器顯示的攜帶言語(yǔ)信息的聲波頻譜。人類(lèi)語(yǔ)言的產(chǎn)生是人體語(yǔ)言中樞與發(fā)音器官之間一個(gè)復(fù)雜的生理物理過(guò)程,人在講話時(shí)使用的發(fā)聲器官--舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個(gè)人的差異很大,所以任何兩個(gè)人的聲紋圖譜都有差異。這也使得聲紋識(shí)別也可以稱(chēng)為身份認(rèn)證的一種方式。

聲紋識(shí)別優(yōu)缺點(diǎn)
1、聲紋識(shí)別的優(yōu)勢(shì)在于:
(1)聲紋提取方便,可在不知不覺(jué)中完成,因此使用者的接受程度也高;
(2)獲取語(yǔ)音的識(shí)別成本低廉,使用簡(jiǎn)單,一個(gè)麥克風(fēng)即可,在使用通訊設(shè)備時(shí)更無(wú)需額外的錄音設(shè)備;
(3)適合遠(yuǎn)程身份確認(rèn),只需要一個(gè)麥克風(fēng)或電話、手機(jī)就可以通過(guò)網(wǎng)路(通訊網(wǎng)絡(luò)或互聯(lián)網(wǎng)絡(luò))實(shí)現(xiàn)遠(yuǎn)程登錄;
(4)聲紋辨認(rèn)和確認(rèn)的算法復(fù)雜度低;
(5)配合一些其他措施,如通過(guò)語(yǔ)音識(shí)別進(jìn)行內(nèi)容鑒別等,可以提高準(zhǔn)確率。這些優(yōu)勢(shì)使得聲紋識(shí)別的應(yīng)用越來(lái)越受到系統(tǒng)開(kāi)發(fā)者和用戶青睞。
2、聲紋識(shí)別的缺點(diǎn):
當(dāng)然,聲紋識(shí)別的應(yīng)用有一些缺點(diǎn),比如同一個(gè)人的聲音具有易變性,易受身體狀況、年齡、情緒等的影響;比如不同的麥克風(fēng)和信道對(duì)識(shí)別性能有影響;比如環(huán)境噪音對(duì)識(shí)別有干擾;又比如混合說(shuō)話人的情形下人的聲紋特征不易提取等等。
聲紋識(shí)別的過(guò)程
聲紋識(shí)別的過(guò)程包括:語(yǔ)音信號(hào)處理、聲紋特征提取、聲紋建模、聲紋比對(duì)、判別決策等。
聲紋識(shí)別匹配模式
聲紋識(shí)別技術(shù)的關(guān)鍵在于對(duì)各種聲學(xué)特征參數(shù)進(jìn)行處理,并確定模式匹配方法,主要的模式匹配方法包括:
1、模板匹配方法:利用動(dòng)態(tài)時(shí)間彎折(DTW)以對(duì)準(zhǔn)訓(xùn)練和測(cè)試特征序列,主要用于固定詞組的應(yīng)用(通常為文本相關(guān)任務(wù));
2、最近鄰方法:訓(xùn)練時(shí)保留所有特征矢量,識(shí)別時(shí)對(duì)每個(gè)矢量都找到訓(xùn)練矢量中最近的K個(gè),據(jù)此進(jìn)行識(shí)別,通常模型存儲(chǔ)和相似計(jì)算的量都很大;
3、神經(jīng)網(wǎng)絡(luò)方法:有很多種形式,如多層感知、徑向基函數(shù)(RBF)等,可以顯式訓(xùn)練以區(qū)分說(shuō)話人和其背景說(shuō)話人,其訓(xùn)練量很大,且模型的可推廣性不好;
5、VQ聚類(lèi)方法(如LBG):效果比較好,算法復(fù)雜度也不高,和HMM方法配合起來(lái)更可以收到更好的效果;
6、多項(xiàng)式分類(lèi)器方法:有較高的精度,但模型存儲(chǔ)和計(jì)算量都比較大;
此外還有概率統(tǒng)計(jì)方法、動(dòng)態(tài)時(shí)間規(guī)整方法、矢量量化方法等等。
聲紋識(shí)別技術(shù)的難點(diǎn)
目前,聲紋識(shí)別技術(shù)的市場(chǎng)應(yīng)用并不廣泛,,但并非這項(xiàng)技術(shù)本身不成熟,而是由于實(shí)際商業(yè)應(yīng)用場(chǎng)景的復(fù)雜性,很可能導(dǎo)致身份識(shí)別產(chǎn)生較大誤差。
首先,說(shuō)話人的語(yǔ)音聲學(xué)特征不可避免地具有發(fā)展性和變異性,既便是同一個(gè)人,即便采集到的兩段語(yǔ)音內(nèi)容都是相同的,但是在不同的時(shí)期或特殊的情境下,由于情緒、語(yǔ)速、疲勞程度等原因,聲紋特征也不盡一致;
其次,聲紋特征提取是在現(xiàn)實(shí)環(huán)境中進(jìn)行的,如何降噪以及去混響依然是聲紋識(shí)別的一大難題。在外部環(huán)境中,各種噪音都會(huì)通過(guò)錄音設(shè)備采集進(jìn)來(lái),這些噪音會(huì)在一定程度上混淆或者淹沒(méi)說(shuō)話人信息,使得聲紋系統(tǒng)無(wú)法獲取準(zhǔn)確的說(shuō)話人聲紋特征。因此,應(yīng)用聲紋識(shí)別技術(shù)的產(chǎn)品大多適合在相對(duì)安靜的場(chǎng)合使用。