所謂智能語(yǔ)音產(chǎn)業(yè)主要指通過(guò)語(yǔ)音合成技術(shù)和語(yǔ)音識(shí)別技術(shù),為用戶提供各種服務(wù)的產(chǎn)業(yè)。一般來(lái)說(shuō),用戶只需要用說(shuō)話的方式給服務(wù)終端發(fā)送命令,就能實(shí)現(xiàn)相應(yīng)的服務(wù)。這一產(chǎn)業(yè)從上世紀(jì)六十年代就已經(jīng)出現(xiàn),但并不為普通消費(fèi)者所熟知,消費(fèi)者對(duì)其認(rèn)知度也比較低。近年來(lái),隨著各大科技公司先后推出Siri等智能語(yǔ)音服務(wù),這一服務(wù)以及相關(guān)產(chǎn)業(yè)也開(kāi)始被普通消費(fèi)者和投資界所關(guān)注。
“您好,我的朋友,到吃藥的時(shí)間了!”當(dāng)某個(gè)聲音在你耳邊出現(xiàn)的時(shí)候,你可能不會(huì)想到,這也許僅是預(yù)設(shè)好的一段程序。
語(yǔ)音交互是家庭智能機(jī)器人中的重要部分。這臺(tái)機(jī)器人可以和你進(jìn)行語(yǔ)音交流。當(dāng)你高興地夸獎(jiǎng)它時(shí),他會(huì)呵呵地笑出聲來(lái),當(dāng)你和它聊天時(shí),它會(huì)根據(jù)你的話題說(shuō)出相關(guān)的內(nèi)容。當(dāng)然,如果你家里有老人和孩子,它還將扮演一位保姆的角色。為老人提供心理慰藉,與孩子唱歌玩耍,它都是一個(gè)最佳的幫手。
只需喊一聲“Hi,TV”,電視就可以開(kāi)啟語(yǔ)音控制系統(tǒng),比如你說(shuō)“最近天氣預(yù)報(bào)”,然后電視屏幕上就會(huì)閃現(xiàn)出最近一周的本地天氣情況。隨著智能電視功能的日漸豐富和強(qiáng)大,僅依靠一個(gè)簡(jiǎn)單的電視遙控器已經(jīng)滿足不了智能電視的操控需求。
引入語(yǔ)音識(shí)別和語(yǔ)音合成技術(shù)的智能語(yǔ)音電視不僅能聽(tīng)懂用戶說(shuō)話并作出反應(yīng),而且還能“說(shuō)出話”來(lái)。用戶憑借語(yǔ)音指令可以輕松完成換臺(tái)、電視節(jié)目查詢、網(wǎng)絡(luò)瀏覽/搜索、文字輸入等操作,而電視能做的,就是根據(jù)用戶的需求讀出搜索到的內(nèi)容。
未來(lái),在每個(gè)家庭網(wǎng)絡(luò)上所有通過(guò)電力運(yùn)轉(zhuǎn)的設(shè)備,都可以被人們的語(yǔ)音控制,比如可以控制室內(nèi)的燈光、溫度等。
在駕駛環(huán)境下,用戶與車(chē)的交流,可以通過(guò)對(duì)話來(lái)實(shí)現(xiàn),說(shuō)出“想回家”,汽車(chē)會(huì)根據(jù)你家的位置設(shè)定好最佳路線,并開(kāi)始導(dǎo)航。說(shuō)出“加油站”,幾公里范圍內(nèi)的加油站將逐一由車(chē)載語(yǔ)音系統(tǒng)播報(bào)出來(lái)。
在車(chē)載環(huán)境下,用戶的注意力主要集中在于駕駛,人與車(chē)的交互必須在不影響駕駛的前提條件下進(jìn)行,語(yǔ)音識(shí)別技術(shù)提供了安全便捷的交互方式,用戶只需動(dòng)口,就可以滿足在行車(chē)過(guò)程中的相關(guān)需求。

語(yǔ)音操控作為人機(jī)溝通的重要手段,拍照、打電話、錄像,你只需說(shuō)出你的需求,它就將在你眼前展現(xiàn)出你想要的結(jié)果。
智能眼鏡、智能手環(huán)、智能手表,這些互聯(lián)網(wǎng)時(shí)代的智能化設(shè)備,最大限度地利用了語(yǔ)音控制技術(shù),它將讓未來(lái)的生活變得不可思議。
“聽(tīng)話”的瀏覽器離我們并不遙遠(yuǎn)?;蛟S要不了多久,我們就能拋開(kāi)鼠標(biāo)和觸摸板,通過(guò)聲控瀏覽器完成瀏覽網(wǎng)頁(yè)、發(fā)送郵件等。比如,你可以通過(guò)“暗一點(diǎn)”“亮一點(diǎn)”“字體大一號(hào)”等語(yǔ)音命令來(lái)控制瀏覽器。
傳統(tǒng)的密碼恢復(fù)機(jī)制是回答一些預(yù)設(shè)的安全問(wèn)題,如“你的出生地在哪里”等,但這類(lèi)問(wèn)題有些時(shí)候容易被黑客破解,用戶也可能記不起預(yù)設(shè)的問(wèn)題和答案,特別是企業(yè)員工,就常常因?yàn)橥浢艽a而求助于IT部門(mén)。
為此,一家外國(guó)公司推出了一項(xiàng)名為FastReset(快速設(shè)置)的新服務(wù)。該服務(wù)可先讓員工通過(guò)手機(jī)或電話注冊(cè)自己的聲紋,一旦員工忘記密碼需要重置,只需對(duì)著登錄界面念一段短語(yǔ)(比方說(shuō)“芝麻開(kāi)門(mén)”)即可完成。
很多小朋友都有這樣的夢(mèng)想:擁有一個(gè)會(huì)說(shuō)話的玩具,就像喜劇電影《泰迪熊》里面的TED一樣。
在ToyTalk的官方網(wǎng)站上,這個(gè)夢(mèng)想有了變成現(xiàn)實(shí)的可能:小女孩完成家庭作業(yè)后,把平板立起來(lái),打開(kāi)ToyTalk應(yīng)用,把泰迪熊玩具放在平板攝像頭前方,小女孩就能和在平板里“活過(guò)來(lái)”的泰迪熊對(duì)話了!
語(yǔ)音交互對(duì)于智能家居最直接的意義在于把智能家居變得真正的智能起來(lái),不管品牌與技術(shù)多么的先進(jìn),人機(jī)交互界面多么的友善,都沒(méi)有語(yǔ)音交互控制來(lái)的簡(jiǎn)便直接??萍甲屔罡悄?,語(yǔ)音讓交互更便捷、快捷。所以,如果智能家居能與語(yǔ)音交互融于一體,那么智能家居產(chǎn)業(yè)也許會(huì)迎來(lái)一次劃時(shí)代的突破。
用戶必須在離手機(jī)比較近的距離內(nèi)說(shuō)話,但在智能家居環(huán)境中,用戶和智能終端之間的距離被大大增加了,用戶能隨意用語(yǔ)音控制智能家居的一個(gè)必要條件就是在無(wú)論你在客廳哪個(gè)角落發(fā)出指令,設(shè)備都能準(zhǔn)確的識(shí)別,語(yǔ)音識(shí)別技術(shù)必須突破距離的障礙。目前室內(nèi)的語(yǔ)音交互受到背景噪音、其他人聲干擾、回聲、混響等多重復(fù)雜因素影響,只能在相對(duì)安靜、近距離的環(huán)境下使用。
加之中國(guó)的語(yǔ)系、方言、口音相當(dāng)多,再加上中文的多語(yǔ)義性,導(dǎo)致語(yǔ)音識(shí)別率能力不高。同時(shí),在語(yǔ)義識(shí)別上,也存在上下文的關(guān)聯(lián)帶來(lái)識(shí)別的學(xué)習(xí)難、定位難和建立模型難等問(wèn)題。
語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù),與機(jī)器進(jìn)行語(yǔ)音交流,讓機(jī)器明白你說(shuō)什么。語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科,語(yǔ)音識(shí)別技術(shù)與語(yǔ)音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤(pán),通過(guò)語(yǔ)音命令進(jìn)行操作,語(yǔ)音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)。
語(yǔ)音識(shí)別技術(shù)相當(dāng)于給計(jì)算機(jī)系統(tǒng)裝上“耳朵”,使其具備“能聽(tīng)”的功能,該技術(shù)經(jīng)過(guò)語(yǔ)音信號(hào)處理、語(yǔ)音特征處理、模型訓(xùn)練及解碼引擎等復(fù)雜步驟,使機(jī)器最終能夠?qū)⒄Z(yǔ)音中的內(nèi)容、說(shuō)話人、語(yǔ)種等信息識(shí)別出來(lái)。語(yǔ)音控制功能的實(shí)現(xiàn),與用戶的使用習(xí)慣高度關(guān)聯(lián),目前的語(yǔ)音控制功能實(shí)現(xiàn)方式可分為近場(chǎng)語(yǔ)音識(shí)別和遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別二個(gè)大類(lèi)。
在對(duì)音箱等設(shè)備進(jìn)行語(yǔ)音控制時(shí),往往該設(shè)備處于播放歌曲的狀態(tài)。由于麥克風(fēng)安裝在音箱上,麥克風(fēng)和說(shuō)話人之間的距離要遠(yuǎn)大于麥克風(fēng)和揚(yáng)聲器之間的距離,在這樣的情況下,采用內(nèi)外兼顧的方法進(jìn)行解決。內(nèi)部使用特殊的回聲消除算法從內(nèi)部減小噪音對(duì)麥克風(fēng)的影響。另外對(duì)于震動(dòng)帶來(lái)的非線性干擾,傳統(tǒng)的線性回聲消除方法失效了,因此可以使用非線性回聲消除算法提高內(nèi)部噪聲消除的效果。在外部結(jié)構(gòu)設(shè)計(jì)方面,使用精心設(shè)計(jì)的麥克風(fēng)陣列減震結(jié)構(gòu),使多個(gè)麥克風(fēng)和它所連接的電路板之間的震動(dòng)減小到最小,從而最大程度的控制高聲強(qiáng)導(dǎo)致的音箱本體震動(dòng)對(duì)拾音的干擾。
近場(chǎng)語(yǔ)音識(shí)別需要用戶點(diǎn)擊啟動(dòng),并且用戶與終端設(shè)備的距離比較近,如手機(jī)或其他終端設(shè)備,可直接借助這些終端設(shè)備直接實(shí)現(xiàn)控制功能。
遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別,以麥克風(fēng)陣列遠(yuǎn)距離拾取的語(yǔ)音數(shù)據(jù)作為輸入數(shù)據(jù),通過(guò)語(yǔ)音識(shí)別的算法將語(yǔ)音信號(hào)轉(zhuǎn)寫(xiě)成文字的技術(shù)。雖然和近場(chǎng)語(yǔ)音識(shí)別技術(shù)在原理上是相同的,但是由于音源和麥克風(fēng)之間的空間距離增大,在聲波傳播過(guò)程中會(huì)出現(xiàn)信號(hào)強(qiáng)度的衰減和各種噪音干擾,因此需要特殊的語(yǔ)音數(shù)據(jù)拾取和預(yù)處理技術(shù);不同的拾取設(shè)備和預(yù)處理技術(shù)常常會(huì)使用于語(yǔ)音識(shí)別的聲波信號(hào)特征發(fā)生改變,因此針對(duì)不同的遠(yuǎn)場(chǎng)語(yǔ)音拾取技術(shù),需要對(duì)語(yǔ)音識(shí)別引擎進(jìn)行定制化適配和優(yōu)化。
當(dāng)語(yǔ)音信號(hào)在傳播過(guò)程中有所衰減,影響采集信號(hào)的強(qiáng)度和分辨率,使用的靈敏度非常高的指向性麥克風(fēng),同時(shí)將麥克風(fēng)的參數(shù)調(diào)整到適合遠(yuǎn)場(chǎng)語(yǔ)音數(shù)據(jù)的模式,可以最大限度采集清晰的遠(yuǎn)場(chǎng)語(yǔ)音信號(hào)。語(yǔ)音指令聲波在傳輸過(guò)程中受到周?chē)胍舻奈廴?,降低聲波信?hào)的信噪比,使用定向波速成形技術(shù),抑制方向外的噪音,從而減少噪音對(duì)語(yǔ)音信號(hào)的干擾。在一個(gè)房間里,麥克風(fēng)拾取的聲波不僅僅直接來(lái)自于音源,還有音源發(fā)出后經(jīng)過(guò)墻壁反射的遲到的聲波,形成聲音的殘留,造成混響。利用多個(gè)麥克風(fēng)采集的數(shù)據(jù),通過(guò)多通道回聲消除算法,將這些不同時(shí)間達(dá)到的聲音數(shù)據(jù)分離開(kāi)來(lái),從而消除了混響對(duì)聲音數(shù)據(jù)的影響。
在遠(yuǎn)距離用語(yǔ)音進(jìn)行操控的時(shí)候,聲音可能來(lái)自不同方向的不同人。因此首先要確定哪些是發(fā)指令的聲音,哪些不是。使用的麥克風(fēng)陣列波速成形算法,將360度空間垂直劃分成若干區(qū)域,每個(gè)麥克風(fēng)負(fù)責(zé)檢測(cè)一個(gè)指定的區(qū)域。當(dāng)某個(gè)空間區(qū)域里面檢測(cè)到有喚醒詞出現(xiàn)時(shí),對(duì)應(yīng)于該空間區(qū)域的麥克風(fēng)拾音功能就被增強(qiáng),其他區(qū)域的麥克風(fēng)拾音就被抑制。從而實(shí)現(xiàn)對(duì)聲音進(jìn)行有方向有角度的拾取,避免了周?chē)娨暀C(jī)里的說(shuō)話聲音、其他人交談對(duì)語(yǔ)音指令的影響。
語(yǔ)音喚醒,是指通過(guò)含有特定喚醒詞的語(yǔ)音輸入來(lái)“觸發(fā)”語(yǔ)音識(shí)別系統(tǒng)以實(shí)現(xiàn)后續(xù)的語(yǔ)音交互。由于功耗等方面的限制,智能設(shè)備很難24小時(shí)都保持在激活狀態(tài);因此,如果要在家里自由地控制智能家居設(shè)備,還需要有即時(shí)“喚醒”功能,也就是給智能設(shè)備加入“語(yǔ)音喚醒”技術(shù)。通過(guò)該技術(shù),任何人在任何環(huán)境、任何時(shí)間,無(wú)論是近場(chǎng)還是遠(yuǎn)場(chǎng),面向設(shè)備直接說(shuō)出預(yù)設(shè)的喚醒詞,就能激活產(chǎn)品的識(shí)別引擎,從而真正實(shí)現(xiàn)全程無(wú)觸控的語(yǔ)音交互。
通過(guò)上面的介紹,相信大家對(duì)智能家居語(yǔ)音控制技術(shù)有了一定的了解,對(duì)智能家居語(yǔ)音控制技術(shù)的背景和功能有了深刻認(rèn)識(shí)。生活在當(dāng)代的我們,除了追求物質(zhì)上的溫飽、衣服上的溫暖同時(shí),還更加追求于精神上的方便、輕松、舒適。因此我們要不斷與時(shí)俱進(jìn),掌握新的智能技術(shù)。相信在不久的將來(lái)這種智能家居會(huì)成為你生活中的好伙伴,好幫手!