百度大腦語音能力引擎論壇在京召開,現(xiàn)場,百度語音首席架構(gòu)師賈磊正式提出基于復(fù)數(shù)CNN網(wǎng)絡(luò)的語音增強(qiáng)和語音識別一體化端到端建模技術(shù),該方法拋棄了數(shù)字信號處理學(xué)科和語音識別學(xué)科的各種先驗假設(shè),消除學(xué)科間壁壘,直接端到端進(jìn)行一體化建模。相較于傳統(tǒng)基于數(shù)字信號處理的麥克陣列算法,錯誤率降低超過30%。
這項技術(shù)無需任何數(shù)字信號處理和語音識別學(xué)科的先驗假設(shè),復(fù)數(shù)CNN網(wǎng)絡(luò)內(nèi)存占用少于200K,可以內(nèi)置到百度鴻鵠芯片內(nèi)部。利用進(jìn)場數(shù)據(jù)和純粹依靠仿真數(shù)據(jù),就可以獲得足量的遠(yuǎn)場訓(xùn)練數(shù)據(jù),整個過程是從原始多麥克信號到識別文字的一個端到端訓(xùn)練,整個優(yōu)化過程只有字錯誤率兩集一個優(yōu)化準(zhǔn)則。
百度語音首席架構(gòu)師賈磊表示,“這項技術(shù)完成了數(shù)字信號處理和語音識別這兩個領(lǐng)域的技術(shù)革命,用端到端一個聲學(xué)模型,不需要任何領(lǐng)域行業(yè)的支持,解決兩個跨領(lǐng)域的語音識別問題?!?/p>
百度AI開放平臺,是面向企業(yè)、機(jī)構(gòu)、創(chuàng)業(yè)者、研發(fā)者,將百度在人工智能領(lǐng)域積累的技術(shù)以API或SDK等形式對外共享的在線平臺。提供全球前沿的語音識別與合成、OCR、人臉識別、NLP等數(shù)十項服務(wù),開放DuerOS、Apollo兩大行業(yè)生態(tài),享應(yīng)用場景和解決方案,幫您提升競爭力,開創(chuàng)未來。
提供全球精良的語音、圖像、NLP等多項人工智能技術(shù),開放對話式人工智能系統(tǒng)、智能駕駛系統(tǒng)兩大行業(yè)生態(tài),共享AI領(lǐng)域新的應(yīng)用場景和解決方案,您提升競爭力。
中國互聯(lián)網(wǎng)協(xié)會公布了2024年度第一批互聯(lián)網(wǎng)企業(yè)信用等級評價結(jié)果,京東、騰訊、美團(tuán)、搜狐、...
標(biāo)準(zhǔn)的建立對人類社會發(fā)展起到了重要推動作用,已深度融入各行業(yè)并產(chǎn)生積極影響。2024年,中...
中國互聯(lián)網(wǎng)協(xié)會發(fā)布了《中國互聯(lián)網(wǎng)企業(yè)綜合實力指數(shù)(2024)》報告,同時公布了2024年中...
互聯(lián)網(wǎng)周刊、德本咨詢、eNet研究院等機(jī)構(gòu)聯(lián)合發(fā)布了“2024中國軟件150強(qiáng)榜單”。榜單...
中國連鎖經(jīng)營協(xié)會與德勤合作發(fā)布了“2024年中國網(wǎng)絡(luò)零售TOP100榜單”。榜單按照企業(yè)2...
互聯(lián)網(wǎng)周刊、德本咨詢等機(jī)構(gòu)聯(lián)合發(fā)布了“2024年度技術(shù)公司100強(qiáng)榜單”,入選榜單企業(yè)涵蓋...