相比于傳統(tǒng)的高新技術(shù),中國是有優(yōu)勢的。
第一個是經(jīng)過這么多年核心技術(shù)的發(fā)展,特別是中國863計劃以后,大家會注意到,在這一次的人工智能浪潮中,國內(nèi)的企業(yè)和國外企業(yè)相比一點沒有落后。如果說,在5、60年代和7、80年代那兩次(人工智能發(fā)展期),中國企業(yè)還沒有辦法和外國企業(yè)在技術(shù)上相比的話,那在這次(發(fā)展浪潮里),我們完全走在了前面。
第二個方面是在于,任何機器的交互離不開產(chǎn)業(yè)環(huán)境和商業(yè)生態(tài)。這個產(chǎn)業(yè)環(huán)境和商業(yè)生態(tài),在7、80年代之前是什么?是電子產(chǎn)品。
大家都知道,中國的電子產(chǎn)品在7、80年代才剛剛起步,完全不具備在全球市場競爭的能力。但是在現(xiàn)在,我們的依賴的是什么產(chǎn)品?是智能手機,是互聯(lián)網(wǎng)產(chǎn)品和移動互聯(lián)網(wǎng)產(chǎn)品。而在這方面,整個中國不僅是從事語音技術(shù)的公司對此有依賴,相關的商業(yè)公司也是,比如網(wǎng)上購票,還有各種的O2O。
作為一種連接型的技術(shù),把人和機器連接在一起之后,語音技術(shù)如果想在物聯(lián)網(wǎng)里面占領很多市場,就必須和這些后臺的服務連接起來。所以說從整個商業(yè)和技術(shù)環(huán)境上來講,中國現(xiàn)在應該說也是很好,因為我們的互聯(lián)網(wǎng)公司和美國方面來講,已經(jīng)是一個同臺競技,甚至均分天下的態(tài)勢。
在這點上,我覺得這為我們在將來,在物聯(lián)網(wǎng)時代用語音交互作為人機交互的主要手段,并引發(fā)相應的商業(yè)模式,提供了很好的基礎。
而第三點,大家會注意到,無論是什么操作系統(tǒng),PC的也好,手機的也好,雖然這些操作系統(tǒng)可能是美國的公司做的,比如說微軟、谷歌,但是要注意到,輸入法這個部分,都是中國公司占主導地位。
為什么?因為它和語言有關。一個簡單的鍵盤輸入法,就因為語言之間的差異導致這么大的差異。那么大家可以想象一下,一個包括了語音識別、語音合成、自然語言理解的語音系統(tǒng),語言之間的壁壘會有多高。中國公司在這方面會完全具有優(yōu)勢。
所以說從這三個方面來講,我們在將來的物聯(lián)網(wǎng)時代里面,無論是從技術(shù)本身,還是從語言的差異化本身,還是從商業(yè)的生態(tài)和環(huán)境本身,我們現(xiàn)在都和國外公司完全處于同一個水平。所以在這一波浪潮中,我們有信心中國會成長出一批國際水準的公司出來。
不可否認,我們對人工智能的了解,不要說產(chǎn)業(yè)界,就是媒體,其實對人工智能更多的認識是落在應用特性和娛樂特性上。而美國的很多人,是真正從理論的角度,進行非常深入的探討。
如果我們只談論應用和娛樂層面上的東西的話,我們是得不了圖靈獎的,也得不了諾貝爾獎,也不能創(chuàng)造信息論這些東西。美國所謂原創(chuàng)性的研究,是從理論的根基出發(fā),建立一套完整的思維方式。而有許多理論研究的東西是不會產(chǎn)業(yè)化的,沒有產(chǎn)業(yè)化價值的。它只是一種哲學化的思考,而這些東西我們沒有關心。
哲學會產(chǎn)生真正的創(chuàng)新。創(chuàng)新有很多種,有一種是在最原始的技術(shù)上創(chuàng)新。而我們講的很多其實是在應用層面上創(chuàng)新,或者在技術(shù)層面上創(chuàng)新,但不是在科學的層面上去發(fā)現(xiàn)和創(chuàng)新。
所以在這個層面上來講,我覺得國內(nèi)應該從兩個方面,恰恰是我們的研究的部分,我們的研究院所,我們的高校,可能應該更加著重于在理論方面的深入。而我們的產(chǎn)業(yè)界,不應該僅僅去應用它,而且應該在技術(shù)方面去做大規(guī)模的整合和創(chuàng)新。
因為人工智能就像航空發(fā)動機一樣,里面有非常非常多的零件,有視覺的,有聽覺的。你要把它們綜合在一起,而且每一個都要做到世界上最好。我覺得現(xiàn)在學術(shù)界可能因為要和產(chǎn)業(yè)界對接,做了很多技術(shù)層面上,和應用相關的創(chuàng)新。而產(chǎn)業(yè)界還沒有能力,來做整體性、系統(tǒng)性創(chuàng)新的工作,比較少。所以我覺得這就是我們和美國相比有差異的所在。
我覺得我們在學術(shù)上,理論的深度,和愿意去花長時間究本質(zhì)的工作還是太少,還應該增強。
智能語音是訊飛整個人工智能戰(zhàn)略中的一部分。而訊飛人工智能戰(zhàn)略的核心,是基于語音和語言的認知智能。
什么是認知智能?比如在醫(yī)療的過程中,我們需要通過病例幫助醫(yī)生分析病人可能會得什么病,吃什么藥,這就是一種認知智能。包括在教育里面,我們通過手寫的試卷來判斷學生的得分,并給出改進的意見。這些都是和語言,和人的概念和推理有關的。除了交互之外,它們能給我們的生活帶來更多改進。
我再舉一個例子,和我們的安全有關。在7、8月份,電話詐騙非常猖獗,特別是臨開學的那段時間。有很多上學的同學不是因為詐騙,做出了很多不理性的事情么?安徽省8月份電話詐騙的發(fā)生次數(shù)下降了60%,而同期全國其他地區(qū)增長了58%。為什么能做到這點?因為我們在安徽省所有的電話里面做了一個監(jiān)控系統(tǒng),它可以對通話內(nèi)容進行分析,對那些詐騙性質(zhì)行為自動作出提醒,而這個過程是完全自動化的。這樣就為安徽省避免了5個億以上的可能的損失。
我相信大家也注意到了,我們演講的時候會有一個同步實時顯示文字的技術(shù)。就是說我在上面講話的同時,文字出來了,對你們(記者)來說是最有用的。這個產(chǎn)品馬上就要開發(fā)出來了,最理想的狀態(tài)就是我在這邊說話,你們的屏幕上就能實時顯示出來我講的內(nèi)容。
在去年的發(fā)布會上,我們發(fā)布了這個功能以后。大家可以看到,今年阿里和搜狗都展示了同樣的技術(shù)。這也代表了一個發(fā)展方向。這個方向可能和語音交互是沒有關系的,但和語音(技術(shù))有關系。
首先iPhone我們是搞不定的,除非破解它。iPhone本身就是一個垂直的生態(tài)。而且這個問題不僅僅是在中國,美國也是。但是iPhone自己的語音技術(shù)很差,導致它的用戶體驗相對于其他公司、產(chǎn)品會有劣勢。
但對Android來講,情況是不一樣的。因為谷歌也知道Android有全球不通用的地方。比如說審美、風格,比如說語言相關的部分:輸入法、交互。這就造成了Android系統(tǒng)在設計的時候就是一個比較開放的系統(tǒng)。
這就造成了第三方UI其實接管了中間層的一些功能,也導致了這些領域是可以進入的。而且現(xiàn)在很多的智能硬件,其實用的都是Android的操作系統(tǒng)。
我相信在將來的發(fā)展中,世界上會存在兩種公司。一種公司是垂直產(chǎn)品型公司,比如說做手機,就一直做手機,手機技術(shù)不可能給別人用。世界上看起來,最多有8到9家這樣的手機公司,加起來產(chǎn)量可能到全球的90%-到95%以上。
另外還有些公司,像谷歌這樣,就是平臺型的公司。我提供一些基礎性的工作,給各個廠商都能用。但是做了平臺之后就要面臨控制權(quán)大小的問題。有可能控制權(quán)不在自己手上,而在手機廠商手上。
所以在未來的發(fā)展過程里,訊飛要做的不僅僅是手機,而是我剛才說的各個領域。這些領域里,有的是幾家大公司聯(lián)合壟斷了市場,有的領域會是成千上萬個公司來分享市場。比如說玩具、機器人,就是后面的這種。而且我相信現(xiàn)在這么多機器人公司,到最后也不會合并成大的公司,因為用戶需要多樣性的個性化產(chǎn)品。而手機這種產(chǎn)品,雖然有差異,但還是個工具性質(zhì)的產(chǎn)品。
所以訊飛會成為一個平臺型的公司,不僅幫平臺上的公司提供核心技術(shù),甚至可以幫它們整合各種各樣的資源。我覺得我們是用這樣一個思路來發(fā)展的。
場景的問題其實和剛才的問題,就是內(nèi)容方面是非常有關系的。我們?nèi)嗽谔幚硪患碌臅r候,你可以想象下你在訂一張票,你所要和別人交談的內(nèi)容,嘴里面發(fā)出的指令,其實相對來講不是開放的集合,是封閉的集合。
這里最難的問題就是怎么把它豐富起來,怎么讓它多覆蓋(些場景)。我們現(xiàn)在的做法就是一個點一個點去做。每做完一個點就拿到實際里去用。越來越多的人用了之后,語言的覆蓋性就會越來越好,這個場景的問題就解決了。
那在這個過程里怎么加速這個問題呢?我們怎么在做一些場景的時候,其他場景也能變快呢?這就是我們?yōu)槭裁匆瞿切└呖即痤}機器人的原因。它能學會系統(tǒng)學習的方法,當我們做了一兩個場景之后,就能轉(zhuǎn)移到其他很多場景上。這樣能使我們的覆蓋快速增加。我們通過這樣的方式來解決這樣的問題。
當然擔心,但擔心了也沒用。
任何一個新技術(shù)出來的時候都會魚龍混雜。人類有夸大預期的本性在里面,是人類的社會特性決定的。認識到這個規(guī)律之后就不會覺得這事是什么壞事。我們能做的就是在局部上防止過熱。
所以我們應該考慮的是如何利用這種周期性的狂熱來合理布局。從投資人角度來說,投資人很容易找到錢,但投資人可以利用這種環(huán)境去找最有價值的公司來投資。所以只能說改變你能改變的,接受你不能改變的。
我覺得在人工智能領域里有兩個領域是有價值的。一個是人工智能核心技術(shù)研究,他們不一定有經(jīng)驗去進行商業(yè)化,我們可以投資他,提供經(jīng)驗。另外是如何利用人工智能技術(shù)來解決現(xiàn)實問題,這通常在大的公司里面,他們都有很大的產(chǎn)業(yè)基礎,只要把新技術(shù)嫁接進來。
大部分的公司并不會因為人工智能出現(xiàn)而進行重組和重構(gòu)。比如農(nóng)業(yè),人工智能只是一個改進的工具,所以在這些領域里,原有的大公司依然占有優(yōu)勢。所以更有價值的是去尋找哪些懂得怎么利用人工智能的人來投資。
比較公司要看戰(zhàn)略,我不是特別了解百度的戰(zhàn)略,因為每年百度的重點不一樣。但是過去三年里面我們一直在做運算智能、感知智能和認知智能,而且會定期公布進展,有清晰的商業(yè)模式。這是我們和互聯(lián)網(wǎng)公司的不同,是專注科技創(chuàng)新的公司??萍紕?chuàng)新公司更像是爬山的公司,一步一步去爬到頂峰。
但互聯(lián)網(wǎng)有很多機會,所以很多公司都是沖浪型的,需要不停地抓住下一個浪潮,如果不是,就換了。
我們還是堅持做人工智能,堅信交互革命那天會到來。所以一個公司要有清晰地戰(zhàn)略,而且要把戰(zhàn)略傳達給別人。我們戰(zhàn)略十分清晰:我們是一個技術(shù)創(chuàng)新性公司,解決人機交互這個問題。
在行業(yè)里面,我們用我們的人工智能技術(shù)幫助醫(yī)院、學校、司法、金融機構(gòu)去改善他們的問題。這里面有很多“臟活累活”,要做很多結(jié)合型的工作。互聯(lián)網(wǎng)公司追求收益,毛利要非常高。而且有很多“臟活”不一定愿意去干。但在產(chǎn)業(yè)互聯(lián)網(wǎng)階段,和傳統(tǒng)領域結(jié)合,是少不了這一步的。
當然不是說一味去做基礎性的工作。上面要有頂天立地的東西,但是不能因為有這個就不能彎腰了,絕對不是這個概念。
所以我覺得中國需要更多爬山型的公司,無論外面怎么變化。外面無論是互聯(lián)網(wǎng)時代也好,移動互聯(lián)網(wǎng)時代也好,物聯(lián)網(wǎng)時代也好,這都是外圍環(huán)境的變化。但是公司征服一個領域,具有爬山的本質(zhì)是必不可少的。