當(dāng)前位置:首頁 >  科技 >  互聯(lián)網(wǎng) >  正文

從搜狗語音的進(jìn)化 看未來智能語音時代如何開啟?

 2016-12-15 16:18  來源: A5專欄   我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

文|李東樓

又到年末,回顧一年來人工智能的發(fā)展,語音識別技術(shù)正處于快速發(fā)展階段。正如在之前由國際知名科技期刊《麻省理工科技評論》(MIT Technology Review)評選出的“2016年十大突破技術(shù)”,語音接口技術(shù)位列其中,該技術(shù)可將語音識別和自然語言理解相結(jié)合,為全球互聯(lián)網(wǎng)市場創(chuàng)造切實可用的語音接口。

在東樓看來,隨著場景聲音辨識技術(shù)的加速完善,語音識別技術(shù)有望迎來真正的拐點,未來發(fā)展空間將進(jìn)一步擴(kuò)大。而國外的谷歌、蘋果,以及國內(nèi)的科大訊飛、搜狗等公司都是這一領(lǐng)域的大玩家。

從智能語音識別、語義理解到如今最熱的實時翻譯,搜狗語音并不是一開始就有如此優(yōu)秀的表現(xiàn),而是經(jīng)過了數(shù)年的產(chǎn)品演進(jìn)和技術(shù)進(jìn)化才達(dá)到今天這樣的水平。而回顧搜狗在智能語音技術(shù)方面的進(jìn)化歷史,甚至還能夠看到未來的智能語音技術(shù)發(fā)展的方向和前景。

智能語音的進(jìn)化史

首先讓時間回到移動互聯(lián)網(wǎng)的爆發(fā)初期的2012年,當(dāng)時由于蘋果Siri功能推出,語音助手軟件曾經(jīng)風(fēng)行一時。不僅包括搜狗、百度等搜索引擎公司基于自身的搜索引擎的基因,紛紛推出了獨(dú)立的語音助手應(yīng)用,還有一些創(chuàng)業(yè)公司也希望能夠從語音搜索入手,期望成為下一代搜索引擎入口。不過,與Siri一樣,這些語音助手產(chǎn)品不僅語音識別率低,而且還經(jīng)常答非所問,且只能提供一些簡單的詢問天氣、介紹餐廳等初級功能,無法進(jìn)行復(fù)雜的多輪交互對話,因此在經(jīng)過了短暫的市場預(yù)熱之后迅速進(jìn)入低潮,而這些語音助手們也紛紛沉寂,甚至停止了更新。

在此之后,包括搜狗在內(nèi)的這些提供智能語音服務(wù)的公司紛紛轉(zhuǎn)入技術(shù)積累的低調(diào)期,并陸續(xù)推出了基于云服務(wù)推出語音云開放平臺,希望能夠開放自己的語音識別、語義理解等語音技術(shù)能力,吸引更多的第三方合作伙伴,一起搭建生活服務(wù)入口。不過,盡管搜狗在智能語音的技術(shù)一直在向前演進(jìn),語音識別率越來越高,但是由于更多將服務(wù)轉(zhuǎn)向了b端,因此并不被普通用戶熟悉。直到羅永浩在對錘子手機(jī)功能的演示時提及,才使得人們第一次意識到原來智能語音技術(shù)已經(jīng)演進(jìn)到了現(xiàn)在這個地步。

實際上,第一次引爆智能語音技術(shù)并讓其受到追捧的人并不是羅永浩,而是搜狗CEO王小川。就在今年7月,搜狗CEO王小川在參加極客公園“奇點·創(chuàng)新者峰會”上已經(jīng)完成進(jìn)化的搜狗語音來了一次”首秀“。利用搜狗公司的語音識別技術(shù),王小川的演講內(nèi)容在現(xiàn)場實時生成了滾動字幕顯示,目測準(zhǔn)確率高達(dá)95%以上。同步的字幕引起了現(xiàn)場觀眾極大的興趣,紛紛起立拍照。不僅如此,王小川甚至還現(xiàn)場邀請了一位觀眾上臺體驗了搜狗輸入法的新功能“語音修改”。用戶對著手機(jī)說出一段文字后,再通過自然語言的方式將語音識別錯誤的地方進(jìn)行修正,贏得了現(xiàn)場熱烈的掌聲。

緊接著,搜狗馬不停蹄的在今年8月初發(fā)布了語音交互引擎“知音”,繼續(xù)展示其在智能語音技術(shù)方面取得的重大突破,不僅在語音識別率方面達(dá)到業(yè)界領(lǐng)先的97%,而且還能進(jìn)行快速糾錯,更解決了此前一直困擾業(yè)界的復(fù)雜多輪交互的問題。簡單的說,就是不僅要實現(xiàn)“能聽會說”,還要求具有“能理解會思考”的能力,這使得智能語音的應(yīng)用場景被大大延伸。而搜狗還宣布,已經(jīng)將智能語音技術(shù)應(yīng)用到了包括搜狗搜索、搜狗輸入法、搜狗地圖等全線產(chǎn)品當(dāng)中。至此,搜狗的語音技術(shù)完成再次進(jìn)化,在智能語音方面的能力已經(jīng)到達(dá)了國內(nèi)領(lǐng)先的水平。

而在11月烏鎮(zhèn)舉行的第三屆世界互聯(lián)網(wǎng)大會上,王小川在分論壇演講現(xiàn)場更是發(fā)布了搜狗人工智能新產(chǎn)品——機(jī)器同傳,展示了實時機(jī)器翻譯技術(shù),將演講嘉賓的中文講話實時語音識別并同步翻譯為英文上屏顯示,引起轟動。這也是全球首次基于神經(jīng)網(wǎng)絡(luò)的實時機(jī)器翻譯技術(shù)在大型活動上的展示,效果可靠、準(zhǔn)確率已接近人類同傳翻譯結(jié)果。

基于大數(shù)據(jù)和深度學(xué)習(xí),搜狗語音實時翻譯涵蓋了搜狗自主研發(fā)的語音識別、機(jī)器翻譯兩項重要技術(shù),代表著這兩大技術(shù)在實時性和實用性上邁出了較大的一步,并且高效的結(jié)合了起來。

未來,智能語音技術(shù)該如何演進(jìn)?

另一方面,前面提到,目前搜狗在語音識別率方面已經(jīng)達(dá)到97%,并能夠進(jìn)行快速糾錯和處理復(fù)雜的多輪交互對話,而且已經(jīng)應(yīng)用到搜狗的全線產(chǎn)品當(dāng)中。那么,接下來,智能語音技術(shù)還會向那些方面演進(jìn)呢?我認(rèn)為主要有以下三個突破點:

首先,需要繼續(xù)提升智能語音的識別率,突破最后的3%。實際上,目前搜狗使用新開發(fā)的語音修改功能,通過自然語言交互的形式修改所輸入的文字,比“將弓長張改為立早章”等,已經(jīng)在一定程度上解決了語音識別準(zhǔn)確率最后3%的差距,達(dá)到了解放用戶雙手和提高用戶輸入效率的目的。而搜狗之所以能夠在智能語音技術(shù)方面率先取得突破,一方面與其多年來的深耕積累密不可分,另一方面也與其搜索引擎公司基因密不可分。按照王小川的話說,搜狗本身就是一家人工智能公司,作為搜索引擎公司之所以能夠向用戶提供精準(zhǔn)的搜索結(jié)果,其技術(shù)原理就是不斷的進(jìn)行數(shù)據(jù)積累和機(jī)器學(xué)習(xí),從而使得其能夠準(zhǔn)確理解用戶輸入文字背后的真實意圖,從而給出最為精準(zhǔn)的答案,而智能語音的原理與此類似,因此與搜狗輸入法一樣,搜狗有先天優(yōu)勢能讓其在智能語音技術(shù)方面能夠率先獲得突破,達(dá)到領(lǐng)先行業(yè)的高識別率。

其次,復(fù)雜多輪交互能力的提升依然是智能語音技術(shù)的突破點。實際上,在眾多關(guān)于人工智能的科幻電影當(dāng)中,對于人類與機(jī)器的交互描述的最理想狀態(tài)就是讓機(jī)器能夠理解自然語言,實現(xiàn)完全無障礙的復(fù)雜的多輪交互對話,而只有做到這一點才真正能夠觸發(fā)“奇點來臨”,人工智能時代才算真正開啟。因此,在解決最后的3%的語音識別率的同時,在語義理解方面繼續(xù)提升機(jī)器對人類自然語言的理解能力,以及對于不同語境下的復(fù)雜對話的處理能力也非常重要,而這些技術(shù)等突破甚至還需要情感識別技術(shù)的應(yīng)用,將是更難的技術(shù)突破點。

而在這方面,搜狗依然具有優(yōu)勢,因為像語義理解這樣的人工智能技術(shù)的提升,同樣是一個數(shù)據(jù)積累和機(jī)器學(xué)習(xí)的過程,而這意味著具有龐大的用戶量和數(shù)據(jù)量能夠提供為機(jī)器學(xué)習(xí)更多的機(jī)會。首先,與其它沒有搜索引擎基因公司相比,搜狗搜索是一家國內(nèi)排名前三的搜索引擎廠商,擁有足夠多的用戶和足夠大的數(shù)據(jù)量,這是其擁有讓人工智能技術(shù)成長的“土壤”,而搜狗搜索語音搜索次數(shù)增長超過4倍也恰好印證了這一點;而與其它搜索引擎公司相比,搜狗還有國內(nèi)用戶量最大的搜狗輸入法作為搜狗語音的“訓(xùn)練師”,其不僅擁有海量詞庫,日均語音輸入更是超過1.9億次。因此,這兩大優(yōu)勢相加,使得搜狗基本上可以“跑贏”目前市面上所有的智能語音產(chǎn)品。

最后,智能語音的技術(shù)必須更加通用化和行業(yè)化。也難怪人們此前對于智能語音能夠達(dá)到97%的識別率的“驚訝”,因為除非是記者、作家等文字工作者有語音轉(zhuǎn)文字這樣的需求,大部分人在日常的交流當(dāng)中,極少情況下會有語音轉(zhuǎn)文字的需求,因此盡管智能語音的技術(shù)不斷進(jìn)步,但人們卻絲毫沒有感覺到。因此,在下一階段的發(fā)展過程中,智能語音技術(shù)必須走下“神壇”,不能再是普通人不需要的“黑科技”,而是應(yīng)該成為企業(yè)和個人都能因此受益的通用技術(shù)和解決方案。

目前來看,搜狗已經(jīng)率先展開了對于智能語音技術(shù)在行業(yè)應(yīng)用中的探索。就在不久前,魅族召開發(fā)布會發(fā)布了其首款電視智能盒子--魅族盒子,其中就內(nèi)置了搜狗智能語音技術(shù),用戶通過魅族盒子的智能遙控器,用戶只要說出自己想看的內(nèi)容,視頻、歌曲、學(xué)習(xí)、健身等內(nèi)容就會一呼即應(yīng)。與此同時,搜狗智能語音技術(shù)

在車載導(dǎo)航的應(yīng)用方面也有動作,最近國內(nèi)車載導(dǎo)航的領(lǐng)先企業(yè)飛歌推出飛的歌黃金G8Ⅱ智能車機(jī)產(chǎn)品,該車機(jī)就載了搜狗車載語音解決方案的趣駕行車助手,并將語音與服務(wù)進(jìn)行深度整合,實現(xiàn)了以輕應(yīng)用的形式將搜狗智能語音技術(shù)在飛歌黃金G8Ⅱ上呈現(xiàn),邁出了向車聯(lián)網(wǎng)探索的第一步。除此之外,搜狗還正在醞釀與VR、智能電視等第三方在智能語音技術(shù)方面展開合作。因此,可以預(yù)見的是,智能語音技術(shù)在家居、汽車、教育、醫(yī)療等領(lǐng)域的應(yīng)用不斷深入,用戶將能夠在更多的場景下,享受到智能語音技術(shù)發(fā)展所帶來的優(yōu)秀體驗和服務(wù)。

總的來看,智能語音技術(shù)不僅僅需要在語音識別準(zhǔn)確率、多輪復(fù)雜交互能力方面繼續(xù)提升,還需要真正能夠轉(zhuǎn)化成為企業(yè)和用戶都需要的服務(wù),這樣才能夠真正體現(xiàn)出價值,也才能夠迎來一個真正屬于智能語音時代的到來。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
搜狗輸入法
智能語音

相關(guān)文章

熱門排行

信息推薦