11月21日上午消息(劉念)本月28日,由北京捷通華聲語音技術有限公司(以下簡稱“捷通華聲”)打造的國內首款智能人機交互(簡稱“HCI”)感知云平臺——“靈云”將正式對外發(fā)布。這樣一款匯集融合了語音合成(TTS)、語音識別(ASR)、手寫識別(HWR)、光學字符識別(OCR)、人工智能(AI)等多種HCI技術的全方位平臺,在國內屬首創(chuàng),目前還沒有企業(yè)有能力跟進。
在捷通華聲“靈云2012發(fā)布會”前夕,C114前往捷通總部對該公司董事長張連毅進行了獨家專訪,請他對靈云平臺核心技術及市場拓展情況進行了詳細解讀。
一周年的能量蓄積
如果說Siri引爆了人們對智能語音對話的關注,那么靈云則開啟了一個智能人機交互的新時代,這是信息社會自鍵盤時代、鼠標時代及觸摸時代后的又一浪潮。靈云以其豐富的識別手段,以及全面智能的感知為用戶提供了一個人機交互應用的良好環(huán)境。
這是一種可以用語音、手寫、拍照、手勢識別,將來甚至可使用腦波識別等智能手段來操作,從而感知手機、計算機等數字設備的網絡云服務。通過靈云能讓人機交互像人與人溝通一樣簡單自然,并可實現任何人通過任何設備在任何時間地點輕松享受到智能人機交互的便利。
早在去年12月初,“靈云”就已推出,但為了能將更成熟的技術推向市場,捷通華聲在靈云推出之后陸續(xù)展開了各方面的應用探索,直到一周年后的今天,靈云有了全新的2.0版本,并已在各行各業(yè)取得了良好的應用成果,捷通華聲才決定正式將靈云面世。
目前靈云主要有語音合成(TTS)、語音識別(ASR)、手寫識別(HWR)、光學字符識別(OCR)、人工智能(AI)這五項核心技術。語音合成即文語轉換,主要利用計算機將文字轉換為聲音,語音識別則是將聲音轉換為文字,而手寫識別主要將手寫設備上書寫時的有序軌跡信息轉化為漢字。另外,光學字符識別是對各種表格票據證件進行掃描后,獲取文字及整個版面信息。智能客服機器人則是以語音擬人化的方式與人進行互動。
一周年中,捷通華聲不僅對靈云平臺穩(wěn)定性及抗壓性等各項性能指標進行了提升,還對靈云的產品性能、合作模式及各項HCI技術應用進行了探索與擴展。張連毅說,“在此期間,靈云各大核心HCI技術上都有顯著進步,特別是‘自由說’技術已進入商用化階段。”
張連毅表示,目前靈云的主要目標是提升平臺能力及自身核心技術,不斷將成熟的HCI技術通過靈云提供給大眾,而下一步就是促成更多的合作。
不斷拓寬的縱深合作
隨著HCI技術在各行各業(yè)的大量需求,靈云的應用范圍也將無處不在。目前國內數以億計的用戶都在直接或間接地使用捷通華聲的HCI技術,但很多用戶并不能明顯感覺到。“捷通華聲成立十幾年來,更多的是作為幕后支持者,通過與各大系統(tǒng)集成商、手機制造商、導航產品廠商等合作來服務大眾。”
據張連毅介紹,目前,捷通華聲已與數千家企業(yè)合作,將HCI技術應用到各行各業(yè)中,不僅有政府、教育、金融、電信、能源、交通、醫(yī)療等傳統(tǒng)行業(yè)領域的客戶,更有智能家電、智能家居、互聯(lián)網及移動互聯(lián)網、智慧城市等新興領域的用戶,大到服務成千上萬用戶的平臺,小到個人開發(fā)者,捷通華聲的HCI技術在中國已經無處不在,默默服務數以億計的大眾。
談及與中國電信的合作,張連毅表示,早在2008年捷通華聲就開始與電信進行增值服務方面的合作。至今捷通華聲在電信的Brew業(yè)務中仍居首位。目前捷通華聲已將靈云與中國電信正在開發(fā)的EMP平臺實現無縫銜接,成為其開放平臺的重要組成部分,而捷通華聲則負責提供其中的人機交互技術支持。
張連毅強調:“捷通華聲高度重視與中國電信的合作,靈云與中國電信EMP平臺的無縫銜接,標志著捷通華聲與中國電信的合作已邁入新階段。之后捷通華聲將與中國電信拓寬合作面,包括在音樂基地、游戲基地、閱讀基地等方面,捷通華聲將發(fā)揮靈云優(yōu)勢,為中國電信提供更多的HCI技術支持。”
當問及中國移動與科大訊飛在語音云方面的合作是否會影響捷通華聲靈云與中國移動的合作時,張連毅說,“靈云與語音云有很大的不同,區(qū)別在于靈云不僅提供語音云服務,同時也提供手寫識別、OCR等更多項HCI技術云服務,因此捷通仍然會與中國移動保持合作,當然我們現在的重點是中國電信,也有中國聯(lián)通,我們也一直和中國聯(lián)通保持著在增值服務領域的合作,希望日后也能在HCI技術上有相關合作。”
此外,捷通華聲的HCI技術不僅吸引了大批合作伙伴和個人開發(fā)商,許多各大投資商也極為關注。C114前去采訪的當天,就見到了專程從南方遠道來訪捷通華聲洽談的投資商。
當然,除了與各大企業(yè)合作,捷通華聲也希望能與從事各種人機交互技術研究或開發(fā)的企業(yè)合作,從而將靈云平臺作為其展現、推薦及提供自身技術服務的平臺。靈云作為一個開放性平臺,定制化的目標更加明確,將讓更多HCI研發(fā)人員在此平臺實現創(chuàng)業(yè)夢想,這也是此次捷通華聲2012靈云發(fā)布會的亮點之一。目前,靈云未來的版本已經開始與國內從事HCI技術的企業(yè)與研究機構進行多項合作,力求將多樣化的HCI技術加載到靈云平臺上,服務更多企業(yè),服務廣大眾用戶。
牢固根基下的枝繁葉茂
按照去年的統(tǒng)計數據來看,捷通華聲已在國內語音市場占有50%的份額,而其手寫識別技術已達到35%的份額。“一周年來,這兩項份額穩(wěn)中有增,雖然競爭對手強勁,但捷通在更加寬廣的HCI領域得到增長。”張連毅透露,目前捷通華聲的HCI技術產品已經展現出強勁發(fā)展勢頭,已全面深入滲透到各行各業(yè)。
2010年世博會廣播系統(tǒng)的語音技術,80%是由捷通華聲提供支持。全國的高鐵所有站臺的信息播報系統(tǒng),都是采用靈云的語音合成技術。目前國有五大銀行中的四家都使用著捷通華聲的HCI技術。而最近其也剛剛與百度達成合作,將靈云的手寫識別技術引入百度輸入法。[!--empirenews.page--]
張連毅坦言,在公司初創(chuàng)時,并沒有料到HCI技術會在今天有如此廣泛的應用,如今各行各業(yè)都需要這種智能的人機互動技術。而隨著未來人機交互技術的發(fā)展,靈云也將緊跟人類的步伐,讓機器與人的互動更接近人與人的交流。比如未來的語音合成技術應該能有音色、感情色彩等特色功能的選項,而語音識別也能對國內各個地方的方言有清晰的辨識。智能人機交互技術將是推動未來信息產業(yè)發(fā)展最強勁的發(fā)動機。
而在未來的發(fā)展中,捷通華聲最需要的就是各種優(yōu)秀人才,以滿足靈云與HCI應用到各個行業(yè)所產生的大量需求。張連毅表示,捷通華聲非常樂于為各方面的優(yōu)秀人才創(chuàng)造發(fā)展的舞臺。
“捷通華聲未來的發(fā)展就像一根樹干成長到枝繁葉茂的過程。捷通華聲擁有的核心技術就是大樹的根,靈云平臺是大樹的主干,而靈云在各行各業(yè)的應用是大樹的枝杈。”張連毅表示,“包括由捷通華聲提供技術支持的智能手機助手小唐龍,一款可為用戶提供地圖導航、天氣查詢、音樂搜索、新聞播報等特色功能的手機應用程序。如果說這是捷通華聲在手機App方面的探索產品,未來將有更多類似小唐龍的創(chuàng)新產品出現。”
以牢固的根基養(yǎng)育大樹的枝繁葉茂,這就是捷通華聲所堅持的發(fā)展理念。而在這發(fā)展過程中,無論過去還是未來發(fā)展,捷通華聲不會吃獨食或分搶別家利潤。獨木不成林,只有無數棵茁壯成長的大樹才能造就繁茂的森林。捷通華聲將與各界合作伙伴精誠合作,共同創(chuàng)造智能人機交互領域的繁榮景象。
注:捷通華聲“2012靈云發(fā)布會”將在中關村軟件園召開,歡迎各界人士到靈云網站(www.hcicloud.com)報名參加)