怎樣用AI賦能信息無障礙
姚登峰是一位聽障人士,但他在逆境中不斷地創(chuàng)造傳奇,獲得了北京大學(分數(shù)線,專業(yè)設置)碩士、清華大學(分數(shù)線,專業(yè)設置)博士學位,現(xiàn)在是北京聯(lián)合大學的副教授、碩士生導師。去年12月,他和另外兩位清華博士一起創(chuàng)業(yè)。
他來自湖北天門,1歲時雙耳失聰,卻以優(yōu)異成績完成各階段學業(yè)。作為全球首位人工智能聾人博士,姚登峰的博士課題是手語認知與計算,致力解決聾人與健全人的信息溝通問題。在李德毅院士的點撥下,姚登峰團隊將手語計算研究擴展到行為語言計算研究,即理解全人類的行為語言。為了將最新科技成果轉(zhuǎn)化為科技產(chǎn)品,他創(chuàng)業(yè)成立行語科技,成為一家行為語言整體解決方案的提供商,公司自主研發(fā)的行為語言計算技術(shù),在理解除了語音語言之外的整個人類多樣化行為方面,居于世界領(lǐng)先水平。
5月25日,在清華大學校長杯創(chuàng)新挑戰(zhàn)賽中,行語科技脫穎而出,獲得由眾多頂級投資人和專家評出的企業(yè)創(chuàng)新獎。
面對坎坷“生氣不如爭氣”
姚登峰從小就以殘疾身體奔跑在人生馬拉松賽場。他1歲時因為感冒發(fā)燒導致聽力極重度損失,從此墜入了一片靜寂的無聲世界。
當時醫(yī)生的判斷是訓練沒有效果,但他的母親沒有放棄,日復一日對他進行聽語康復訓練。沒有助聽器,母親就在他耳邊大聲“喊話”,彼此摸著對方的喉嚨感覺聲音的震動來發(fā)音,漸漸登峰學會說話和交流。上學后,他無法聽到老師講課的完整信息,自己就通過大量的閱讀和自學來彌補,以頑強的毅力克服了求學中的種種困難和阻礙,他的成績可以考入重點大學,卻因耳聾被拒錄,幾經(jīng)周折被錄取到一所二本大學。
“生氣不如爭氣!”姚登峰面對挫折激發(fā)斗志,更加努力證明自己不比健全人差。2003年他通過全國統(tǒng)考,以專業(yè)第一名的成績考上了北大研究生,并以全優(yōu)的成績畢業(yè)。也正是在北大讀研期間,他第一次接觸到信息無障礙?!按蟛糠秩苏J為信息障礙只存在于殘障人士之間,其實健全人也會有老的時候,也會有聽不到聲音、看不到東西的時候,也會有特殊場景下遇到信息障礙的時候。信息無障礙是全人類的事情”。
他在信息無障礙領(lǐng)域做了大量開創(chuàng)性的工作,也發(fā)現(xiàn)了手語背后計算領(lǐng)域的一片空白地帶,為此他2012年考入清華大學在職攻讀博士學位,希望用手語認知和計算技術(shù),讓有聲世界的口語族與無聲世界的手語族能夠自由溝通。
在清華讀博期間,在數(shù)以萬計的代碼編寫和實驗論證之后,2016年姚登峰團隊在國際上首次提出手語計算的認知架構(gòu),一舉解決了手語計算困擾多年的底層像素特征與邏輯語義輸出的斷層,匯合手勢分詞實驗的數(shù)據(jù)寶庫,手語計算的理論、技術(shù)與認知支撐首次形成了完整閉環(huán)。
擔任中國人工智能學會理事長、北京聯(lián)合大學機器人學院院長的李德毅院士,有一次點撥姚登峰:在自然語言交流效果中,有聲語言占7%,語音音調(diào)占38%,面部表情、肢體語言及手勢等行為語言占55%。過去幾十年來AI只關(guān)注占比45%的講話內(nèi)容的理解,但對于占比55%的表情、手勢、肢體等行為語言并未關(guān)注。
姚登峰博士畢業(yè)后在手語計算的基礎上,開始嘗試破解行為語言的深層奧秘,由于兩者本身在面部、手勢、肢體的聚合感知上架構(gòu)相通,再加上團隊伙伴不懈地探索和研究,僅僅兩年便在這一領(lǐng)域取得了突破性進展,2017年姚登峰被推薦為北京市卓越青年科學家。
調(diào)研發(fā)現(xiàn)各行各業(yè)都有行為語言計算需求
行為語言是從運算智能到達感知智能、認知智能重要的途徑,基于動態(tài)影像的行為識別是AI的最前沿領(lǐng)域,全球科技巨頭都在積極尋找剛需解決方案。
阿布都克力木、哈里旦木兩位博士和姚登峰是從事小語種計算研究的清華同學,他們常常在一起討論前沿科技,在一次次探討中敏銳地認識到,如果對人類行為語言進行全方位無感識別與計算輸出,機器智能便能理解各種行為語義并做出善解人意的反饋。這將是由傳統(tǒng)運算智能上升至感知智能和認知智能的重要核心,并可以延伸出更多跨行業(yè)有價值的產(chǎn)品和服務。
2018年,姚登峰團隊在湖北進行了智能領(lǐng)域的無人駕駛無感識別的實驗,通過一周的數(shù)據(jù)采集,該技術(shù)在0~100米范圍內(nèi)可以準確在人群中識別出交警,識別率達到95%;在識別交警準確的8套手勢時,識別率達到90%。這證明該技術(shù)已達商用標準,他們順利拿到了國家知識產(chǎn)權(quán)證書。
一次,姚登峰與創(chuàng)業(yè)伙伴做市場調(diào)研,在一所監(jiān)獄考察時發(fā)現(xiàn)其引入了最先進的監(jiān)控系統(tǒng),僅一個監(jiān)控室安裝了幾十個顯示器,對應500個房間外加各類場所通道。但負責這500個房間的狀況監(jiān)控的干警,每天輪班連續(xù)看顯示器,人極度疲勞,監(jiān)控效果也很難面面俱到。
如果有了行為語言智慧監(jiān)控系統(tǒng),就可以通過人工智能自動發(fā)現(xiàn)是否有違規(guī)行為,能夠及時把違規(guī)動作等截圖上傳到監(jiān)控室,讓就近獄警及時干預,提高管理運行效率和安全防范水平。
團隊在市場調(diào)查中得知很多場景、場合都需要應用行為語言計算,比如在照顧老人時,識別出老人是否摔倒;在跑步、游泳等體育運動時,識別動作是否標準;在煉油廠等敏感區(qū)域,識別出抽煙、沒有戴安全帽等不安全行為……各行業(yè)的需求對接讓團隊意識到行為語言計算技術(shù)確實可以幫助很多人,使大家增添了開發(fā)貼近市場需求產(chǎn)品的緊迫感。
國內(nèi)團隊多在語音識別、圖像識別、可穿戴設備識別方面下功夫,但是在行為語言計算方向上,姚登峰認為,未來世界行為語言計算是不需要任何設備的,識別是無感的,希望用超前的無感識別技術(shù)改變?nèi)祟惖纳?,讓技術(shù)盡快轉(zhuǎn)化為應用產(chǎn)品。
在接受中國青年報·中青在線專訪時,盡管姚登峰能聽懂提問,但他還是打開手機語音識別軟件,用標準普通話流暢地回答每一個問題。
姚登峰明白,創(chuàng)業(yè)是對一個人綜合實力的考驗,生活節(jié)奏“不斷在加快加快再加快”,也不斷地解決一個又一個難題。
行語科技在創(chuàng)辦3個月后,國際某工業(yè)巨頭主動尋求行語科技投資控股且計劃在后續(xù)B、C輪融資時引入頂級平臺資源。但因隨后而來的經(jīng)濟危機擱淺了該計劃。
緊接著,行語科技在部署煉油廠監(jiān)控系統(tǒng)時,發(fā)現(xiàn)單體技術(shù)跟理想應用還存在著不少距離,很多場景應用不光是行為識別的問題,還需要結(jié)合圖像識別的技術(shù),比如抽煙動作最好結(jié)合識別香煙形狀。這涉及底層技術(shù)架構(gòu)的調(diào)整,否則就很難通過客戶嚴苛的測試,此時研發(fā)主力程序員又因出國被迫退出。困難一個接一個,只能靠創(chuàng)始成員自己頂上,加班加點完成任務。
據(jù)了解,目前行語科技的團隊有10多人,已與國內(nèi)一線科創(chuàng)平臺簽署戰(zhàn)略合作,落地智慧監(jiān)獄和工業(yè)場景,同時在南京、杭州等地都有項目落地。