AI是怎樣從你的聲音聽出你的長相的
隨著人工智能技術(shù)的不斷發(fā)展,AI似乎變得越來越“無所不能”,只需要一滴唾液或者汗液,就能診斷你的壓力有多大;甚至還能夠能夠通過你的聲音,推測出你長啥樣???
最近,麻省理工學院人工智能實驗室(MIT CSAIL)發(fā)布了一項令人驚訝的研究——只需要聽6秒的聲音片段,AI就能推斷出說話者的容貌。
其實,從聲音推斷一個人的長相并不是玄學,平時我們在打電話時會根據(jù)對方的聲音腦補出相貌特征,這是因為年齡、性別、嘴巴形狀、面部骨骼結(jié)構(gòu)等,都會影響人發(fā)出的聲音。此外,語言、口音、速度通常會體現(xiàn)出一個的民族、地域、文化特征。
AI 正是根據(jù)語音和相貌的關聯(lián)性做出推測。為此,研究人員提取了幾百萬個 YouTube 視頻,通過訓練,讓深度神經(jīng)網(wǎng)絡學習聲音和面部的相關性,找到說話的人一些基本特征,并還原出相貌。在這個過程中,不需要人類標記視頻,由模型自我監(jiān)督學習。
當然,該研究也有翻車的時候。例如讓一個亞洲人分別說英語和中文,結(jié)果分別得到了一張西方人面孔和一張中國人面孔。還例如變聲期之前的兒童,也會導致模型誤判性別發(fā)生錯誤。