人工智能要挑戰(zhàn)四年級學(xué)生的智商了
導(dǎo)讀:人工智能是對人的意識、思維的信息過程的模擬。人工智能不是人的智能,但能像人那樣思考、也可能超過人的智能。兔子的毛在哪個(gè)季節(jié)最厚實(shí)?一個(gè)叫做Aristo的電腦程序能告訴你答案,因?yàn)锳risto從四年級的書上學(xué)到熊在冬天會(huì)長出更加厚實(shí)的皮毛,而且Aristo還從紐約州標(biāo)準(zhǔn)科學(xué)考試上學(xué)到了兔子也是哺乳動(dòng)物,由此Aristo能夠得到正確的答案。Aristo由西雅圖艾倫人工智能研究所研發(fā),是一款能夠感知人類社會(huì)常識的人工智能軟件。
而衡量它效果最好的方式,就是用適用于學(xué)齡兒童的測試來進(jìn)行檢測。該研究所還在說服其他的AI研究人員,發(fā)展一種標(biāo)準(zhǔn),測試他們的成果。
這種標(biāo)準(zhǔn)的目的,是把AI和對自然語言研究的發(fā)展,用一種客觀的方式表現(xiàn)出來,通過比較不同方法的優(yōu)缺點(diǎn),有助于我們更快找到最有效的方法從而加快AI的發(fā)展。
11月上旬,艾倫研究所將會(huì)發(fā)起一項(xiàng)挑戰(zhàn),讓研究人員研發(fā)出能做八年級(相當(dāng)于初二)理科試題的智能軟件。這個(gè)競賽在科學(xué)競賽網(wǎng)站Kaggle上正火熱進(jìn)行中,參賽人員可以通過千萬道問題來訓(xùn)練他們的軟件。如果一個(gè)軟件能夠解決出一道它從未見過的問題,并得分最高的話,研發(fā)者將會(huì)獲得50,000 美元的獎(jiǎng)金。
現(xiàn)在Aristo距離做出四年級的理科測試,還有很大一段距離。它只能做多項(xiàng)選擇,而多項(xiàng)選擇占了測試的2/3。如果選擇題中不涉及圖形題的話,Aristo能做對75%,如果有圖形題的話就只能做對45%,而及格需要至少65分。Aristo在做不含有圖形題的八年級理科測試多項(xiàng)選擇時(shí),能得63分。你可以在艾倫研究所網(wǎng)站上,看到Aristo回答某些經(jīng)過選擇的問題。這個(gè)軟件能夠應(yīng)用合理的計(jì)算法則,并通過網(wǎng)站上看到的學(xué)習(xí)指南,來回答這些問題。
在AI 領(lǐng)域,想把哪怕一丁丁點(diǎn)常識塞進(jìn)軟件都是一個(gè)巨大挑戰(zhàn),但是一旦實(shí)現(xiàn),電腦就能進(jìn)一步以前所未有的方式幫助提高我們的生活。如果我們想研發(fā)出更加強(qiáng)大的系統(tǒng)來協(xié)助工作,那學(xué)習(xí)常識將是這些系統(tǒng)所必需的能力。其他的頂尖的研究人員也同意這一看法,這其中就包括Facebook的AI實(shí)驗(yàn)室,它正致力于使網(wǎng)絡(luò)虛擬助手具備一些基本的談話能力。目前市面上虛擬助手不具備常識,比如蘋果的Siri 以及微軟的Cortana。他們只是根據(jù)你所說的,從一個(gè)預(yù)編程的規(guī)則中選擇回復(fù)。
為機(jī)器學(xué)習(xí)常識的能力設(shè)定標(biāo)準(zhǔn)很有用,但也有人認(rèn)為,學(xué)校測試不是個(gè)好法子。
適用于孩子的測試可以確保研究人員不會(huì)有意,或無意地把這個(gè)領(lǐng)域的發(fā)展衡量標(biāo)尺變得太“easy”,但是孩子們在探索世界方面可比機(jī)器軟件強(qiáng)太多了,為孩子們編寫的試題不能來做為衡量智能軟件的發(fā)展的標(biāo)尺。機(jī)器和人類所不擅長的事物是非常不一樣的,適于人類的標(biāo)準(zhǔn)化測試,并不能很全面地覆蓋機(jī)器軟件所面臨的難點(diǎn)問題。
更好的選擇是專門為機(jī)器軟件擬一份試題。比如這樣的測試題:Sally最心愛的奶牛昨天死掉了,奶??赡軙?huì)在多久之后復(fù)活?a) 明天; b) 一周以后;c) 一年以后; d)幾年后;e) 奶牛再也不會(huì)復(fù)活了。這種題對于四年級學(xué)生而言就是非常簡單的。
不過,盡管學(xué)校的測試題不會(huì)直接檢測常識,但是卻間接地要求具備這些常識。因?yàn)樽x懂這些問題就需要常識,只有采用適用于人類的測試題,我們才能說我們是以自己的標(biāo)準(zhǔn)在衡量機(jī)器軟件。
只有人類和機(jī)器位于同一起跑線,這一切才有意義。