AI真是無所不能 根據(jù)筆記就可判定你是哪國人
據(jù)國外媒體Fast Company報道,借助一項機(jī)器學(xué)習(xí)算法,研究人員能夠分析一個人的手寫英文文本。進(jìn)而判斷書寫者是否來自五個不同的國家中的一個:馬來西亞、伊朗、中國、印度和孟加拉國。
研究人員創(chuàng)建了一個來自這些國家的100人的數(shù)據(jù)集,讓他們用英語書寫,總共寫了500行。對于這些手寫字,一種名為Cloud of Line Distribution(簡稱COLD)的工具,可以對一個個的字母進(jìn)行分析,估量字跡的直線度或彎曲度。該算法在判斷書寫者的國籍方面,比現(xiàn)有的方法更加出色,對一些國家的預(yù)測準(zhǔn)確性甚至高出了一倍多。
該算法所做的正是機(jī)器學(xué)習(xí)技術(shù)最擅長的事情:發(fā)現(xiàn)模式。例如,當(dāng)來自中國的書寫者使用羅馬字母時,他們會用更直的線條來書寫字母,因為漢字通常是用直的筆畫組合而成的。另一方面,來自印度和孟加拉國的書寫者所寫的字母則相對彎曲,因為他們國家的字體大多數(shù)都是彎曲的,形狀比較圓。
識別筆跡是計算機(jī)視覺研究人員最先處理的任務(wù)之一。之前的研究試圖辨別書寫者的情感,判斷其性別和年齡,但除此之外,并沒有多少研究是試圖從筆跡中梳理出更多的信息,這可能是因為沒有人找到將這種技術(shù)變現(xiàn)的辦法。
來自印度、中國和馬來西亞的研究人員認(rèn)為,這項技術(shù)會有助于犯罪調(diào)查。警方越來越多地借助生物識別技術(shù)來處理犯罪問題,從筆跡中提取有用信息或許可以給人臉識別軟件等其它的技術(shù)帶來補(bǔ)充。
但是,他們沒有解決這類技術(shù)和類似技術(shù)應(yīng)用可能會帶來的隱私或民權(quán)問題。例如,放大訓(xùn)練數(shù)據(jù)庫原有的偏見的錯誤,可能會使得刑事調(diào)查牽連到無辜的人。又或者,企業(yè)可以利用筆跡識別軟件,來根據(jù)某人的國籍、甚至智力等特征歧視潛在的客戶。
然而,在執(zhí)法部門考慮使用它之前,研究人員必須擴(kuò)張他們所使用的小型數(shù)據(jù)集,來證明COLD不僅僅是一個有趣的項目。