據(jù)國外媒體Fast Company報道,借助一項機器學習算法,研究人員能夠分析一個人的手寫英文文本。進而判斷書寫者是否來自五個不同的國家中的一個:馬來西亞、伊朗、中國、印度和孟加拉國。
研究人員創(chuàng)建了一個來自這些國家的100人的數(shù)據(jù)集,讓他們用英語書寫,總共寫了500行。對于這些手寫字,一種名為Cloud of Line Distribution(簡稱COLD)的工具,可以對一個個的字母進行分析,估量字跡的直線度或彎曲度。該算法在判斷書寫者的國籍方面,比現(xiàn)有的方法更加出色,對一些國家的預測準確性甚至高出了一倍多。
該算法所做的正是機器學習技術(shù)最擅長的事情:發(fā)現(xiàn)模式。例如,當來自中國的書寫者使用羅馬字母時,他們會用更直的線條來書寫字母,因為漢字通常是用直的筆畫組合而成的。另一方面,來自印度和孟加拉國的書寫者所寫的字母則相對彎曲,因為他們國家的字體大多數(shù)都是彎曲的,形狀比較圓。
識別筆跡是計算機視覺研究人員最先處理的任務之一。之前的研究試圖辨別書寫者的情感,判斷其性別和年齡,但除此之外,并沒有多少研究是試圖從筆跡中梳理出更多的信息,這可能是因為沒有人找到將這種技術(shù)變現(xiàn)的辦法。
來自印度、中國和馬來西亞的研究人員認為,這項技術(shù)會有助于犯罪調(diào)查。警方越來越多地借助生物識別技術(shù)來處理犯罪問題,從筆跡中提取有用信息或許可以給人臉識別軟件等其它的技術(shù)帶來補充。
但是,他們沒有解決這類技術(shù)和類似技術(shù)應用可能會帶來的隱私或民權(quán)問題。例如,放大訓練數(shù)據(jù)庫原有的偏見的錯誤,可能會使得刑事調(diào)查牽連到無辜的人。又或者,企業(yè)可以利用筆跡識別軟件,來根據(jù)某人的國籍、甚至智力等特征歧視潛在的客戶。
然而,在執(zhí)法部門考慮使用它之前,研究人員必須擴張他們所使用的小型數(shù)據(jù)集,來證明COLD不僅僅是一個有趣的項目。