利用機(jī)器學(xué)習(xí)量化研究發(fā)現(xiàn),天文學(xué)領(lǐng)域的引用率對(duì)女性不利
一項(xiàng)利用機(jī)器學(xué)習(xí)對(duì)性別歧視進(jìn)行量化的研究發(fā)現(xiàn),天文學(xué)領(lǐng)域的引用率對(duì)女性不利。據(jù)蘇黎世瑞士聯(lián)邦理工學(xué)院的研究人員估計(jì),由于性別歧視,和男性相比,第一作者為女性的論文引用率要低10%左右。
引用模式上的性別差異此前在科學(xué)界有據(jù)可查。不過,研究人員之前并未試圖對(duì)有多少差異是性別歧視導(dǎo)致的結(jié)果進(jìn)行量化。比如,男性和女性可能發(fā)表不同類型的論文;女性可能在不同的科學(xué)領(lǐng)域工作,并且擁有資歷較淺的職位。
這篇尚未接受同行評(píng)議但已在預(yù)印本服務(wù)器arXiv上發(fā)表的最新文章,試圖解釋并修正這些因素。文章作者拒絕就論文發(fā)表評(píng)論,因?yàn)樗麄兿M麑⑵涮峤唤o《自然—天文學(xué)》雜志發(fā)表。不過,其他專家表示,分析看上去很可靠。
“這篇文章的新穎之處在于,打破了認(rèn)為引用上的性別差異可能歸因于論文的具體內(nèi)容而非性別的神話。”美國(guó)印地安那大學(xué)伯明頓分校信息學(xué)家Cassidy Sugimoto表示。
研究人員分析了1950~2015年發(fā)表在5本期刊上的20萬篇論文。首先,他們訓(xùn)練機(jī)器學(xué)習(xí)算法精確地計(jì)算出每篇第一作者為男性的論文的引用率。這個(gè)過程利用了盡可能多的和性別無關(guān)的因素,比如論文發(fā)表的期刊、領(lǐng)域和年份,第一作者所處的位置以及發(fā)表論文已有多少年。
隨后,他們讓算法分析第一作者為女性的論文。和第一作者為男性的論文相比,這部分文章(自1985年起)的實(shí)際引用率低6%左右。不過,該算法預(yù)測(cè),這些論文本應(yīng)再獲得4%的引用率。
研究人員表示,這是他們?cè)?ldquo;衡量性別歧視方面所做的最好努力”,但他們的結(jié)果應(yīng)當(dāng)被謹(jǐn)慎對(duì)待,因?yàn)樵撍惴赡苓€需要將其他因素考慮進(jìn)來。