Reddit高贊:機(jī)器學(xué)習(xí)領(lǐng)域「八宗罪」!同行評審變味,盲目崇拜盛行
近日,Reddit社區(qū)一篇批判機(jī)器學(xué)習(xí)領(lǐng)域的文章引發(fā)了熱議,獲得了3.1k的贊。作者細(xì)數(shù)了機(jī)器學(xué)習(xí)領(lǐng)域存在的「八宗罪」,讓科研人員對機(jī)器學(xué)習(xí)大環(huán)境有了新的思考。
越來越多的科研人員都選擇進(jìn)入機(jī)器學(xué)習(xí)這個領(lǐng)域。
科研人員進(jìn)入領(lǐng)域時的初衷是「偉大」的:他們相信,機(jī)器學(xué)習(xí)能夠真正的改善人們的生活。所以每年機(jī)器學(xué)習(xí)有關(guān)的頂會投稿數(shù)目幾乎是成倍的增長,這些新的科研成果似乎真的能帶來一個更好的未來。
Reddit社區(qū)一位作者卻站出來說:「The machine learning community has a toxicity problem.」
他細(xì)數(shù)了機(jī)器學(xué)習(xí)領(lǐng)域的「八宗罪」,讓科研人員對現(xiàn)行的機(jī)器學(xué)習(xí)大環(huán)境進(jìn)行有了新的思考。這篇文章在Reddit收到了3.1k的贊。
細(xì)數(shù)機(jī)器學(xué)習(xí)「八宗罪」
一宗罪:同行評審過程被破壞了。
NeurIPS會議中接收的論文,每四篇就會有一篇被放在arXiv上。 有些DeepMind 的研究人員公開追究那些批評他們 ICLR 投稿的評論者。雖然審稿人對這些知名機(jī)構(gòu)的arXiv論文給出了拒絕的意見,但是最后仍然被一些頂會接收。
二宗罪:成果復(fù)現(xiàn)引發(fā)了危機(jī)。
在測試集中調(diào)整優(yōu)化超參數(shù)似乎是現(xiàn)在的標(biāo)準(zhǔn)做法。但是,即便使用技巧讓超參數(shù)得到了調(diào)優(yōu),性能是否真正提高是一件不置可否的事情。
三宗罪:崇拜主義問題。
和斯坦福,Google或DeepMind存在聯(lián)系的每篇論文都會得到贊譽(yù),BERT被引用的次數(shù)是ULMfit的七倍。ICML會議上,DeepMind海報吸引力遠(yuǎn)高于別的海報。此外,盡管NeurIPS 和ICML都是頂級ML會議,前者提交量是后者的兩倍,或許僅僅是因為「神經(jīng)」這個詞語?
四宗罪:攻擊和好斗。
前幾日Yann LeCun談?wù)撈姾凸皆掝}時的語氣是直率的,但是攻擊他的人的語氣卻是惡毒的,并且太多太多人選擇攻擊他而忽略了事件本身。人們或許沒有意識到,逼迫LeCun離開推特其實沒有解決任何問題。
五宗罪:逃避性別歧視和種族主義。
像其他的計算機(jī)科學(xué)學(xué)科一樣,機(jī)器學(xué)習(xí)也存在著多樣性問題。不可否認(rèn)的,在我們的CS系中,只有30%的本科生和15%的教授是女性。在博士學(xué)位或博士后休育兒假通常意味著學(xué)術(shù)生涯的結(jié)束。領(lǐng)域中的研究者選擇逃避來掩飾自己對種族主義或性別歧視的害怕,但是卻讓這個問題更嚴(yán)峻。
六宗罪:道德和倫理是任意設(shè)定的。
美國國內(nèi)政治主導(dǎo)著所有討論,包括學(xué)術(shù)界的。計算機(jī)視覺算法的數(shù)據(jù)集幾乎不涉及超10億人口的非洲人,但沒人在乎。每個人都會在研究最后說「有更深遠(yuǎn)的影響」,但是這樣的影響往往限定在特定人群內(nèi)。
七宗罪:機(jī)械性的論文發(fā)表。
研究只是為了發(fā)表,撰寫論文的唯一目的已經(jīng)變成在簡歷中增加一行文字。論文質(zhì)量?那是次要的,重點是通過同行評審。研究小組的人數(shù)多到導(dǎo)師不一定能知道每個博士生的名字,每年向NeurIPS提交50篇以上的論文已經(jīng)成為某些研究人員的常態(tài)。
八宗罪:語言文明在討論中是不存在的。
Schmidhuber稱Hinton為小偷,Gebru稱LeCun為白人至上主義者,Anandkumar稱Marcus為性別主義者。研究人員很容易受到攻擊,被套上「侮辱性」的帽子,但這甚至和研究本身無關(guān)。
「八宗罪」惹爭議,網(wǎng)友為機(jī)器學(xué)習(xí)「辯駁」
「盲目崇拜確實存在,但我想提出另一個假設(shè),說明Google / DeepMind 的論文為何受到更多關(guān)注:信任」。
每天都會有大量新發(fā)表的論文,所以不可能全部讀完。使用作者進(jìn)行過濾是我常用的方法,盡管有偏見,但是很有效。不是說DeepMind的研究人員比其他人更有才華,但他們承擔(dān)更多的風(fēng)險。
DeepMind發(fā)表的論文通常是有效的,如果論文灌水或者不可復(fù)現(xiàn),那將對整個公司產(chǎn)生不良影響,因此,這些組織發(fā)表的論文很可能在發(fā)布之前就經(jīng)過了更嚴(yán)格的「質(zhì)量控制」流程和內(nèi)部同行評審。
我自己對此感到內(nèi)疚,因為我定期閱讀的是arXiv提交的新文章的「標(biāo)題」。
當(dāng)我看到一些有趣的東西時,我會先看作者,如果是DeepMind / Google / OpenAI / etc,我會仔細(xì)看一下。如果是一群我從未聽說過的人,我就會翻篇。為什么?因為在我看來,后一組作者更有可能「編造東西」,而且他們的錯誤沒有被注意到,因為他們沒有像DeepMind論文那樣經(jīng)歷相同的內(nèi)部質(zhì)量控制,我更有可能收到錯的信息。這與我崇拜DeepMind無關(guān),由于他們的工作方式讓我更信任。
這樣做錯了嗎?也許確實有偏見,我們應(yīng)該更多關(guān)注內(nèi)容本身,但是有時論文太多了,誰也不想浪費時間。
也有人反駁這種偷懶的行為?!肝揖湍懿豢醋髡?,快速讀完一堆論文」。好吧,一目十行君真的有。
關(guān)于第三宗罪也有網(wǎng)友為Google鳴不平,BERT讓語言模型變得非常易用給其他研究者做了很多鋪墊,確實該獲得更多關(guān)注,ULMfit引用量沒BERT多也很自然。
網(wǎng)友@dataism和幾個小伙伴還專門寫了一篇論文討論當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域論文存在的幾個突出問題。
最近機(jī)器學(xué)習(xí)的進(jìn)展,尤其是深度學(xué)習(xí),引入了幾個復(fù)雜任務(wù)中超越傳統(tǒng)算法和人類的方法,從圖像中的物體檢測、語音識別到玩困難的戰(zhàn)略游戲, 然而很多算法以及它們在現(xiàn)實世界中的應(yīng)用,似乎存在一個循環(huán) HARKing (結(jié)果已知然后還提出假設(shè))。
這篇文章詳細(xì)闡述了這一現(xiàn)象的算法、經(jīng)濟(jì)和社會原因以及后果。文中列舉了一些常見的操作,例如將負(fù)面結(jié)果隱去,不提泛化能力等等,感興趣的同學(xué)可以仔細(xì)讀一下,降低論文被拒的風(fēng)險(我并不是在宣傳這些灌水技巧)。
還有一個比較熱的討論是關(guān)于作者學(xué)校的歧視,這在學(xué)術(shù)界很普遍,尤其是在CS / ML領(lǐng)域。
當(dāng)你身處哈佛、斯坦福,你的論文被接受的概率就會高很多。而這些名校的錄取本身就是有財富和名譽(yù)偏見的,你可以找一堆理由否認(rèn),但數(shù)據(jù)不會說謊。
如果你的父母念過斯坦福,那么你被錄取的概率就是其他人的三倍!哈佛的情況也不例外。
父母收入在Top 1%的學(xué)生占了15.4%的比例。
「多元化與包容性」的口號在機(jī)器學(xué)習(xí)領(lǐng)域幾乎完全拋棄了貧窮家庭或沒有接受過高水平教育的家庭。在學(xué)術(shù)界,來自社會底層的學(xué)生被拒絕的比例可能更瘋狂。