是AI還是人類 如何判斷文章是否為ChatGPT所寫(xiě)?
圖源:Brian/Stock.adobe.com
作者:Becks Simpson,貿(mào)澤電子專稿
發(fā)布日期:2023年3月30日
生成式預(yù)訓(xùn)練轉(zhuǎn)換器 (GPT) 等自然語(yǔ)言處理 (NLP) 模型以制作類人文本、回答復(fù)雜問(wèn)題和巧妙辯論各種主題的能力震驚世界,而其被濫用的可能性引發(fā)的擔(dān)憂也在日益加劇。雖然這些模型可以用于很多寫(xiě)作應(yīng)用,但如果用來(lái)完成作業(yè)將對(duì)學(xué)生的學(xué)習(xí)產(chǎn)生負(fù)面影響。因此,教育工作者也在尋求一些方法,以通過(guò)手動(dòng)(如查看內(nèi)容本身的標(biāo)志)或自動(dòng)(如使用人工智能 (AI) 構(gòu)建的文本分類器)的方式,來(lái)判斷文本是否由AI生成。此外,還有一些人在嘗試重新設(shè)計(jì)課程,以讓學(xué)生無(wú)法用AI完成作業(yè),或者鼓勵(lì)學(xué)生自己完成作業(yè)。在所有方法中,重新設(shè)計(jì)課程似乎取得了較大的成效。
適當(dāng)借助工具進(jìn)行創(chuàng)作
新的NLP AI模型,特別是GPT變體(ChatGPT、GPT-3等),將徹底改變?nèi)祟悓?xiě)作方式。擁有如此強(qiáng)大的技術(shù)意味著,用戶可以更快地把一個(gè)想法或一系列要點(diǎn)變成一篇文章。 他們可以通過(guò)一些有用的提示和新的思路來(lái)激發(fā)寫(xiě)作靈感,擺脫困擾。無(wú)論是否有經(jīng)驗(yàn),都可以借助新一代NLP模型來(lái)進(jìn)行創(chuàng)作,而沒(méi)有經(jīng)驗(yàn)的人更容易將自己的想法轉(zhuǎn)化為精彩的文章和故事。
然而,使用這些AI模型作為寫(xiě)作輔助工具也有缺點(diǎn)。比如對(duì)于中高等教育等來(lái)說(shuō),寫(xiě)作練習(xí)的目標(biāo)是學(xué)習(xí)如何寫(xiě)好文章,以及如何提出和表達(dá)有說(shuō)服力的想法和論點(diǎn)。寫(xiě)作也是學(xué)習(xí)如何研究論據(jù)以支持文章中提出的觀點(diǎn)以及磨練批判性思維技能的工具。完全依靠AI模型來(lái)完成這項(xiàng)工作會(huì)跳過(guò)這一過(guò)程,讓學(xué)生們無(wú)法學(xué)到這一重要技能。因此,了解如何確定某些東西是否是由AI編寫(xiě)的成為了當(dāng)下努力的方向。
發(fā)掘跡象:如何識(shí)別AI創(chuàng)作
隨著AI智能寫(xiě)作的逐漸普及,我們看到AI創(chuàng)作的機(jī)會(huì)也越來(lái)越多,這也為我們提供了一個(gè)了解AI創(chuàng)作類型的窗口, 幫助我們識(shí)別內(nèi)容特征,以確定作者是人類還是機(jī)器。有趣的是,雖然準(zhǔn)確性是一個(gè)較為具體的指標(biāo),但這些特征大多與散文的整體流暢度而非語(yǔ)法和拼寫(xiě)細(xì)節(jié)有關(guān)。然而,對(duì)于通常引用明確答案或同一事實(shí)的高度熱門話題來(lái)說(shuō),即使是人類編寫(xiě)的內(nèi)容也很可能看起來(lái)與AI生成內(nèi)容相似并重復(fù)。對(duì)于較短的文本來(lái)說(shuō)更是如此,無(wú)論是看起來(lái)還是聽(tīng)起來(lái)都難以辨別。因此,只有在文本足夠長(zhǎng)的情況下,才有可能有效地識(shí)別出是否出自AI。
所以,AI文章往往會(huì)重復(fù)一些內(nèi)容,尤其是在編寫(xiě)長(zhǎng)篇文章時(shí)。ChatGPT這類模型會(huì)以先前所有的預(yù)測(cè)令牌為基礎(chǔ)預(yù)測(cè)下一個(gè)令牌;因此,在一系列的預(yù)測(cè)文本中,某些單詞出現(xiàn)得越早,它們重新出現(xiàn)的可能性就越大。AI寫(xiě)作的另一個(gè)跡象是沒(méi)有感情,內(nèi)容平淡,沒(méi)有任何特別強(qiáng)烈的情感或觀點(diǎn)。對(duì)于師生這種讀者熟悉作者個(gè)性的情況,就很容易識(shí)別出來(lái)。如果還有同一作者的其他文本作為參考,就更加容易識(shí)別出AI文本,尤其是那些在考試等監(jiān)督條件下寫(xiě)出來(lái)的文本可能沒(méi)有那么精致,更能表達(dá)作者的真實(shí)聲音。如果兩篇文章的常用表達(dá)方式和語(yǔ)言有很大差異,那么就很可能不是出自同一人之手。
另一個(gè)跡象是,是否正確陳述事實(shí),以及引用是否正確。眾所周知,像GPT-3和ChatGPT等生成模型很難產(chǎn)生正確的答案(它們可能會(huì)自信地?cái)嘌圆⒎侨绱耍?,因?yàn)榧词顾鼈兪褂么罅炕ヂ?lián)網(wǎng)文本信息進(jìn)行訓(xùn)練,但實(shí)際上也無(wú)法記住所有內(nèi)容。因此,這些模型是在對(duì)事物有了大致了解的基礎(chǔ)上,將所學(xué)知識(shí)以類似人類的語(yǔ)言展現(xiàn)出來(lái),而不是原樣照搬一些細(xì)枝末節(jié)。對(duì)于很多沒(méi)有關(guān)聯(lián)元素用以檢驗(yàn)真實(shí)性的模型來(lái)說(shuō),由做了足夠研究的人發(fā)現(xiàn)作業(yè)中存在的錯(cuò)誤,也能很好地證明這篇文章是由AI生成的, 尤其是在內(nèi)容與時(shí)事、人物或地點(diǎn)有關(guān)時(shí),這是因?yàn)樽钚掳姹镜墓_(kāi)模型只在某個(gè)日期(通常是2021年或2022年)的數(shù)據(jù)上進(jìn)行了訓(xùn)練。然而,在評(píng)估這一特定跡象時(shí),需要檢查這一模型是否發(fā)布了更新的知識(shí)。
用魔法打敗魔法
隨著AI復(fù)雜度的不斷提升,其中一些跡象將消失或變得很微妙,以至于人類很難檢測(cè)到。一些新興的AI工具可用來(lái)檢測(cè)書(shū)面內(nèi)容是否來(lái)自AI;例如,一些較新的大型語(yǔ)言模型 (LLM) 正在接受訓(xùn)練,以便知道何時(shí)向外部來(lái)源發(fā)出某些請(qǐng)求,進(jìn)而檢索事實(shí)信息或運(yùn)行數(shù)學(xué)計(jì)算。 為了消除難以確定作業(yè)是否由AI編寫(xiě)的可能性,各大公司甚至推出了大量可以確定內(nèi)容出處的AI模型。就連ChatGPT的制作方OpenAI也發(fā)布了一款工具,便于教育工作者區(qū)分某篇文章是否由LLM編寫(xiě)。經(jīng)過(guò)一系列測(cè)試,發(fā)現(xiàn)它能夠識(shí)別26%的AI書(shū)寫(xiě)文本,但有9%的誤報(bào)率,會(huì)將人類書(shū)寫(xiě)的文本錯(cuò)誤標(biāo)記為AI文本。盡管還存在準(zhǔn)確性問(wèn)題,但OpenAI仍希望這些不完美的工具能夠幫助打擊使用AI的學(xué)術(shù)不端行為。
組合分類器是另一種可以通過(guò)使用AI來(lái)提高檢測(cè)AI文本成功率的方法。GPTSZeroX和DetectGPT等其他文檔分類器可以檢測(cè)文本的突發(fā)性和困惑度。這兩個(gè)指標(biāo)分別用于衡量機(jī)器人預(yù)測(cè)下一個(gè)文本的可能性,前提是人類創(chuàng)作具有更高的隨機(jī)性;以及困惑度在句子中的變化,以AI更傾向于保持困惑度不變?yōu)榍疤?。這些分類器都存在一定的局限性,例如,DetectGPT僅適用于某些GPT模型,因此將其中幾個(gè)分類器的結(jié)果組合起來(lái)可能會(huì)更好地識(shí)別出AI文本。
如何徹底解決問(wèn)題
某種程度上來(lái)說(shuō),這看起來(lái)像是試圖用AI打敗AI的一種循環(huán)! 在檢查AI技術(shù)進(jìn)步的同時(shí),寫(xiě)作AI也在不斷地學(xué)習(xí),并將學(xué)會(huì)繞過(guò)這種檢查。這個(gè)循環(huán)將一直持續(xù)下去,直到某個(gè)時(shí)刻,幾乎不可能僅僅通過(guò)檢查內(nèi)容來(lái)確定一篇文章是否出自AI。這就會(huì)引導(dǎo)教育工作者嘗試對(duì)作業(yè)結(jié)構(gòu)和任務(wù)進(jìn)行測(cè)試,例如,布置一些小眾主題(例如,當(dāng)?shù)厣鐓^(qū)或鮮為人知的歷史人物)的作業(yè),讓學(xué)生寫(xiě)一些個(gè)人的東西,或更多地關(guān)注基于項(xiàng)目的學(xué)習(xí),進(jìn)而讓他們發(fā)現(xiàn)AI難以勝任。
選擇小眾主題是因?yàn)橥ǔI對(duì)它們了解較少,學(xué)生們必須自己經(jīng)過(guò)研究才能找到正確的答案。他們可能仍然會(huì)使用這些模型來(lái)創(chuàng)作書(shū)面內(nèi)容,但至少學(xué)會(huì)了研究和評(píng)估信息相關(guān)性。要求學(xué)生寫(xiě)個(gè)人話題更多的是源自心理學(xué),因?yàn)楫?dāng)自己成為焦點(diǎn)時(shí),人們更傾向于親歷親為。老師們發(fā)現(xiàn),相較于處理外部話題,學(xué)生在處理個(gè)人話題時(shí)更開(kāi)放、更興奮?;陧?xiàng)目的學(xué)習(xí)也非常好,因?yàn)樗硕鄠€(gè)不同復(fù)雜程度的任務(wù),通常存在一些AI無(wú)法完成的實(shí)際問(wèn)題。例如,一個(gè)跨學(xué)區(qū)的項(xiàng)目涉及到研究當(dāng)?shù)卣邔?duì)水質(zhì)的影響,這意味著學(xué)生不僅需要研究政策,還需要實(shí)地測(cè)量水質(zhì)。他們還需要以圖形、圖表和圍繞數(shù)據(jù)的故事形式展示他們的發(fā)現(xiàn),這是ChatGPT難以做到的。
結(jié)語(yǔ)
雖然GPT模型家族在某些領(lǐng)域可能非常有用,但對(duì)于中高等教育等領(lǐng)域,還是應(yīng)該謹(jǐn)慎使用這些模型,以避免過(guò)度依賴和忽視學(xué)習(xí)成效。因此,有些教育工作者正在尋求一些方法,以通過(guò)檢查文本是否存在事實(shí)記憶差、寫(xiě)作無(wú)創(chuàng)意或缺乏創(chuàng)意以及過(guò)度重復(fù)等跡象,來(lái)確定某項(xiàng)作業(yè)是否是AI生成的。也有些人則在尋求AI檢測(cè)工具的幫助。然而,由于這兩種方法可能都不夠完美,或者會(huì)產(chǎn)生錯(cuò)誤的結(jié)果,所以我們還需要找到更好的作業(yè)布置方法,以求超出AI能力范疇或者打消學(xué)生使用AI的想法。后者可能效果更好,因?yàn)樗鼜囊婚_(kāi)始就在很大程度上規(guī)避了使用AI的欲望,從長(zhǎng)遠(yuǎn)來(lái)看也可以讓學(xué)生更加投入。
作者簡(jiǎn)介