怎樣避免人類對于數(shù)據(jù)分析的干擾
掃描二維碼
隨時(shí)隨地手機(jī)看文章
隨著越來越多的企業(yè)開始采用機(jī)器學(xué)習(xí)技術(shù)以實(shí)現(xiàn)流程的自動化,人們也逐漸開始質(zhì)疑計(jì)算機(jī)決策中的倫理含義。我們?nèi)绾翁幚碛?jì)算機(jī)系統(tǒng)中潛在的偏見?相對較少被提及但同樣重要的,是人類本身的偏見,它與分析和商業(yè)決策有很大關(guān)系。
人類的偏見可能會滲入到分析過程的每一步。當(dāng)商業(yè)決策者開始擁抱機(jī)器學(xué)習(xí)進(jìn)行預(yù)測分析,以獲得下一步行動的具體建議時(shí),盡可能客觀地利用數(shù)據(jù)和方法是很重要的。監(jiān)測這一分析過程中可能存在的人類偏見是一項(xiàng)偉大的職責(zé),而這一切都始于從頭開始構(gòu)建模型的人:數(shù)據(jù)科學(xué)家。
在這篇文章中,我們主要關(guān)注以下三個(gè)方面,來管理整個(gè)流程中可能產(chǎn)生的偏見——從評估初始請求和收集信息到構(gòu)建模型和挖掘見解。
評估請求:業(yè)務(wù)決策者需要什么?
在某些情況下,偏見會從一開始就進(jìn)入分析項(xiàng)目流程中,這種偏見直接來自于提出請求的業(yè)務(wù)用戶。例如,一個(gè)模型可能會被帶著偏見進(jìn)行請求和評估,因?yàn)樘岢龇治稣埱蟮倪@個(gè)人可能潛意識里只是想驗(yàn)證自己的想法。例如,如果一個(gè)CMO認(rèn)為他們的公司應(yīng)該在PR上投資,那么讓他們的分析團(tuán)隊(duì)構(gòu)建一個(gè)展示PR需求的模型就是有問題的。
像任何人一樣,數(shù)據(jù)科學(xué)家也會想要取悅老板——我們總是想要提供能夠滿足商業(yè)決策者所請求的信息。重要的是,不要根據(jù)商業(yè)決策者的需求來尋找和評估結(jié)果。為了在最后達(dá)到最公正的結(jié)果,需要避免一開始就設(shè)定期望。這個(gè)過程應(yīng)該是一個(gè)協(xié)作的過程——您可能需要告訴業(yè)務(wù)決策者,要以最道德和最準(zhǔn)確的方式來回答他們的業(yè)務(wù)問題。這是一個(gè)棘手的問題,但是一旦解決了這個(gè)問題,就可以同時(shí)避免受到業(yè)務(wù)決策者的需求的影響。
仔細(xì)選擇評估為模型提供的數(shù)據(jù)人類偏見可能會在選擇數(shù)據(jù)的過程中產(chǎn)生影響。思考一下您擁有哪些必需的可用數(shù)據(jù),以及您將從何處收集這些數(shù)據(jù)。在選擇數(shù)據(jù)時(shí),應(yīng)考慮這樣的問題:與總體相關(guān)人群相比,我有多少數(shù)據(jù)?如何創(chuàng)建數(shù)據(jù)樣本?
在處理質(zhì)量問題時(shí),應(yīng)該尋找信息的一致性,并評估它是否捕獲了足夠的變量。同時(shí)需要確保沒有遺漏任何重要內(nèi)容,如果遺漏了,一定要高度重視,并確定其可能對模型產(chǎn)生什么樣的影響。
客觀地選擇最好的分析方法每種方法和模型都有其假設(shè)——知道哪種方法和模型最適合您的問題是非常重要的。不同的建模選擇有時(shí)會帶來非常不同的結(jié)果。請求的復(fù)雜性、性質(zhì)和數(shù)據(jù)的可用性是幫助你選擇適當(dāng)方法的主要因素。注意結(jié)果、測試結(jié)果穩(wěn)定性,并將模型結(jié)果與您的先驗(yàn)預(yù)期進(jìn)行比較。效果的方向合乎邏輯嗎?效果的大小合乎邏輯嗎?效果的作用合乎邏輯嗎?合適嗎?所有這些問題都應(yīng)該解決,才能對模型更有信心。
如果要用各種算法測試數(shù)據(jù),請注意不要選擇特定的算法,因?yàn)樗鼤敵鏊璧妮敵?。我們?yīng)該注意模型給出的所有洞察。
最終,避免數(shù)據(jù)分析中帶有偏見的最好方法是實(shí)現(xiàn)一個(gè)包括檢查和平衡的過程,所有的假設(shè)都應(yīng)該經(jīng)過同行評審和檢查。在整個(gè)分析過程中,人員、視角和信息的多樣性越大,獲得平衡、公正結(jié)果的機(jī)會就越大。
來源:搜狐