當前位置：首頁 > 智能硬件 > 人工智能AI

什么因素會導致機器學習失敗

時間：2020-05-01 13:45:01

關鍵字：機器學習 JOHNSON 模型 AN

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 機器學習在學習過程中總會犯錯。機器學習采用者需要預見到這一點，并時刻小心，不要因為IT和業(yè)務的人為錯誤而使事情變得更糟。一般來說，學習的過程往往就是一個不斷犯錯誤，走錯誤道路的過程，然

機器學習在學習過程中總會犯錯。機器學習采用者需要預見到這一點，并時刻小心，不要因為IT和業(yè)務的人為錯誤而使事情變得更糟。

一般來說，學習的過程往往就是一個不斷犯錯誤，走錯誤道路的過程，然后找出方法來在未來避免這些錯誤。機器學習也不例外。

當你在你的企業(yè)中實施機器學習時，要小心：一些技術營銷可能會讓你覺得學習非常正確，速度非?？?，這是對技術不切實際的期望。事實是，在機器學習過程中必然會有錯誤。而且這些錯誤至少在一段時間內(nèi)會在業(yè)務流程中被編碼。結(jié)果是：這些錯誤可能會大規(guī)模發(fā)生，而且往往超出了人類的直接控制。

SPR咨詢公司（SPR Consulting）的首席數(shù)據(jù)科學家Ray Johnson表示：“缺乏盡職調(diào)查的熱情可能會導致一些問題，使機器學習的好處無法得到展示?！?/p>

檢測和處理機器學習錯誤將有助于您在技術上取得更大的成功，并滿足您的機器學習期望。

以下是一些可能會增加和延長機器學習工具在學習過程中所犯錯誤的問題--他們甚至可能永遠也無法識別和糾正這些錯誤教訓。

缺乏對問題的業(yè)務理解會導致機器學習失敗

一些使用機器學習模型的數(shù)據(jù)工作者并不真正了解機器學習試圖解決的業(yè)務問題，這可能會在流程中引入錯誤。

當他的團隊使用機器學習工具時，金融服務網(wǎng)站LendingTree的副總裁兼戰(zhàn)略與分析主管Akshay Tandon鼓勵團隊從一個假設開始聲明。該聲明應該詢問您要解決的問題是什么，以及您要構(gòu)建哪些模型來解決該問題。

Tandon說，從統(tǒng)計方面來看，今天可用的機器學習工具非常強大。這就給正確地執(zhí)行它增加了更大的負擔，因為這些強大的工具，如果不小心使用，可能會導致重要的錯誤決策。如果數(shù)據(jù)分析團隊不夠小心，他們最終可能會得到與團隊所使用的特定數(shù)據(jù)不匹配的模型。迅速惡化的結(jié)果會導致模型很快就可能出錯，他說。

此外，許多商業(yè)用戶都不明白，從投入生產(chǎn)的那一刻開始，模型的質(zhì)量就會有一定程度的下降，Tandon說。如果認識到這一點，就像對待汽車或任何其他機器一樣，用戶就會知道自己需要不斷地監(jiān)控它，并關注它是如何影響決策的。

低質(zhì)量的數(shù)據(jù)會導致機器學習錯誤

進去的是垃圾，出來的也會是垃圾。如果數(shù)據(jù)質(zhì)量不夠完善，機器學習也會受到影響。數(shù)據(jù)質(zhì)量差是數(shù)據(jù)管理人員最關心的問題之一，盡管數(shù)據(jù)科學家和其他從事信息工作的專業(yè)人員都有最好的意圖，但它仍然可能危及大數(shù)據(jù)分析工作。它也會讓機器學習模式偏離軌道。

組織經(jīng)常高估機器學習算法的彈性，低估不良數(shù)據(jù)的影響。Johnson說，糟糕的數(shù)據(jù)質(zhì)量會產(chǎn)生糟糕的結(jié)果，并導致組織做出不明智的業(yè)務決策。這些決策的結(jié)果將損害業(yè)務績效，并使未來的計劃難以獲得支持。

根據(jù)過去和現(xiàn)在的經(jīng)驗，你可以從機器學習驅(qū)動的結(jié)果中檢測出不好的數(shù)據(jù)質(zhì)量，而這些結(jié)果似乎毫無意義。

Johnson說，解決這個問題的一種積極主動的方法是探索性的數(shù)據(jù)分析（EDA）。EDA可以識別基本的數(shù)據(jù)質(zhì)量問題，例如離群值、缺失值和不一致的域值。你還可以使用統(tǒng)計抽樣等技術來確定是否有足夠的數(shù)據(jù)點實例來充分反映人口分布，并定義有關數(shù)據(jù)質(zhì)量修正的規(guī)則和策略。

機器學習的不當使用

劍橋咨詢公司（Cambridge Consultants）的專業(yè)機器學習工程師Sally Epstein表示：“我們?nèi)匀粡钠髽I(yè)中看到的最常見問題是，人們只是為了流行而希望使用機器學習。”但她說，要想取得成功，必須正確應用該工具。而且，傳統(tǒng)的工程方法可能可以更快地提供解決方案，而且成本更低。

Johnson說，當機器學習可能不是解決問題的最佳選擇，并且不完全理解用例時，使用機器學習可能會導致其試圖解決一個錯誤的問題。

此外，解決錯誤的問題也將導致失去機會，因為組織會努力將其用例定制為一個特定的、不合適的模型。這包括在人員和基礎設施部署方面浪費的資源，而這些本來可以使用更簡單的替代方法來實現(xiàn)可能的結(jié)果。

為了避免機器學習的錯誤使用，你需要仔細考慮期望的業(yè)務結(jié)果、問題的復雜性、數(shù)據(jù)量和屬性的數(shù)量。Johnson說，相對簡單的問題，如分類、聚類和使用少量具有一些屬性的數(shù)據(jù)關聯(lián)規(guī)則，可以通過視覺或統(tǒng)計分析來解決。在這些情況下，部署機器學習可能需要比常規(guī)方法更多的時間和資源。

而當數(shù)據(jù)量變大時，機器學習可能更合適。但是，已經(jīng)通過機器學習訓練，然后才發(fā)現(xiàn)業(yè)務結(jié)果尚未明確定義并導致解決錯誤問題的情況也并不罕見。

機器學習模型可能有偏見

使用一個低質(zhì)量的數(shù)據(jù)集可能帶來一個誤導性的結(jié)論。這不僅會引入不準確性和缺失數(shù)據(jù)，還會引入對問題的偏見。每個人都會有偏見，所以人們創(chuàng)造或啟發(fā)的模型也可能包含偏見。

Epstein說，每種機器學習算法對不平衡的類或分布都有不同的敏感性。Epstein說，如果不解決這些問題，你最終得到的面部識別工具，可能會依賴于皮膚顏色，或者帶有性別偏見。事實上，這已經(jīng)發(fā)生在一些商業(yè)服務中了。

結(jié)論的準確性-無論是算法的準確性還是個人的準確性-取決于所處理信息的廣度和質(zhì)量。咨詢公司Deloitte咨詢分析服務領域負責人Vic Katyal說，組織和個人所面臨的因算法偏差帶來的財務、法律和聲譽風險就是為什么任何使用機器學習的公司都應該將道德規(guī)范作為組織的必要條件的一個例子。

Katyal說，在公共領域，諸如信用評分、教育課程、招聘和刑事司法判決等方面，算法偏差的跡象已經(jīng)被充分記錄。收集、整理或應用不當?shù)臄?shù)據(jù)甚至會在設計最完善、目標明確的機器學習應用程序中引入偏差。

他說，帶有固有偏見的機器學習系統(tǒng)會威脅到客戶或社會利益相關者中的弱勢群體，并可能產(chǎn)生或延續(xù)不公平的結(jié)果。

咨詢公司麥肯錫（McKinsey）在2017年的一份報告中指出，算法偏差是機器學習的最大風險之一，因為它會損害機器學習的真正目的。該公司表示，這是一個經(jīng)常被忽視的缺陷，它會引發(fā)代價高昂的錯誤，如果不加以檢查，可能會將項目和組織拉向完全錯誤的方向。

麥肯錫說，從一開始就有效地解決這一問題將獲得豐厚的回報，使機器學習的真正潛力得到最有效地實現(xiàn)。

沒有充足的資源來做好機器學習

當啟動機器學習計劃時，組織很容易低估人員和基礎設施所需的資源。機器學習可能需要大量的基礎設施，尤其是在圖像、視頻和音頻處理等領域。

Johnson說，如果沒有所需的處理能力，及時開發(fā)基于機器學習的解決方案可能是非常困難的，如果非做不可的話。

另外，還存在部署和消耗問題。如果基礎設施不到位，不允許用戶部署和使用結(jié)果，那么開發(fā)機器學習解決方案有什么用呢？

部署一個可擴展的基礎設施來支持機器學習可能是昂貴的，并且很難維護。但是，有幾種云服務可以提供可擴展的機器學習平臺，可以按需配置。Johnsons說，云方法允許你進行大規(guī)模的機器學習實驗，而沒有物理硬件的獲取、配置和部署的束縛。

但一些組織希望自己擁有自己的基礎設施。如果是這樣的話，云服務也可以作為跳板和教育經(jīng)驗，這樣這些組織在進行大規(guī)模投資之前就可以從基礎設施的角度了解需要什么了。

從人才的角度來看，缺乏諸如數(shù)據(jù)科學家和機器學習工程師等知識型資源也可能會阻礙機器學習的發(fā)展和部署。擁有了解機器學習概念，應用程序和可解釋的資源，確定是否實現(xiàn)了特定的業(yè)務成果，這一點至關重要。

Johnson說，不要低估擁有豐富機器學習技能的重要性。擁有豐富知識的人員可以幫助識別數(shù)據(jù)質(zhì)量問題，確保正確使用和部署機器學習工具，并幫助建立最佳實踐和治理策略。

糟糕的計劃和缺乏治理會破壞機器學習

機器學習的努力可能會以熱情開始，但隨后也會因失去動力而陷入停頓。這是沒有計劃和缺乏治理的表現(xiàn)。

Johnson說，如果沒有適當?shù)闹笇Х结樅拖拗疲瑱C器學習的努力將無限期地持續(xù)下去，可能會導致巨大的資源支出，而無法帶來任何好處。

組織需要記住，機器學習是一個反復的過程，隨著時間的推移也需要修改模型來支持不斷變化的需求。因此，從事機器學習的人可能會對完成這項工作缺乏興趣，從而導致一個不良的結(jié)果。項目發(fā)起人可能會轉(zhuǎn)向其他工作，而機器學習工作最終會停滯不前。

Johnson說，你需要定期監(jiān)控機器學習的工作，以確保事情能夠順利進行。如果發(fā)現(xiàn)進度開始放緩，可能是時候休息一下，并重新檢查一下工作了。

本站聲明：本文章由作者或相關機構(gòu)授權發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權益，請及時聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字：汽車人工智能智能驅(qū)動 BSP

[美通社全球TMT]

從容應對未知風險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行，同時企業(yè)卻面臨越來越多業(yè)務中斷的風險，如企業(yè)系統(tǒng)復雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性，提升韌性，成...

關鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報道，騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字：騰訊編碼器 CPU

[通信先鋒]

獨立自主！華為董事：致力打造不依賴西方的技術

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關鍵字：華為 12nm EDA 半導體

[通信先鋒]

華為張平安：數(shù)字世界話語權最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上，華為常務董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字：華為 12nm 手機衛(wèi)星通信

[美通社全球TMT]

中國通信服務公布2024年中期業(yè)績

要點：有效應對環(huán)境變化，經(jīng)營業(yè)績穩(wěn)中有升落實提質(zhì)增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務引領增長以科技創(chuàng)新為引領，提升企業(yè)核心競爭力堅持高質(zhì)量發(fā)展策略，塑強核心競爭優(yōu)勢...

關鍵字：通信 BSP 電信運營商數(shù)字經(jīng)濟

[美通社全球TMT]

NVI技術創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]