當(dāng)前位置：首頁 > 物聯(lián)網(wǎng) > 智能應(yīng)用

當(dāng)大數(shù)據(jù)材料拿不到手小樣本數(shù)據(jù)怎么起作用？

時間：2019-08-11 21:31:20

關(guān)鍵字：大數(shù)據(jù) 功能性原型小樣本數(shù)據(jù)

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀] 大數(shù)據(jù)是打造成功機(jī)器學(xué)習(xí)項(xiàng)目的關(guān)鍵。在很多機(jī)構(gòu)沒有你想要的數(shù)據(jù)這一關(guān)鍵原材料的情況下，我們該如何將機(jī)器學(xué)習(xí)的想法制成原型，使其產(chǎn)生實(shí)效呢?我們又該如何用有限的數(shù)據(jù)來源，有效獲取和創(chuàng)造價值呢?功能性原型(functional prototype)是一種辦法。

大數(shù)據(jù)是打造成功機(jī)器學(xué)習(xí)項(xiàng)目的關(guān)鍵。在很多機(jī)構(gòu)沒有你想要的數(shù)據(jù)這一關(guān)鍵原材料的情況下，我們該如何將機(jī)器學(xué)習(xí)的想法制成原型，使其產(chǎn)生實(shí)效呢?我們又該如何用有限的數(shù)據(jù)來源，有效獲取和創(chuàng)造價值呢?功能性原型(functional prototype)是一種辦法。

因此，我們常常需要開發(fā)小樣本數(shù)據(jù)。本文將介紹7種提高小樣本數(shù)據(jù)原型化效果的方法。

1. 模型不可能廣泛適用

這是工作的首要前提。所建立的模型僅僅基于宇宙萬物中的極小一部分，只有在這種情境下，模型才能順利運(yùn)行。

如果你利用一系列室內(nèi)照片建立了一個視覺原型，那么這一模型絕對無法適用于室外。如果你利用網(wǎng)絡(luò)聊天的玩笑話素材建立了一個語言模型，這一模型也絕對無法適用于一部奇幻小說。

必須保證你的上司和客戶都明白這一點(diǎn)。只有如此，所有人才能對模型效果抱有現(xiàn)實(shí)合理的預(yù)期。也只有這樣，才有可能產(chǎn)生更實(shí)用的關(guān)鍵績效指標(biāo)(KPI)，來量化原型范圍之內(nèi)及范圍之外的模型運(yùn)行效果。

2. 建立良好的數(shù)據(jù)基礎(chǔ)設(shè)施

很多情況下，客戶沒有你需要的數(shù)據(jù)，同時你又不能調(diào)取公共數(shù)據(jù)。如果收集和標(biāo)注新的數(shù)據(jù)屬于制作原型的步驟之一，應(yīng)確保參與工作的數(shù)據(jù)基礎(chǔ)設(shè)施不會給你制造麻煩。

最好保證數(shù)據(jù)標(biāo)注簡單明了，以便非技術(shù)人員理解和實(shí)行。我們最近開始使用Prodigy，這一軟件非常好：不僅容易入門，而且功能可拓展。還可以根據(jù)不同項(xiàng)目的大小，利用Prodigy設(shè)立一個自動數(shù)據(jù)攝取系統(tǒng)，讓它幫你將數(shù)據(jù)自動錄入標(biāo)注庫中。

如果錄入新數(shù)據(jù)簡單快捷，新的數(shù)據(jù)也將唾手可得。

3.警惕“幸運(yùn)分組”

在訓(xùn)練機(jī)器學(xué)習(xí)模型時，人們往往會根據(jù)某些比例，隨機(jī)將數(shù)據(jù)集劃分為訓(xùn)練組和測試組。這通常是可行的，但是在處理小樣本數(shù)據(jù)時，由于訓(xùn)練樣本量較小，出現(xiàn)噪音的概率很大。

這種情況下，你很可能只是偶然碰到了一個“幸運(yùn)分組”，即一個能讓模型在測試組中完美運(yùn)行和歸納的特定數(shù)據(jù)集分組。但實(shí)際上，這很可能只是因?yàn)闇y試組的數(shù)據(jù)恰好沒有包含困難項(xiàng)。

在這種情況下用K-折交叉檢驗(yàn)方法會是一個更好的選擇。它的運(yùn)作原理大概是，把一個數(shù)據(jù)集分為K“份”，訓(xùn)練新模型時，每次使用其中的一份作為測試組，其余作為訓(xùn)練組使用。以上方法保證了模型在測試中的表現(xiàn)并不受制于一個幸運(yùn)(或不幸)的分組。

4.應(yīng)用遷移學(xué)習(xí)

如果你正在處理一些較為程式化的數(shù)據(jù)，比如文本、圖片、視頻、音頻等等，可以通過遷移學(xué)習(xí)利用所有前人在這一領(lǐng)域的成果，就好比站在巨人的肩膀上一樣。

在進(jìn)行遷移學(xué)習(xí)時，你使用的是其他人建立過的模型(通常來講，此處的“其他人”指谷歌、臉書或是一些知名大學(xué))，并在此基礎(chǔ)上，做出調(diào)試以適應(yīng)特殊需求。

遷移學(xué)習(xí)之所以起作用，是因?yàn)榇蟛糠痔幚碚Z言、圖片或是音頻的任務(wù)都具有共同特征，例如計(jì)算機(jī)視覺中對特定形狀類型和顏色模式的偵測。

通過精準(zhǔn)調(diào)試MobileNet SSD 檢測模型(MobileNet Single Shot Detector)，得以顯著加快項(xiàng)目的進(jìn)程。MobileNet SSD檢測模型是在谷歌的Open Images v4數(shù)據(jù)集(包含約900萬標(biāo)注圖片!)上訓(xùn)練的目標(biāo)檢測模型。只經(jīng)過了一天的模型訓(xùn)練，就已經(jīng)能建構(gòu)出一個相當(dāng)靈活的目標(biāo)檢測模型，其性能在0.85的mAP值下可以檢測約1500個標(biāo)注圖片。

5.嘗試組合多個“弱學(xué)習(xí)組”

有時候必須承認(rèn)，你的數(shù)據(jù)根本不足以支持你做一些花哨復(fù)雜的工作。不過幸運(yùn)的是，許多對于數(shù)據(jù)集樣本容量要求不高的傳統(tǒng)機(jī)器學(xué)習(xí)算法能幫到你。面對樣本容量少而數(shù)據(jù)維度大的數(shù)據(jù)集，像SupportVector Machine這樣的算法就是比較好的選擇。

不幸的是，這些算法可能沒有當(dāng)今前沿的數(shù)據(jù)分析方法精準(zhǔn)。這就是為什么人們稱它們?yōu)?ldquo;弱學(xué)習(xí)組”，至少相對于高參數(shù)化的神經(jīng)網(wǎng)絡(luò)，這些算法是更弱的。

集成學(xué)習(xí)的主要內(nèi)容，提高性能的方法之一就是將多個這樣的“弱學(xué)習(xí)組”進(jìn)行組合(可以是一批諸如Support VectorMachines或Decision Trees之類的程序)，使得它們能夠“協(xié)同工作”，共同產(chǎn)生一個預(yù)測結(jié)果。

6.開展數(shù)據(jù)擴(kuò)充工作

我們常常能通過擴(kuò)充數(shù)據(jù)來拓展現(xiàn)有數(shù)據(jù)集。擴(kuò)充數(shù)據(jù)，就是在不影響整體的模型輸出結(jié)果的前提下，略微調(diào)整現(xiàn)有數(shù)據(jù)集。比如說，把一只貓的圖片旋轉(zhuǎn)40度，它仍然是同一個圖片。

大多數(shù)時候，擴(kuò)充數(shù)據(jù)能讓你制造更多用來訓(xùn)練模型的“半獨(dú)立”的數(shù)據(jù)點(diǎn)。剛起步時可以嘗試在數(shù)據(jù)里加入小部分高斯噪聲(GaussianNoise)。

在計(jì)算機(jī)視覺領(lǐng)域里，許多方法可以用于放大圖片。Albumentations圖片數(shù)據(jù)增強(qiáng)庫的使用體驗(yàn)較好，它能完成許多實(shí)用的圖片轉(zhuǎn)化任務(wù)，且不會損害原圖的標(biāo)注。

另一個廣受好評的擴(kuò)充技術(shù)是Mixup。這一技術(shù)的功能像它的名稱所說那樣，能夠合并輸入端的兩個圖片，并組合兩者的標(biāo)注。

擴(kuò)充其他類別的數(shù)據(jù)時，應(yīng)適當(dāng)考慮怎樣的圖片轉(zhuǎn)換會改變標(biāo)注，怎樣的轉(zhuǎn)換不會改變標(biāo)注。

7.生成人造數(shù)據(jù)

如果你竭盡了數(shù)據(jù)擴(kuò)充的所有可能，就可以考慮編造數(shù)據(jù)了。生成人造數(shù)據(jù)，不失為一種補(bǔ)充實(shí)際數(shù)據(jù)集的邊界案例的有效方法。

舉一個例子，很多機(jī)器加強(qiáng)學(xué)習(xí)系統(tǒng)(比如OpenAI的Dactyl)常常先在3D模擬環(huán)境下訓(xùn)練，而后才在真正的機(jī)器人應(yīng)用。對圖像識別系統(tǒng)而言，同樣可以構(gòu)建不同的3D場景，它們足以提供數(shù)以千計(jì)的新數(shù)據(jù)點(diǎn)。

15個模擬的Dactyl并行訓(xùn)練實(shí)例

生成人造數(shù)據(jù)的方法很多。Kanda正致力于創(chuàng)造一個基于轉(zhuǎn)臺結(jié)構(gòu)的數(shù)據(jù)生成方案，用于目標(biāo)檢測。假如你有很高的數(shù)據(jù)需求，可以考慮用生成式對抗網(wǎng)絡(luò)(Generative AdversarialNetworks，又名生成對抗網(wǎng)絡(luò)，簡稱GAN)生成人造數(shù)據(jù)。但要注意，GAN出了名的難以訓(xùn)練，所以在使用前，要確保項(xiàng)目值得運(yùn)用GAN。

有時候可以組合多種方法：蘋果公司巧妙地利用GAN來加工3D人臉建模，使之看起來更像真實(shí)照片。只要有時間投入，這就是個延伸數(shù)據(jù)集的好方法。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

黑芝麻智能一芯多域零拷貝共享內(nèi)存技術(shù)：破解車載大數(shù)據(jù)傳輸效能困局

上海 2025年6月23日 /美通社/ -- 近期，黑芝麻智能分享了其如何通過零拷貝共享內(nèi)存技術(shù)，解決車載多域間大數(shù)據(jù)傳輸?shù)难舆t與資源消耗問題。核心技術(shù)包括全局內(nèi)存管理單元和dmabuf機(jī)制優(yōu)化，顯著降低CPU負(fù)載與D...

關(guān)鍵字：內(nèi)存數(shù)據(jù)傳輸大數(shù)據(jù) BUF

[亞馬遜云科技]

亞馬遜云科技中國峰會召開解碼Agentic AI時代企業(yè)加速創(chuàng)新路徑

上?！?025年6月19日，亞馬遜云科技中國峰會在上海召開。峰會期間，亞馬遜全球副總裁、亞馬遜云科技大中華區(qū)總裁儲瑞松全面闡述了隨著生成式AI場景和應(yīng)用的快速落地，AI發(fā)展也迎來Agentic AI技術(shù)的爆發(fā)，企業(yè)需要...

關(guān)鍵字： AI 存儲大數(shù)據(jù)

[工業(yè)控制]

重塑傳統(tǒng)系統(tǒng)順勢而為成為當(dāng)下各界亟待思考與解決的關(guān)鍵問題

在人類發(fā)展的歷史長河中，工業(yè)革命始終是推動社會進(jìn)步與經(jīng)濟(jì)發(fā)展的強(qiáng)大動力。從第一次工業(yè)革命的蒸汽動力開啟機(jī)械化時代，到第二次工業(yè)革命電力與內(nèi)燃機(jī)帶來的大規(guī)模生產(chǎn)，再到第三次工業(yè)革命中電子技術(shù)與信息技術(shù)引領(lǐng)的自動化與信息化浪...

關(guān)鍵字：人工智能云計(jì)算大數(shù)據(jù)

[嵌入式分享]

當(dāng)電力鴻蒙遇上大數(shù)據(jù)：推動電力決策邁向精準(zhǔn)化

在能源轉(zhuǎn)型與數(shù)字化浪潮的雙重推動下，電力行業(yè)正經(jīng)歷著前所未有的變革。新型電力系統(tǒng)的建設(shè)加速推進(jìn)，分布式新能源、電動汽車、儲能設(shè)備等新型電力元素大規(guī)模接入，使得電力系統(tǒng)的供需互動更加復(fù)雜。與此同時，大數(shù)據(jù)技術(shù)的蓬勃發(fā)展，為...

關(guān)鍵字：電力鴻蒙大數(shù)據(jù)

[美通社全球TMT]

挖掘技術(shù)賦能下的企業(yè)傳播新動能 ---- 美通社媒體開放日走進(jìn)界面財(cái)聯(lián)社

上海2025年4月23日 /美通社/ -- 2025年4月16日下午，美通社與界面財(cái)聯(lián)社聯(lián)合舉辦的媒體開放日活動在界面財(cái)聯(lián)社上海辦公區(qū)會議室舉行。界面財(cái)聯(lián)社黨委委員、副總裁，界面新聞高級副總裁，上海報(bào)業(yè)傳媒行業(yè)協(xié)會副會長...

關(guān)鍵字： AI 人工智能流媒體大數(shù)據(jù)

[美通社全球TMT]

2025未來學(xué)校建設(shè)大會圓滿落幕，索迪斯榮獲高品質(zhì)學(xué)校合作伙伴

上海2025年4月18日 /美通社/ -- 近期，全球可持續(xù)餐飲和價值體驗(yàn)的領(lǐng)導(dǎo)者，索迪斯在2025未來學(xué)校建設(shè)大會上榮獲BEED AWARDS 2025"高品質(zhì)學(xué)校合作伙伴（運(yùn)營創(chuàng)新類）"。...

關(guān)鍵字：人工智能樓宇虛擬現(xiàn)實(shí) 大數(shù)據(jù)

[美通社全球TMT]

立邦出席2025中國國際涂料大會，共探行業(yè)新質(zhì)引領(lǐng)之路

上海2025年4月14日 /美通社/ -- 4月10日，由中國涂料工業(yè)協(xié)會主辦的"2025中國國際涂料大會"（簡稱"涂料大會"）在杭州舉行，立邦受邀出席，與來自政府、協(xié)會...

關(guān)鍵字：數(shù)字化智能制造智能化大數(shù)據(jù)

[美通社全球TMT]

AI醫(yī)療應(yīng)用加速落地，CMEF直擊理邦技術(shù)布局

深圳2025年4月9日 /美通社/ -- 第91屆中國國際醫(yī)療器械博覽會（CMEF）如約而至，人工智能技術(shù)與醫(yī)療設(shè)備的深度融合成為行業(yè)共識。隨著AI醫(yī)療設(shè)備進(jìn)入規(guī)模化應(yīng)用階段...

關(guān)鍵字： AI 大數(shù)據(jù) 醫(yī)療設(shè)備 AI技術(shù)

[智能應(yīng)用]

平安城市大腦，大數(shù)據(jù)與AI算法如何實(shí)現(xiàn)城市風(fēng)險預(yù)測與應(yīng)急響應(yīng)

在城市化進(jìn)程加速的今天，城市安全面臨前所未有的挑戰(zhàn)：人口密集、基礎(chǔ)設(shè)施復(fù)雜、災(zāi)害風(fēng)險多樣。平安城市大腦作為智慧城市的核心中樞，通過大數(shù)據(jù)與AI算法的深度融合，構(gòu)建起覆蓋全域的風(fēng)險預(yù)測與應(yīng)急響應(yīng)體系，成為守護(hù)城市安全的“超...

關(guān)鍵字：平安城市大數(shù)據(jù) AI

[汽車電子]

2025智能座艙技術(shù)圖譜，從多模態(tài)交互到車路云一體化的演進(jìn)路徑

在2025年的汽車科技浪潮中，智能座艙正以前所未有的速度重塑著人們的出行體驗(yàn)。從最初簡單的車載娛樂系統(tǒng)，到如今融合了人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)等先進(jìn)技術(shù)的移動生活空間，智能座艙的技術(shù)圖譜正不斷擴(kuò)展，展現(xiàn)出從多模態(tài)交互到車路...

關(guān)鍵字：智能座艙人工智能大數(shù)據(jù)