談Kaggle機(jī)器學(xué)習(xí)之模型融合

時(shí)間：2020-08-02 18:12:01

關(guān)鍵字：機(jī)器學(xué)習(xí)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 本文以Kaggle的TItanic入門比賽來(lái)講解stacking的應(yīng)用（兩層！）。數(shù)據(jù)的行數(shù)：train.csv有890行，也就是890個(gè)人，test.csv有418行（418個(gè)人）。

本文以Kaggle的TItanic入門比賽來(lái)講解stacking的應(yīng)用（兩層！）。

數(shù)據(jù)的行數(shù)：train.csv有890行，也就是890個(gè)人，test.csv有418行（418個(gè)人）。

而數(shù)據(jù)的列數(shù)就看你保留了多少個(gè)feature了，因人而異。我自己的train保留了 7+1（1是預(yù)測(cè)列）。

在網(wǎng)上為數(shù)不多的stacking內(nèi)容里，相信你早看過(guò)了這張圖：

這張圖，如果你能一下子就能看懂，那就OK。

如果一下子看不懂，就麻煩了，在接下來(lái)的一段時(shí)間內(nèi)，你就會(huì)臥槽臥槽地持續(xù)懵逼。。.。。.

因?yàn)檫@張圖極具‘誤導(dǎo)性’。（注意！我沒(méi)說(shuō)這圖是錯(cuò)的，盡管它就是錯(cuò)的?。?！但是在網(wǎng)上為數(shù)不多教學(xué)里有張無(wú)碼圖就不錯(cuò)啦，感恩吧，我這個(gè)小弱雞）。

我把圖改了一下：

對(duì)于每一輪的 5-fold，Model 1都要做滿5次的訓(xùn)練和預(yù)測(cè)。

TItanic ：

Train Data有890行。（請(qǐng)對(duì)應(yīng)圖中的上層部分）

每1次的fold，都會(huì)生成 713行小train， 178行小test。我們用Model 1來(lái)訓(xùn)練 713行的小train，然后預(yù)測(cè) 178行小test。預(yù)測(cè)的結(jié)果是長(zhǎng)度為 178 的預(yù)測(cè)值。

這樣的動(dòng)作走5次！長(zhǎng)度為178 的預(yù)測(cè)值 X 5 = 890 預(yù)測(cè)值，剛好和Train data長(zhǎng)度吻合。這個(gè)890預(yù)測(cè)值是Model 1產(chǎn)生的，我們先存著，因?yàn)?，一?huì)讓它將是第二層模型的訓(xùn)練來(lái)源。

重點(diǎn)：這一步產(chǎn)生的預(yù)測(cè)值我們可以轉(zhuǎn)成 890 X 1 （890 行，1列），記作 P1 （大寫P）

接著說(shuō) Test Data 有 418 行。（請(qǐng)對(duì)應(yīng)圖中的下層部分，對(duì)對(duì)對(duì)，綠綠的那些框框）

每1次的fold，713行小train訓(xùn)練出來(lái)的Model 1要去預(yù)測(cè)我們?nèi)康腡est Data（全部！因?yàn)門est Data沒(méi)有加入5-fold，所以每次都是全部?。?。此時(shí)，Model 1的預(yù)測(cè)結(jié)果是長(zhǎng)度為418的預(yù)測(cè)值。

這樣的動(dòng)作走5次！我們可以得到一個(gè) 5 X 418 的預(yù)測(cè)值矩陣。然后我們根據(jù)行來(lái)就平均值，最后得到一個(gè) 1 X 418 的平均預(yù)測(cè)值。

重點(diǎn)：這一步產(chǎn)生的預(yù)測(cè)值我們可以轉(zhuǎn)成 418 X 1 （418行，1列），記作 p1 （小寫p）

走到這里，你的第一層的Model 1完成了它的使命。

第一層還會(huì)有其他Model的，比如Model 2，同樣的走一遍，我們有可以得到 890 X 1 （P2）和 418 X 1 （p2）列預(yù)測(cè)值。

這樣吧，假設(shè)你第一層有3個(gè)模型，這樣你就會(huì)得到：

來(lái)自5-fold的預(yù)測(cè)值矩陣 890 X 3，（P1，P2， P3）和來(lái)自Test Data預(yù)測(cè)值矩陣 418 X 3，（p1， p2， p3）。

到第二層

來(lái)自5-fold的預(yù)測(cè)值矩陣 890 X 3 作為你的Train Data，訓(xùn)練第二層的模型

來(lái)自Test Data預(yù)測(cè)值矩陣 418 X 3 就是你的Test Data，用訓(xùn)練好的模型來(lái)預(yù)測(cè)他們吧。

最后，放出一張Python的Code，在網(wǎng)上為數(shù)不多的stacking內(nèi)容里，這個(gè)幾行的code你也早就看過(guò)了吧，我之前一直卡在這里，現(xiàn)在加上一點(diǎn)點(diǎn)注解，希望對(duì)你有幫助：

www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

談Kaggle機(jī)器學(xué)習(xí)之模型融合

阿維塔、賽力斯已入股！華為引望可能成“中國(guó)博世”

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變?cè)撇捎煤凸芾矸绞?/a>

人工智能驅(qū)動(dòng)工具SODA V將顛覆汽車市場(chǎng)，使汽車開(kāi)發(fā)時(shí)間和成本降低90%

從容應(yīng)對(duì)未知風(fēng)險(xiǎn)----解密亞馬遜云科技的韌性之道

中國(guó)游戲市場(chǎng)開(kāi)始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

獨(dú)立自主！華為董事：致力打造不依賴西方的技術(shù)

華為張平安：數(shù)字世界話語(yǔ)權(quán)最終由生態(tài)繁榮決定！

中國(guó)通信服務(wù)公布2024年中期業(yè)績(jī)

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動(dòng)產(chǎn)業(yè)鏈高速發(fā)展

軟通動(dòng)力與長(zhǎng)三角投資達(dá)成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

海南區(qū)6家凱悅系酒店與嵐圖達(dá)成戰(zhàn)略合作，共同推動(dòng)新能源出行體驗(yàn)

安嵐攜手妮可?巴菲特開(kāi)啟療愈之旅在秋日紅葉的浪漫中療愈身心

不懼美國(guó)封鎖！華為：我們給大家提供系統(tǒng)、存儲(chǔ)等

尼爾森IQ深耕中國(guó)四十載，共繪未來(lái)新篇章

第二十二屆跨盈年度B2B營(yíng)銷高管峰會(huì)2025聚焦"營(yíng)銷競(jìng)?cè)?，打破市?chǎng)內(nèi)卷實(shí)現(xiàn)認(rèn)知進(jìn)化"

恒久動(dòng)力馳騁天地美孚1號(hào)攜手周冠宇邀您縱擎馳騁，勁享駕趣體驗(yàn)

美通社母公司Cision發(fā)布CisionOne平臺(tái)，進(jìn)軍亞太地區(qū)媒體監(jiān)測(cè)市場(chǎng)

移遠(yuǎn)通信推出大模型解決方案，重塑千行百業(yè)智能邊界

高途公布2024年第二季度未經(jīng)審計(jì)業(yè)績(jī)

華為發(fā)布AI百校計(jì)劃：培養(yǎng)AI人才每年獲最高100萬(wàn)支持