多模態(tài)融合算法突破:小米自動(dòng)駕駛系統(tǒng)如何實(shí)現(xiàn)激光雷達(dá)與視覺(jué)的時(shí)空對(duì)齊
自動(dòng)駕駛技術(shù)多模態(tài)感知融合已成為突破安全瓶頸的核心戰(zhàn)場(chǎng)。當(dāng)特斯拉堅(jiān)持純視覺(jué)路線時(shí),小米等中國(guó)車企通過(guò)激光雷達(dá)與視覺(jué)的深度融合,在復(fù)雜城市場(chǎng)景中實(shí)現(xiàn)了更可靠的感知能力。其中,時(shí)空對(duì)齊技術(shù)作為多模態(tài)融合的基石,直接決定了系統(tǒng)能否在暴雨、逆光等極端條件下保持厘米級(jí)定位精度。
自動(dòng)駕駛系統(tǒng)需同時(shí)處理來(lái)自激光雷達(dá)、攝像頭、毫米波雷達(dá)的異構(gòu)數(shù)據(jù)。以小米SU7為例,其搭載的禾賽AT128激光雷達(dá)每秒發(fā)射153萬(wàn)束激光,生成百萬(wàn)級(jí)點(diǎn)云;而11顆高清攝像頭則以60Hz頻率捕獲2K分辨率圖像。兩種傳感器的數(shù)據(jù)頻率相差3倍,空間安裝位置相差0.5米以上,若未經(jīng)過(guò)精準(zhǔn)對(duì)齊,將導(dǎo)致目標(biāo)位置偏移、速度測(cè)量誤差等問(wèn)題。
時(shí)空對(duì)齊的核心在于建立統(tǒng)一時(shí)空基準(zhǔn):
時(shí)間同步:通過(guò)GNSS授時(shí)模塊為所有傳感器打上納秒級(jí)時(shí)間戳,結(jié)合軟件插值算法將攝像頭幀率從60Hz降采樣至與激光雷達(dá)同步的20Hz,確保點(diǎn)云與圖像的時(shí)間差小于1ms。
空間標(biāo)定:利用張氏標(biāo)定法獲取攝像頭內(nèi)參(焦距、畸變系數(shù)),通過(guò)激光雷達(dá)與攝像頭的聯(lián)合標(biāo)定板,計(jì)算兩者間的旋轉(zhuǎn)矩陣與平移向量。小米采用自研的“多維像素”技術(shù),將標(biāo)定誤差控制在0.1像素以內(nèi),相當(dāng)于在200米距離上定位誤差小于2cm。
傳統(tǒng)后融合方案中,激光雷達(dá)與攝像頭獨(dú)立檢測(cè)目標(biāo)后進(jìn)行結(jié)果投票,信息損失率高達(dá)30%。小米SU7采用的BEVFusion架構(gòu)通過(guò)數(shù)據(jù)級(jí)融合,在原始數(shù)據(jù)層面實(shí)現(xiàn)深度耦合:
點(diǎn)云投影:將激光雷達(dá)點(diǎn)云通過(guò)球坐標(biāo)變換轉(zhuǎn)換為深度圖像,每個(gè)像素值代表目標(biāo)距離,分辨率達(dá)0.1°×0.1°。
語(yǔ)義增強(qiáng):利用PointPainting算法將攝像頭檢測(cè)的語(yǔ)義標(biāo)簽(如行人、車輛、交通標(biāo)志)映射到深度圖像對(duì)應(yīng)像素,使點(diǎn)云具備顏色與紋理信息。
特征提?。和ㄟ^(guò)3D卷積神經(jīng)網(wǎng)絡(luò)同時(shí)處理增強(qiáng)后的深度圖像與原始RGB圖像,提取包含空間與語(yǔ)義信息的融合特征圖。
實(shí)測(cè)數(shù)據(jù)顯示,該方案在夜間場(chǎng)景中將行人檢測(cè)距離從純視覺(jué)的80米提升至150米,誤檢率降低62%。在2025年懂車帝實(shí)測(cè)中,小米SU7的AEB制動(dòng)成功率在50km/h時(shí)速下達(dá)到98%,超越行業(yè)平均水平18個(gè)百分點(diǎn)。
為解決雨雪天氣中激光雷達(dá)點(diǎn)云稀疏的問(wèn)題,小米引入基于Transformer的自注意力融合模塊:
跨模態(tài)交互:將視覺(jué)特征圖與激光雷達(dá)特征圖拼接后輸入Transformer編碼器,通過(guò)自注意力機(jī)制計(jì)算不同模態(tài)特征的關(guān)聯(lián)度。例如,當(dāng)激光雷達(dá)檢測(cè)到前方有障礙物但點(diǎn)云密度不足時(shí),系統(tǒng)會(huì)自動(dòng)提升攝像頭特征的權(quán)重,利用紋理信息輔助分類。
動(dòng)態(tài)權(quán)重調(diào)整:根據(jù)環(huán)境光照、天氣條件實(shí)時(shí)調(diào)整融合比例。在強(qiáng)光場(chǎng)景下,視覺(jué)特征權(quán)重降低至30%,激光雷達(dá)權(quán)重提升至70%;而在霧霾天氣中,毫米波雷達(dá)的速度信息占比增加至40%。
該技術(shù)使系統(tǒng)在暴雨中的障礙物識(shí)別率保持在95%以上,較純視覺(jué)方案提升25個(gè)百分點(diǎn)。在2025年4月小米OTA升級(jí)中,新增的“積水路面檢測(cè)”功能即基于此架構(gòu),通過(guò)融合激光雷達(dá)的反射強(qiáng)度與攝像頭的顏色信息,準(zhǔn)確識(shí)別深度5cm以上的積水區(qū)域。
時(shí)空對(duì)齊技術(shù)的落地面臨三大工程難題:
傳感器熱漂移:激光雷達(dá)與攝像頭的工作溫度差異可能導(dǎo)致標(biāo)定參數(shù)失效。小米采用溫度補(bǔ)償算法,實(shí)時(shí)監(jiān)測(cè)傳感器溫度并動(dòng)態(tài)調(diào)整旋轉(zhuǎn)矩陣,使標(biāo)定參數(shù)在-40℃至85℃范圍內(nèi)保持穩(wěn)定。
振動(dòng)干擾:車輛行駛中的顛簸可能破壞時(shí)空對(duì)齊。通過(guò)在IMU數(shù)據(jù)中嵌入卡爾曼濾波器,系統(tǒng)可過(guò)濾掉高頻振動(dòng)噪聲,確保對(duì)齊精度不受路面影響。
計(jì)算效率:數(shù)據(jù)級(jí)融合帶來(lái)計(jì)算量激增。小米采用自研的“澎湃智駕芯片”,通過(guò)硬件加速將融合處理延遲控制在5ms以內(nèi),滿足L3級(jí)自動(dòng)駕駛的實(shí)時(shí)性要求。
小米的實(shí)踐揭示了多模態(tài)感知的三大趨勢(shì):
硬件預(yù)融合:將激光雷達(dá)與攝像頭集成于同一模塊,通過(guò)光學(xué)設(shè)計(jì)實(shí)現(xiàn)物理級(jí)對(duì)齊,如廣州星程智能的“胤駒系統(tǒng)”已將時(shí)空標(biāo)定誤差縮小至0.05°。
算法輕量化:通過(guò)知識(shí)蒸餾技術(shù)將大模型壓縮為邊緣設(shè)備可運(yùn)行的輕量模型,小米計(jì)劃在2026年將融合算法參數(shù)量從1.2億壓縮至3000萬(wàn),同時(shí)保持95%以上的精度。
全場(chǎng)景自適應(yīng):構(gòu)建覆蓋城市、高速、泊車等全場(chǎng)景的融合策略庫(kù),通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)動(dòng)態(tài)切換。在2025年7月的小米YU7實(shí)測(cè)中,系統(tǒng)可自動(dòng)識(shí)別施工路段、無(wú)保護(hù)左轉(zhuǎn)等120種復(fù)雜場(chǎng)景,并調(diào)用最優(yōu)融合參數(shù)。
當(dāng)行業(yè)還在爭(zhēng)論純視覺(jué)與多傳感器融合的路線優(yōu)劣時(shí),小米已通過(guò)時(shí)空對(duì)齊技術(shù)的突破證明:真正的智能駕駛安全,不在于傳感器數(shù)量的堆砌,而在于如何讓不同模態(tài)的數(shù)據(jù)在時(shí)空維度上完美共振。這種技術(shù)哲學(xué),或許正是中國(guó)自動(dòng)駕駛超越特斯拉的關(guān)鍵密碼。