SSDD數(shù)據(jù)集的標(biāo)準(zhǔn)規(guī)范
SSDD訓(xùn)練與測試集的劃分標(biāo)準(zhǔn)
SSDD的原論文采用了7:1:2的隨機比例,將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集。然而,這種隨機劃分機制將導(dǎo)致測試集中樣本的極大不確定性,導(dǎo)致使用同一檢測算法進(jìn)行多次訓(xùn)練和測試時,產(chǎn)生不同的結(jié)果。這是因為SSDD中的樣本數(shù)量太少,只有1160個,隨機劃分可能會破壞訓(xùn)練集和測試集之間的分布一致性。
后來,一些研究人員也采用了其他比例進(jìn)行訓(xùn)練、驗證和測試,但這些不同的數(shù)據(jù)集劃分將導(dǎo)致不統(tǒng)一的方法比較,不利于學(xué)術(shù)交流。事實上,計算機視覺領(lǐng)域的兩個目標(biāo)檢測數(shù)據(jù)集(PACAL VOC和COCO),都提供了唯一確定的訓(xùn)練集、驗證集和測試集,這可確保對比的公平性。
因此,這里對SSDD的訓(xùn)練集和測試集的劃分做出了嚴(yán)格的規(guī)定。文件編號最后數(shù)字為1和9的圖像被確定為測試集,其余的被視為訓(xùn)練集。該規(guī)則還可以保持訓(xùn)練集和測試集分布的一致性,有利于網(wǎng)絡(luò)特征學(xué)習(xí)。
這里沒有提供驗證集,因為SSDD中的樣本數(shù)量非常少,因此應(yīng)該珍惜每個樣本,以確保每個測試樣本的訓(xùn)練梯度減小。然而,驗證集不參與訓(xùn)練梯度下降,這將不可避免地導(dǎo)致船舶特征學(xué)習(xí)不足。當(dāng)然,如果研究者想要監(jiān)控模型在訓(xùn)練過程中是否被過度擬合,他們可以建立多個重疊的交叉驗證集來達(dá)到目的。
近岸與遠(yuǎn)海目標(biāo)劃分標(biāo)準(zhǔn)
近岸圖像中的陸地背景非常復(fù)雜,船舶容易受到港口設(shè)施的干擾。為了分別計算近岸和遠(yuǎn)海這兩種情況下算法的性能,這里確定了測試集的近岸和遠(yuǎn)海圖像(近岸圖像在下圖中以洋紅色標(biāo)記)。在232幅測試圖像中,有186幅近海場景圖像,而只有46幅近海場景圖像。
與HRSID和LS-SSDD-v1.0類似,這里將包含陸地的圖像視為近岸樣本,而將其他圖像視為遠(yuǎn)海樣本。近岸和遠(yuǎn)海樣本的數(shù)量是極不平衡(分別是19.8%和80.2%)的,這種現(xiàn)象與地球的海洋面積比陸地大得多這一事實相符。
然而,深度學(xué)習(xí)需要大量數(shù)據(jù)來學(xué)習(xí)特征,更多的數(shù)據(jù)可帶來更好的學(xué)習(xí)效益。因此,近岸場景和遠(yuǎn)海場景之間樣本數(shù)的不平衡將導(dǎo)致近岸場景和近岸場景之間模型學(xué)習(xí)表示能力的巨大不平衡。網(wǎng)絡(luò)將僅擅長于檢測許多簡單的遠(yuǎn)海樣本中的船。近岸船舶的檢測性能將因訓(xùn)練樣本少而差,而海上船舶的檢測性能將因樣本的增加而變得優(yōu)異。學(xué)者在設(shè)計檢測算法時應(yīng)特別注意這一問題。
SSDD船舶目標(biāo)尺寸定義標(biāo)準(zhǔn)
不同類型的船具有不同的尺寸,同一尺寸的船也會有不同的分辨率,這都會導(dǎo)致圖像中像素總數(shù)的變化,多尺度船舶檢測是一項具有挑戰(zhàn)性的任務(wù)。但到目前為止,在SAR圖像中還沒有明確的定義哪些船舶是小型船舶,哪些船舶是大型船舶。一些學(xué)者認(rèn)為小于40像素的船只是小型船只,但他們沒有考慮到圖像的實際分辨率。此外,僅僅根據(jù)像素數(shù)量來確定船舶的尺寸,這與計算機視覺界的共識不一致。
在SAR船舶檢測領(lǐng)域,有人遵循COCO數(shù)據(jù)集的標(biāo)準(zhǔn)對船舶尺寸進(jìn)行分類,即BBox<32X32的面積表示小型船舶,32X32
然而,該定義僅針對COCO數(shù)據(jù)集,在SSDD數(shù)據(jù)集上使用它會有問題,因為它與BBox的面積分布不匹配。因此,需要根據(jù)SSDD數(shù)據(jù)集指定船舶尺寸的定義,此外,還應(yīng)根據(jù)不同的標(biāo)簽類型定義船舶尺寸。最后,根據(jù)統(tǒng)計結(jié)果,定義了船舶尺寸標(biāo)準(zhǔn)。 SSDD密集分布小尺寸樣本標(biāo)準(zhǔn)
由于特征不明確,密集分布的小型船舶很難被檢測。為了便于在此特定場景中進(jìn)行性能評估,這里在測試集中指定了密集分布的小型船舶樣本,如下圖所示。在232張測試圖像中,有10張圖像密集分布著小型船舶,根據(jù)實際經(jīng)驗,001119.jpg中的船舶最難檢測,研究人員可對此給予更多的關(guān)注。
密集分布的小船
對于這種困難的樣本,這里提供了幾種可能的解決方案:1.可以使用隨機裁剪數(shù)據(jù)增強來增加小型船舶在整個圖像中的比例。2.可以在深度網(wǎng)絡(luò)的淺層檢測小型船舶,特征損失低。3.可以將CFAR結(jié)合到深度網(wǎng)絡(luò)中,因為CFAR對像素更敏感。4.可以結(jié)合視覺顯著性理論生成顯著性圖來指導(dǎo)深度網(wǎng)絡(luò)學(xué)習(xí)特征,因為這些小船在人眼觀察中非常重要。5.可以設(shè)計一個深度網(wǎng)絡(luò)來超分辨率重建小型船舶,這樣,小型船舶的功能將更加豐富。
SSDD在港口密集排列的船舶樣本標(biāo)準(zhǔn)
在港口密集排列的船舶也很難被發(fā)現(xiàn)。一方面,復(fù)雜的陸地背景會降低訓(xùn)練效率,因為訓(xùn)練過程中會產(chǎn)生大量的負(fù)樣本。另一方面,由于SAR特殊的成像機制和有限的分辨率,并排停泊的船舶會產(chǎn)生船體重疊效應(yīng)。為了便于在此特定場景中進(jìn)行性能評估,我們在測試集中指定了港口船舶平行停泊的樣本,如下圖所示。
港口密集排列的船舶
此外,對于這種困難的樣本,這里提供了幾種可能的解決方案:1.可以使用注意機制來抑制陸地干擾,從而將注意力集中在船舶區(qū)域。2.可以使用分割掩模來輔助船舶檢測。3.可以使用生成性對抗網(wǎng)絡(luò)(GAN)生成此類場景的更多樣本,以提高這些船舶的學(xué)習(xí)比例。4.可以使用軟NMS后處理算法來避免漏檢。
以上內(nèi)容來自論文:SAR Ship Detection Dataset (SSDD) Of?cial Release and Comprehensive Data Analysis,需要英文原文的請給“雷達(dá)通信電子戰(zhàn)”微信公眾號發(fā)送“1010”查看,全文共41頁。