企業(yè)發(fā)布

AI應(yīng)用大咖說：多相機(jī)的時空融合模型架構(gòu)算法優(yōu)化

2022/12/23 13:59:07 來源：中國企業(yè)新聞網(wǎng) 評論：(0)

導(dǎo)言：隨著人工智能技術(shù)的廣泛應(yīng)用，智能駕駛系統(tǒng)正在成為汽車的標(biāo)配。而作為識別周邊環(huán)境的“火眼金睛”，“感知”模塊是智能駕駛系統(tǒng)安全、高效運行的核心，而視覺感知更是其中無比重要的一環(huán)。

　　隨著人工智能技術(shù)的廣泛應(yīng)用，智能駕駛系統(tǒng)正在成為汽車的標(biāo)配。而作為識別周邊環(huán)境的“火眼金睛”，“感知”模塊是智能駕駛系統(tǒng)安全、高效運行的核心，而視覺感知更是其中無比重要的一環(huán)。浪潮信息AI團(tuán)隊長期關(guān)注AI算法在自動駕駛中的應(yīng)用，并致力于用軟硬件的算法和技術(shù)創(chuàng)新推動行業(yè)的進(jìn)步，做出創(chuàng)新性的成績。最近，浪潮信息在自動駕駛感知權(quán)威數(shù)據(jù)集 NuScenes 評測中，自研算法 DABNet4D 獲得 0. 624 的NDS精度，位列Camera-only榜單第一名。

　　近日，浪潮信息人工智能與高性能應(yīng)用軟件部自動駕駛AI研究員趙云博士，在題為《探索自動駕駛純視覺感知精度新突破 -- 多相機(jī)的時空融合模型架構(gòu)算法優(yōu)化》的自動駕駛線上研討會上，向我們揭開了這一自動駕駛感知算法的神秘面紗。

　　多相機(jī)多任務(wù)融合模型優(yōu)勢

　　自動駕駛汽車完成自動駕駛出行任務(wù)，離不開感知、決策、控制三大要素。其中感知系統(tǒng)是車輛和環(huán)境交互的紐帶，相當(dāng)于無人汽車的眼睛。根據(jù)所用的傳感器以及傳感器數(shù)量和種類等，自動駕駛感知算法可以簡單的分為單傳感器(單任務(wù)和多任務(wù))模型、(同類和不同類)傳感器融合模型等四類，并各有其優(yōu)缺點。

　　自動駕駛感知的關(guān)鍵是3D目標(biāo)檢測任務(wù)，又分為基于相機(jī)、Lidar的3D目標(biāo)檢測，以及相機(jī)、Lidar、Radar融合等技術(shù)。盡管目前對于3D目標(biāo)檢測已經(jīng)有不少的研究，但是在實際應(yīng)用中仍然有許多的問題，其難點主要在于：

　　遮擋，遮擋分為兩種情況，目標(biāo)物體相互遮擋和目標(biāo)物體被背景遮擋

　　截斷，部分物體被圖片截斷，在圖片中只能顯示部分物體

　　小目標(biāo)，相對輸入圖片大小，目標(biāo)物體所占像素點極少

　　缺失深度信息，2D圖片相對于激光數(shù)據(jù)存在信息稠密、成本低的優(yōu)勢，但是也存在缺失深度信息的缺點

　　現(xiàn)有方式大都依賴于物體表面紋理或結(jié)構(gòu)特征，容易造成混淆。

　　目前，基于相機(jī)的方法與基于Lidar的方法準(zhǔn)確度差距正在縮小，而隨著Lidar成本降低，融合技術(shù)在成本和準(zhǔn)確度的平衡上存在優(yōu)勢。

　　基于多相機(jī)多任務(wù)融合模型的3D目標(biāo)檢測技術(shù)正是在成本優(yōu)勢與日益增長的準(zhǔn)確度兩相促進(jìn)下得到越來越多的認(rèn)可。目前，多相機(jī)多任務(wù)融合模型主要遵循特征提取、特征編碼、統(tǒng)一BEV、特征解碼和檢測頭五大部分。

　　其中，統(tǒng)一BEV 就是鳥瞰圖，亦即將圖像特征統(tǒng)一投射到BEV視角下，用以表示車周圍環(huán)境�！敖y(tǒng)一BEV”的工作可以分為兩大類，一種基于幾何視覺的變換，也就是基于相機(jī)的物理原理，優(yōu)勢在于模型確定，難度在深度估計;另一種是基于神經(jīng)網(wǎng)絡(luò)的變換。

　　浪潮DABNet4D算法三大創(chuàng)新突破

　　據(jù)趙云介紹，浪潮DABNet4D算法遵循上述框架，采用基于幾何視覺的變換方法，設(shè)計了端到端的模塊化整體架構(gòu)，通過將環(huán)視圖檢測統(tǒng)一到BEV空間，為后續(xù)的工作提供了很好的模板。

　　DABNet4D模型被劃分為四個部分，Image-view Encoder，View-transformer，BEV-Encoder，Detection Head。其中Image-view Encoder為圖像編碼模塊將原始圖像轉(zhuǎn)換為高層特征表示。 View-Transformer模塊負(fù)責(zé)將圖像特征轉(zhuǎn)換到BEV坐標(biāo)中，主要包括三個模塊：深度預(yù)測模塊、特征轉(zhuǎn)換模塊和多幀特征融合模塊。BEV-Encoder & Heads主要是對融合BEV特征進(jìn)行編碼;Heads用來完成最終的3D目標(biāo)檢測任務(wù)�！　�

　　創(chuàng)新突破一數(shù)據(jù)樣本增強(qiáng)

　　為平衡不同種類的樣本數(shù)量，浪潮信息AI團(tuán)隊創(chuàng)新研發(fā)了基于3D的圖像貼圖技術(shù)。主要是通過從整個訓(xùn)練數(shù)據(jù)集中根據(jù)每個樣本的3D真值標(biāo)簽，提取樣本數(shù)據(jù)構(gòu)建樣本數(shù)據(jù)庫。訓(xùn)練過程中，通過在樣本數(shù)據(jù)庫中采樣獲取備選樣本集合，按照真值深度值從遠(yuǎn)至近貼圖，并將對應(yīng)的Lidar數(shù)據(jù)進(jìn)行粘貼。

　　創(chuàng)新突破二深度信息優(yōu)化

　　基于圖像的3D目標(biāo)檢測，由于攝像頭拍攝的照片和視頻是將原有3D空間直接投射至2D平面中，所以會丟失深度信息，由此所面臨的核心問題為如何精確地估計圖像中物體的深度。針對此問題，浪潮信息AI團(tuán)隊進(jìn)行了兩方面的改進(jìn)工作：一是建立更復(fù)雜的深度估計網(wǎng)絡(luò)，通過設(shè)計更深、更多參數(shù)的深度神經(jīng)網(wǎng)絡(luò)，以增大深度估計網(wǎng)絡(luò)的預(yù)測能力和感受野;二是采用兩層級聯(lián)深度估計網(wǎng)絡(luò)結(jié)構(gòu)，第一層估計網(wǎng)絡(luò)估計的深度作為特征，輸入到第二層級聯(lián)網(wǎng)絡(luò)中。除了進(jìn)行網(wǎng)絡(luò)創(chuàng)新設(shè)計優(yōu)化，在訓(xùn)練階段也采用深度監(jiān)督、深度補(bǔ)全、損失函數(shù)等優(yōu)化方法。

　　創(chuàng)新突破三四維時空融合

　　對于自動駕駛車輛而言，它所處的環(huán)境更像是一個動態(tài)變化的三維空間。為進(jìn)一步引入車輛所處的動態(tài)中的歷史，通過引入時間信息進(jìn)行時序融合，提升velocity預(yù)測的精度，實現(xiàn)對暫時被遮擋的物體更好的跟蹤效果。對此，浪潮信息AI團(tuán)隊做了以下幾點創(chuàng)新：1、更精細(xì)的時空對齊操作，使前后幀特征結(jié)合的更精確。根據(jù)不同時刻車輛的位姿以及車輛、相機(jī)、Lidar坐標(biāo)系的轉(zhuǎn)換關(guān)系，獲取不同時刻相機(jī)與指定Lidar的坐標(biāo)系的轉(zhuǎn)換關(guān)系，進(jìn)一步減少由于采集車輛自身運動對多幀BEV特征對齊帶來的影響;2、從sweep數(shù)據(jù)幀隨機(jī)選取作為前一幀與當(dāng)前幀進(jìn)行匹配，大幅地增強(qiáng)數(shù)據(jù)的多樣性;3、不同時序幀同步進(jìn)行數(shù)據(jù)樣本貼圖增強(qiáng)，使得速度、轉(zhuǎn)向等預(yù)測更精準(zhǔn)。

　　致勝NuScenes自動駕駛評測

　　本次浪潮DABNet4D算法所登頂?shù)淖詣玉{駛NuScenes榜單，其數(shù)據(jù)集包含波士頓和新加坡兩大城市收集的大約15小時的駕駛數(shù)據(jù)，覆蓋了城市、住宅區(qū)、郊區(qū)、工業(yè)區(qū)各個場景，也涵蓋了白天、黑夜、晴天、雨天、多云等不同時段不同天氣狀況。數(shù)據(jù)采集傳感器包括了6個相機(jī)、1個激光雷達(dá)、5個毫米波雷達(dá)、以及GPS和IMU，具備360°的視野感知能力。

　　NuScenes數(shù)據(jù)集提供二維、三維物體標(biāo)注、點云分割、高精地圖等豐富的標(biāo)注信息。目前，基于NuScenes數(shù)據(jù)集的評測任務(wù)主要包括3D目標(biāo)檢測(3D object Detection)、3D目標(biāo)跟蹤(3D object Tracking)、預(yù)測軌跡(prediction trajectories)、激光雷達(dá)分割(Lidar Segmentation)、全景分割和跟蹤(lidar Panoptic segmentation and tracking)。其中3D目標(biāo)檢測任務(wù)備受研究者關(guān)注，自從NuScenes挑戰(zhàn)賽公開以來至今，已提交220余次結(jié)果。

　　浪潮DABNet4D算法在訓(xùn)練與評測過程中使用的底層硬件支撐是浪潮NF5488A5 AI服務(wù)器。開發(fā)過程中，模型在訓(xùn)練集上進(jìn)行單次訓(xùn)練運行 20 個 epochs(without CBGS)，需要耗費約360 個 GPU 小時。

　　而為了滿足此類算法超高的AI算力需求，浪潮信息提供集群解決方案，采用 Spine-Leaf 的結(jié)構(gòu)進(jìn)行節(jié)點擴(kuò)展，集成超 2000 GPU 卡集群，達(dá)到 90% 的擴(kuò)展性。同時，該評測也是在 AIStation 的平臺基礎(chǔ)上進(jìn)行開發(fā)，有效加速了浪潮DABNet4D算法的開發(fā)與訓(xùn)練。

　　自動駕駛技術(shù)發(fā)展撬動AI算力需求爆發(fā)

　　自動駕駛技術(shù)感知路線之爭一直是行業(yè)關(guān)注的焦點，雖然特斯拉純視覺方案在業(yè)內(nèi)獨領(lǐng)風(fēng)騷，但多傳感融合方案被業(yè)內(nèi)視為實現(xiàn)自動駕駛安全冗余的關(guān)鍵手段。

　　為了更好的衡量3D檢測效果，其評價指標(biāo)已經(jīng)從原來的2D的AP已經(jīng)逐漸變?yōu)锳P-3D和AP-BEV。在數(shù)據(jù)集的選擇上也從KITTI逐漸變?yōu)楦蠛透鄻拥腘uScenes數(shù)據(jù)集。

　　未來，基于LiDAR、相機(jī)等多源感知融合算法將有力地提升模型的檢測精度，同時，Occupancy network、Nerf等先進(jìn)算法模型也會逐步應(yīng)用于自動駕駛感知模型的開發(fā)與訓(xùn)練中。

　　自動駕駛數(shù)據(jù)量急劇增大、自動駕駛感知模型復(fù)雜度逐步提升，以及模型更新頻率逐漸加快，都將推動自動駕駛的蓬勃發(fā)展，也必然帶來更大的模型訓(xùn)練算力需求。

免責(zé)聲明：

※ 以上所展示的信息來自媒體轉(zhuǎn)載或由企業(yè)自行提供，其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本網(wǎng)站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本網(wǎng)站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。如果以上內(nèi)容侵犯您的版權(quán)或者非授權(quán)發(fā)布和其它問題需要同本網(wǎng)聯(lián)系的，請在30日內(nèi)進(jìn)行。
※ 有關(guān)作品版權(quán)事宜請聯(lián)系中國企業(yè)新聞網(wǎng)：020-34333079 郵箱：cenn_gd@126.com 我們將在24小時內(nèi)審核并處理。

分享到：

[責(zé)任編輯：姚小冰]