浪潮信息：自動(dòng)駕駛多攝像頭BEV場(chǎng)景表示論文入選CVPR 2022

浪潮信息

2022-07-05 08:55 5647

北京2022年7月4日 /美通社/ -- 近日，在國(guó)際計(jì)算機(jī)與模式識(shí)別會(huì)議CVPR 2022期間，浪潮信息AI團(tuán)隊(duì)提交的論文《Scene Representation in Bird's-Eye View from Surrounding Cameras with Transformers（基于Transformer的多攝像頭BEV場(chǎng)景表示）》成功入選。論文提出了一種基于Transformer的圖像-BEV特征轉(zhuǎn)換框架，能夠生成有效的環(huán)境表示，可以提升自動(dòng)駕駛車輛對(duì)周圍環(huán)境的感知能力。CVPR是計(jì)算機(jī)視覺領(lǐng)域三大世界頂級(jí)會(huì)議之一，今年線下注冊(cè)參會(huì)人數(shù)達(dá)到了5641人。在論文方面，CVPR 2022共收到了8161篇投稿，最終接收了2064篇論文，接收率約為25.3%，論文研究方向涵蓋目標(biāo)檢測(cè)、圖像分割、醫(yī)學(xué)影像、模型壓縮、圖像處理、文本檢測(cè)等。

感知系統(tǒng)是自動(dòng)駕駛車輛的"眼睛"，高效準(zhǔn)確的感知模塊可以提升自動(dòng)駕駛車輛的安全性。相比價(jià)格較為昂貴的激光雷達(dá)設(shè)備，單目攝像頭價(jià)格低廉，且能夠捕捉豐富的環(huán)境信息。近年來(lái)，研究者們提出了鳥視圖（Bird's Eye View map，簡(jiǎn)稱BEV map）來(lái)簡(jiǎn)潔高效地表示車輛周圍環(huán)境信息。直接將每張圖像的檢測(cè)結(jié)果通過(guò)攝像頭參數(shù)轉(zhuǎn)換到BEV下是一種直接、簡(jiǎn)單的鳥瞰圖構(gòu)建方法。然而，如何融合多攝像頭結(jié)果形成統(tǒng)一、穩(wěn)定的環(huán)境表示是十分困難的。

浪潮信息AI團(tuán)隊(duì)研究了如何利用環(huán)形攝像頭陣列來(lái)對(duì)BEV視角的環(huán)境進(jìn)行特征表示。他們?cè)O(shè)計(jì)了一種基于Transformer的編解碼模塊，將圖像特征轉(zhuǎn)換為對(duì)應(yīng)的BEV特征。為驗(yàn)證轉(zhuǎn)換后的BEV特征的有效性，論文引入了三個(gè)分割任務(wù)：車輛分割、道路分割和車道線分割。整個(gè)模型框架如下圖所示，由環(huán)形攝像頭陣列采集的圖像，通過(guò)共享的圖像編碼器得到各種的圖像特征。然后，CBTR（Camera-BEV Transformation）模塊將圖像特征轉(zhuǎn)換為對(duì)應(yīng)的BEV特征。最后，利用生成的BEV特征圖，多個(gè)檢測(cè)頭分別完成各自的分割任務(wù)。

模型架構(gòu)圖

與之前的方法不同，基于Transformer的編解碼結(jié)構(gòu)可以將圖像特征"翻譯"為BEV特征。具體結(jié)構(gòu)如下圖所示。其中，Encoder模塊旨在發(fā)掘不同攝像頭之間的特征關(guān)聯(lián)，Decoder模塊旨在利用局部和全局信息將圖像特征轉(zhuǎn)換為有效的BEV特征。

CBTR模塊流程圖

研究團(tuán)隊(duì)在浪潮AI服務(wù)器NF5488A5上進(jìn)行了框架的訓(xùn)練和測(cè)試。在對(duì)比實(shí)驗(yàn)中，研究團(tuán)隊(duì)在nuScenes數(shù)據(jù)集上對(duì)比了當(dāng)前最好的LS模型，采用相同的輸入圖像配置和圖像特征提取網(wǎng)絡(luò)，測(cè)試結(jié)果證明論文的框架相比LS具有準(zhǔn)確度和速度方面的優(yōu)勢(shì)。此外，這篇論文還進(jìn)行了各種消融實(shí)驗(yàn)，證明相比于機(jī)器學(xué)習(xí)的位置編碼，設(shè)計(jì)的固定編碼方式取得了最優(yōu)的檢測(cè)性能。

本文方法與LS的分割結(jié)果示例對(duì)比

論文探究了圖像特征轉(zhuǎn)換為BEV特征后，進(jìn)一步的BEV編碼模塊和分割任務(wù)模塊的影響，并證實(shí)：轉(zhuǎn)化后的BEV已有較強(qiáng)的編碼能力，只需要輕量的進(jìn)一步編碼即可。同時(shí)，由于不同任務(wù)所關(guān)注的信息不同，更多參數(shù)的任務(wù)頭模塊往往能取得較好的檢測(cè)結(jié)果。

該論文已被CVPR 2022自動(dòng)駕駛研討會(huì)（WAD）接收，CVPR2022 WAD旨在聚集學(xué)術(shù)界和工業(yè)界的研究者和工程師，討論自動(dòng)駕駛感知的最新進(jìn)展。如想進(jìn)一步了解這篇論文，請(qǐng)點(diǎn)擊鏈接https://openaccess.thecvf.com/content/CVPR2022W/WAD/papers/Zhao_Scene_Representation_in_Birds-Eye_View_From_Surrounding_Cameras_With_Transformers_CVPRW_2022_paper.pdf下載全文。

消息來(lái)源：浪潮信息