《電子技術應用》
您所在的位置:首頁 > 人工智能 > 設計應用 > 融合對象和多尺度視覺特征的遙感圖像描述模型
融合對象和多尺度視覺特征的遙感圖像描述模型
網絡安全與數據治理 6期
賈亞敏,陳 姣,彭玉青
(河北工業大學 人工智能與數據科學學院,天津300401)
摘要: 基于遙感圖像多尺度、無法準確提取微小物體、物體類別易混淆的問題,提出了一種融合對象和多尺度視覺特征的遙感圖像描述模型(Fusion of Object and Multiscale Visual Feature,FO-MSV),通過構建的對象提取器分析文本信息,提取其中的對象信息;設計了一種多尺度交互模塊,獲取遙感圖像的多尺度視覺特征,以適應多尺度的特點;為了充分利用對象信息并融合視覺信息,提出了一種新的對象-視覺特征融合機制,調整視覺上下文和對象上下文之間的平衡?;谠擃I域內三個數據集的實驗結果表明,該模型能明顯提升描述的性能,與其他先進模型相比具有競爭力。
中國分類號: TP391
文獻標識碼: A
DOI: 10.19358/j.issn.2097-1788.2022.06.011
引用格式: 賈亞敏,陳姣,彭玉青. 融合對象和多尺度視覺特征的遙感圖像描述模型[J].網絡安全與數據治理,2022,41(6):78-83,89.
Remote sensing image caption model with fusion of object and multiscale visual feature
Jia Yamin,Chen Jiao,Peng Yuqing
(School of Artificial Intelligence,Hebei University of Technology,Tianjin 300401,China)
Abstract: Aiming at the problems that remote sensing image has multiscale features and the object categories are easy to be confused, cannot accurately extract the tiny objects from images, a new remote sensing image caption model(FO-MSV) is proposed, which analyzes the text information through the constructed object extractor, to extract the object information. A multiscale interaction module is designed to obtain the multiscale visual features of remote sensing images to adapt to the characteristics of multiscale. In order to make full use of object information and fuse visual information, a new object-visual feature fusion mechanism is proposed to adjust the balance between visual context and object context. Experimental results on three datasets show that the proposed model can significantly improve the performance of captions and is competitive compared with other advanced models.
Key words : image caption;remote sensing image;multiscale feature;object information;visual information;feature fusion

0 引言

圖像描述是旨在從語義層面上對圖像進行總結。遙感圖像是利用遙感技術從高空獲取的圖像,遙感圖像描述(Remote Sensing Image Caption,RSIC)是上述兩個領域的結合,旨在為指定的遙感圖像生成綜合性的文本描述,在交通指揮、地理研究等領域[1]具有廣泛的應用前景,已成為新興的研究熱點。遙感圖像描述的實現最初沿用了圖像描述的編碼器-解碼器模型[2],隨后提出了許多模型來解決不同的問題,多數研究使用卷積神經網絡(Convolutional Neural Networks,CNN)作為編碼器提取圖像特征,但CNN卷積層的輸出特征所對應的感受野都是大小和形狀相同的均勻網格,因此僅利用CNN提取的圖像特征容量有限,難以識別圖像中的微小物體,且由于拍攝角度問題,遙感圖像中存在一些多義和易混淆物體,不易區分。

為解決上述問題且適應遙感圖像場景多尺度的特點,本文提出了融合對象和多尺度視覺特征的遙感圖像描述模型(Fusion of Object and Multiscale Visual Feature,FO-MSV)。該模型構建對象提取器(Object Extractor,OE)利用指針生成網絡[3]得到的整合描述提取對象信息以避免遺漏微小物體。同時提出了一種新的多尺度交互模塊(Multiscale Interaction Module,MSCM)來獲取圖像的多尺度視覺特征適應多尺度的特點。此外,設計一種新的對象-視覺融合機制(Object-Visual Fusion Mechanism,ovFM)來利用對象信息并融合多尺度視覺信息避免出現識別對象錯誤的問題,且改善了長短時記憶網絡(Long Short Term Networks,LSTM)的結構,稱為多輸入LSTM(Multi-Input LSTM,I_LSTM)。



本文詳細內容請下載:http://www.jysgc.com/resource/share/2000005064




作者信息:

賈亞敏,陳  姣,彭玉青

(河北工業大學 人工智能與數據科學學院,天津300401)


微信圖片_20210517164139.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 欧美色欧美亚洲高清在线观看| 一二三四国语在线观看视频| 粉色视频成年免费人15次| 国产在线乱码在线视频| jizz在线播放| 日本高清乱理伦片| 亚洲乱码无码永久不卡在线| 欧美黑人两根巨大挤入| 免费五级在线观看日本片| 黑人巨茎大战俄罗斯美女| 天天干天天干天天干天天干天天干| 亚洲18在线天美| 狠狠躁日日躁夜夜躁2020| 午夜神器成在线人成在线人免费| 视频一区中文字幕| 国产精品露脸国语对白| 三级韩国床戏3小时合集| 欧美三级全部电影观看| 免费在线观看黄色毛片| 美女被吸屁股免费网站| 国产精品怡红院在线观看| 久久99亚洲网美利坚合众国| 欧美天堂在线观看| 亚洲精品中文字幕无码av| 色之综合天天综合色天天棕色 | 女人张开腿让男人插| 一进一出动态图| 成人综合激情另类小说| 亚洲va乱码一区二区三区| 欧美日韩一区二区不卡三区| 亚洲欧美日韩人成| 欧美野性肉体狂欢大派对| 亚洲精品日韩专区silk| 美女把尿口扒开让男人桶| 国产一级特黄aaa大片| 你懂的视频在线播放| 奇米影视第四色在线| 一区二区在线免费视频| 强迫的护士bd在线观看| 久久久无码精品亚洲日韩按摩| 欧美大BBBBBBBBBBBB|