《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計(jì)應(yīng)用 > 基于深度注意力的融合全局和語義特征的圖像描述模型
基于深度注意力的融合全局和語義特征的圖像描述模型
網(wǎng)絡(luò)安全與數(shù)據(jù)治理
及昕浩,彭玉青
(河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津300401)
摘要: 現(xiàn)有的圖像描述模型使用全局特征時(shí)受限于感受野大小相同,而基于對(duì)象區(qū)域的圖像特征缺少背景信息。為此,提出了一種新的語義提取模塊提取圖像中的語義特征,使用多特征融合模塊將全局特征與語義特征進(jìn)行融合,使得模型同時(shí)關(guān)注圖像的關(guān)鍵對(duì)象內(nèi)容信息和背景信息。并提出基于深度注意力的解碼模塊,對(duì)齊視覺和文本特征以生成更高質(zhì)量的圖像描述語句。所提模型在Microsoft COCO數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)評(píng)估,分析結(jié)果表明該方法能夠明顯提升描述的性能,相較于其他先進(jìn)模型具有競爭力。
中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:ADOI: 10.19358/j.issn.2097-1788.2024.02.008
引用格式:及昕浩,彭玉青.基于深度注意力的融合全局和語義特征的圖像描述模型[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2024,43(2):49-53.
Deep attention based image caption model with fusion of global and semantic feature
Ji Xinhao,Peng Yuqing
(School of Artificial Intelligence, Hebei University of Technology, Tianjin 300401,China)
Abstract: Aiming at the problems that existing image caption generation models face limitations when utilizing global features due to the fixed receptive field size, and object region based image features lack background information, an image caption model(DFGS) is proposed. A multifeature fusion module is designed to fuse global and semantic feature, allowing the model to focus on key object and background information in the image. A deep attentionbased decoding module is designed to align visual and textual features, enhancing the generation of higher quality image description statements. Experimental results on MSCOCO dataset show that the proposed model can produce more accurate captions, and is competitive compared with other advanced models.
Key words : image caption; global feature; semantic feature; feature fusion

引言

圖像描述[1-2]是一種使用自然語言描述圖像內(nèi)容的任務(wù),是一項(xiàng)涉及計(jì)算機(jī)視覺領(lǐng)域和自然語言處理領(lǐng)域的跨領(lǐng)域研究內(nèi)容。目前大多數(shù)方法使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)編碼圖像以提取圖像特征,然后使用Transformer網(wǎng)絡(luò)結(jié)構(gòu)來解析圖像特征并生成描述語句。Pan等人[3]提出了XLinear注意力塊來捕獲單或多模態(tài)之間的二階相互作用,并將其集成到Transformer編碼器和解碼器中。Cornia等人[4]在Transformer編碼器和解碼器中設(shè)計(jì)了類似網(wǎng)格的連接,以利用編碼器的低級(jí)和高級(jí)特征。多數(shù)研究者針對(duì)Transformer網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),沒有關(guān)注CNN提取到的圖像特征其對(duì)應(yīng)的感受野是均勻的網(wǎng)格,難以明顯地關(guān)注圖像中對(duì)象內(nèi)容信息的問題。此外Transformer模型中的注意力機(jī)制僅僅是隱式地計(jì)算單個(gè)區(qū)域和其他區(qū)域的相似性,無法捕捉長距離的關(guān)系。


作者信息:

及昕浩,彭玉青

(河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津300401)


文章下載地址:http://www.jysgc.com/resource/share/2000005902


weidian.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 一区二区三区免费在线观看 | 99国产精品永久免费视频| 手机国产乱子伦精品视频| 亚洲2022国产成人精品无码区 | 国产成人一区二区三区高清| 182tv精品视频在线播放| 够够了太深了h1v3| 一本大道香蕉大vr在线吗视频| 文轩探花高冷短发| 久久亚洲精品成人777大小说| 最新版天堂中文在线官网| 国产精品成人va| aaaaa级毛片| 好男人在线社区www影视下载| 亚洲Av鲁丝一区二区三区| 欧美日韩**字幕一区| 亚洲精彩视频在线观看| 男人把女人桶爽30分钟一| 公洗澡时强要了| 精品无码一区二区三区在线| 国产AV无码专区亚洲AV漫画| 菠萝蜜视频在线看| 国产午夜无码片在线观看| 黄色大片免费网站| 国产日韩成人内射视频| 色综合综合色综合色综合| 国产精品亚欧美一区二区三区| 69免费视频大片| 成年人免费网站在线观看| 久久久久亚洲av成人网人人软件| 日韩伦人妻无码| 久久精品这里热有精品| 最好看免费中文字幕2019| 亚洲AV综合色区无码二区偷拍| 欧美aⅴ菲菲影视城视频| 人成免费在线视频| 福利区在线观看| 免费在线观看污| 蜜桃麻豆www久久囤产精品| 国产免费人视频在线观看免费| 香蕉视频好色先生|