《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 設計應用 > 基于動態(tài)自適應計算引擎的MobileNetV3網絡加速器設計
基于動態(tài)自適應計算引擎的MobileNetV3網絡加速器設計
電子技術應用
項浩斌1,楊瑞敏1,吳文濤1,李春雷1,董燕1,2
1.中原工學院 信息與通信工程學院;2.電子科技大學 自動化工程學院
摘要: 現有面向高效輕量化MobileNetV3網絡的加速方法通常采用高度定制的計算引擎進行模型計算,從而限制了加速器的可擴展性使其僅適用于小型網絡或資源豐富的硬件平臺。針對此問題,提出了基于動態(tài)自適應計算引擎的MobileNetV3網絡加速器。首先,設計了局部感知區(qū)域卷積的流水線推理架構實現特征、權重的高度并行處理和緩沖調度。其次,提出全局自適應的點卷積方法優(yōu)化點卷積,并結合空間探索獲得最優(yōu)的參數配置以實現最大計算并行性。此外,加速器可以根據模型參數變化動態(tài)配置以適應不同場景。實驗結果顯示加速器推理速度為8 F/s,是現有方法速度的2.7倍。
中圖分類號:TN791;TP183 文獻標志碼:A DOI: 10.16157/j.issn.0258-7998.244918
中文引用格式: 項浩斌,楊瑞敏,吳文濤,等. 基于動態(tài)自適應計算引擎的MobileNetV3網絡加速器設計[J]. 電子技術應用,2025,51(1):8-17.
英文引用格式: Xiang Haobin,Yang Ruimin,Wu Wentao,et al. Design of MobileNetV3 network accelerator based on dynamic adaptive computing engine[J]. Application of Electronic Technique,2025,51(1):8-17.
Design of MobileNetV3 network accelerator based on dynamic adaptive computing engine
Xiang Haobin1,Yang Ruimin1,Wu Wentao1,Li Chunlei1,Dong Yan1,2
1.School of Information and Communication Engineering, Zhongyuan University of Technology; 2.School of Automation Engineering, University of Electronic Science and Technology of China
Abstract: Existing acceleration methods for efficient and lightweight MobileNetV3 networks usually use highly customized computing engines for model calculations, which limits the scalability of the accelerator and makes it only applicable to small networks or resource-rich hardware platforms. To address this problem, this paper proposes a MobileNetV3 network accelerator based on a dynamic adaptive computing engine. Firstly, a pipeline inference architecture of local perception area convolution is designed to achieve highly parallel processing and buffer scheduling of features and weights. Secondly, a global adaptive point convolution method is proposed to optimize point convolution and combine spatial exploration to obtain the optimal parameter configuration to achieve maximum computational parallelism. In addition, the accelerator can be dynamically configured according to model parameter changes to adapt to different scenarios. Experimental results show that the accelerator's inference speed is 8 F/s, which is 2.7 times as fast as existing methods.
Key words : convolutional neural networks;parallel computing;dynamic adaptation;edge devices;hardware acceleration

引言

近年來,卷積神經網絡(Convolutional Neural Network,CNN)在圖像分類[1]、目標檢測[2]、立體視覺[3]等方面得到應用。為了追求更高的分類精度,CNN結構變得越來越復雜,導致密集的計算和頻繁的內存訪問,因此將CNN部署在功耗和資源有限的邊緣設備上面臨著巨大挑戰(zhàn)[4-5]。

最近研究表明,大規(guī)模CNN具有高度的誤差彈性,模型參數和操作具有相當大的冗余[6-7]。因此,為了部署在資源受限的邊緣設備上,相關學者提出模型輕量化的技術,如輕量化網絡設計、剪枝[8]和量化[9]等,在保持精度的前提下降低計算復雜度。其中,MobileNetV3是一種特征提取能力較強的輕量化網絡,它用深度可分離卷積(Depthwise Separable Convolution,DSC)取代傳統(tǒng)的計算密集型標準卷積(Standard Convolution,SC),通過解耦通道維度和空間維度之間的相關性,顯著減少模型的參數量,但是針對高速實時任務,仍需進一步優(yōu)化。

為了應對這一挑戰(zhàn),基于圖形處理單元(Graphics Processing Unit,GPU)、現場可編程門陣列(Field Programmable Gate Array,FPGA)和專用集成電路(Application Specific Integrated Circuit,ASIC)的專用神經網絡加速器已經成為研究熱點[10]。盡管ASIC加速器在性能方面具有優(yōu)勢,但設計和實現時間較長。FPGA在執(zhí)行相同計算負載時能耗較低,比傳統(tǒng)的中央處理器(Central Processing Unit,CPU)和GPU更具節(jié)能優(yōu)勢。因此,近年來FPGA在實現CNN硬件加速器[11-15]方面得到廣泛應用。然而,MobileNetV3基于DSC的架構在內存帶寬方面的瓶頸限制了加速器的性能,導致基于DSC的加速器處理單元(Processing Element,PE)效率較低。為了實現DSC進一步加速,Liu等人[16]設計了深度卷積(Depthwise Convolution,DWC)和點卷積(Pointwise Convolution,PWC)兩種模式的動態(tài)DSC加速器。但該研究中PE配置極其復雜,并需要對逐層數據流進行大量的內存訪問,導致加速效果有限。Light-OPU[17]開發(fā)了高效的軟硬件協(xié)同加速系統(tǒng),在輕量級和標準卷積運算之間共享計算引擎,同時在DSC層計算時,保持較低資源利用率。現有的大多數基于DSC的加速器都采用了平鋪策略來適應芯片上存儲有限的許多特征映射。然而在推理過程中,這種策略產生大量的片外數據傳輸和數據處理,導致延遲和能耗的增加[18-19] 。

此外,為了有效實現基于DSC的CNN的算法,人們提出了許多特定的硬件加速器。Shao等人[20]和Xie等人[21]利用層間特征壓縮技術或模型網絡的稀疏性來減少片上存儲的消耗,而Hsieh 等人[22]和Mrazek等人[23]則通過減少片上存儲的消耗來減輕計算資源的壓力。然而這些加速器大多只關注可重構性和靈活性有限的標準卷積層,這使得它們不能在不同的應用程序和場景中使用新出現的卷積變體。目前基于DSC的加速器采用統(tǒng)一的引擎架構,實現層間和層內并行的靈活控制[24-25],但是這些設計對硬件要求極高,不適用于大型網絡和資源受限的嵌入式平臺。

為了解決上述問題,本文提出一種基于動態(tài)自適應計算引擎硬件加速器,旨在優(yōu)化和改進基于DSC卷積神經網絡,從而實現對MobileNetV3網絡的加速。首先,設計了局部區(qū)域感知卷積的流水線硬件推理架構,通過對局部區(qū)域進行感知,更加精確地定位和處理卷積操作,減少計算量和數據傳輸。其次,提出了高度可配置的動態(tài)自適應計算引擎,可以根據模型結構和計算需求進行靈活的優(yōu)化和配置,以提高計算引擎的利用率和效率,避免了固定配置下的資源浪費和性能瓶頸。最后,采用全局自適應的點卷積方法,減少內存訪問次數,提高計算效率,減少數據傳輸和處理的開銷。


本文詳細內容請下載:

http://www.jysgc.com/resource/share/2000006275


作者信息:

項浩斌1,楊瑞敏1,吳文濤1,李春雷1,董燕1,2

(1.中原工學院 信息與通信工程學院,河南 鄭州 450007;

2.電子科技大學 自動化工程學院,四川 成都 610000)


Magazine.Subscription.jpg

此內容為AET網站原創(chuàng),未經授權禁止轉載。
主站蜘蛛池模板: 国产主播在线观看| 国产视频一区二| 久久久亚洲精品无码| 欧美人与物videos另| 亚洲精品国产精品国自产观看| 精品国内片67194| 国产一区二区三区免费在线观看| 麻豆精产国品一二三产品区| 国产福利91精品一区二区| 91华人在线视频| 在线观看免费av网站| mm1313亚洲精品无码又大又粗| 成人乱码一区二区三区AV| 久久一区二区三区99| 日本高清va不卡视频在线观看| 五十路亲子中出中文字幕| 欧美一级黄色影院| 亚洲国产精品综合久久网络| 毛片免费视频观看| 亚洲色成人www永久网站| 男生肌肌捅女生肌肌视频| 北条麻妃中文字幕免观在线| 美女被免费网在线观看网站| 国产一区免费在线观看| 超薄肉色丝袜一区二区| 国产午夜无码福利在线看网站| 国产极品粉嫩交性大片| 国产激情无码视频在线播放性色| 男女一边摸一边做爽的免费视频 | 亚洲欧美丝袜制服在线| 波多野结衣电影区一区二区三区| 人妻少妇久久中文字幕| 男人精品网站一区二区三区| 在线观看网站污| t66y最新地址一地址二地址三| 性xxxx18免费观看视频| 中国一级毛片视频免费看| 成年在线网站免费观看无广告 | 国产亚洲精品精品国产亚洲综合 | 天堂一码二码专区| a级成人免费毛片完整版|