《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 設計應用 > 二值VGG卷積神經網絡加速器優化設計
二值VGG卷積神經網絡加速器優化設計
2021年電子技術應用第2期
張旭欣,張 嘉,李新增,金 婕
上海工程技術大學 電子電氣工程學院,上海201600
摘要: 基于FPGA的二值卷積神經網絡加速器研究大多是針對小尺度的圖像輸入,而實際應用主要以YOLO、VGG等大尺度的卷積神經網絡作為骨干網絡。通過從網絡拓撲、流水線等層面對卷積神經網絡硬件進行優化設計,從而解決邏輯資源以及性能瓶頸,實現輸入尺度更大、網絡層次更深的二值VGG神經網絡加速器。采用CIFAR-10數據集對基于FPGA的VGG卷積神經網絡加速器優化設計進行驗證,實驗結果表明系統實現了81%的識別準確率以及219.9 FPS的識別速度,驗證了優化方法的有效性。
中圖分類號: TN402;TP183
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.201207
中文引用格式: 張旭欣,張嘉,李新增,等. 二值VGG卷積神經網絡加速器優化設計[J].電子技術應用,2021,47(2):20-23.
英文引用格式: Zhang Xuxin,Zhang Jia,Li Xinzeng,et al. Optimization design of binary VGG convolutional neural network accelerator[J]. Application of Electronic Technique,2021,47(2):20-23.
Optimization design of binary VGG convolutional neural network accelerator
Zhang Xuxin,Zhang Jia,Li Xinzeng,Jin Jie
College of Electronic and Electrical Engineering,Shanghai University of Engineering Science,Shanghai 201600,China
Abstract: Most of the existing researches on accelerators of binary convolutional neural networks based on FPGA are aimed at small-scale image input, while the applications mainly take large-scale convolutional neural networks such as YOLO and VGG as backbone networks. The hardware of convolutional neural network is optimized and designed from the two aspects including the network topology and pipeline stage, so as to solve the bottleneck of logic resources and improve the performance of the binary VGG network accelerator. CIFAR-10 dataset resized to 224×224 was used to verify the optimized design of VGG convolutional neural network accelerator based on FPGA. Experimental results showed that the system achieved 81% recognition accuracy and 219.9 FPS recognition speed,which verified the effectiveness of the optimization method.
Key words : optimization design;binary convolutional neural network;FPGA accelerator

0 引言

    深度卷積神經網絡(Convolutional Neural Network,CNN)已經成為了當前計算機視覺系統中最有前景的圖像分析方法之一。

    近年來,隨著Binary-Net、Dorefa-Net、ABC-Net等[1-3]低精度量化神經網絡的深入研究,越來越多的研究集中于在FPGA硬件中構建定制的加速器結構,實現CNN的加速[4]。基于FPGA的低精度量化神經網絡實現主要可分為兩類:流架構[5-6]和層架構[7-8]。其中,由于流架構實現了流水線化,每個階段都可以獨立處理輸入且可以針對CNN逐層設計并優化相應層的加速運算單元,因此擁有更高的吞吐率和更低的延遲以及內存帶寬,但其邏輯資源等消耗也相當可觀。因此,現有的基于流架構實現的二值神經網絡加速器研究大多是針對32×32尺度MNIST數據集等小尺度的圖像輸入。而實際應用中更多使用如448×448尺度的YOLO、224×224尺度的VGG等作為骨干網絡,一方面,大尺度輸入的網絡結構參數量往往較大(以VGG為例,其參數量大約500 MB),高端FPGA的片上內存容量也僅32.1 Mb左右,這對FPGA實現CNN加速將是資源瓶頸。即使采用低精度量化策略,FPGA有限的片上內存資源仍捉襟見肘。另一方面,雖然各層運算單元可以得到特定優化,然而由于網絡拓撲結構限制,往往各層網絡很難實現計算周期的匹配,從而造成推斷性能難以進一步提高。針對基于流架構的二值卷積神經網絡加速器設計存在的資源與性能的瓶頸,本文以224×224尺度的VGG-11網絡加速器設計為例,重點研究了大尺度的二值卷積神經網絡硬件加速器設計、優化及驗證,主要工作如下:

    (1)針對大尺度流架構的二值VGG卷積神經網絡加速器設計存在的資源與性能瓶頸,提出了網絡模型優化和流水線優化的方法。

    (2)設計并優化了224×224尺度的基于流架構的二值VGG卷積神經網絡加速器。實驗表明基于FPGA平臺實現了81%的準確率,219.9 FPS的識別速度,相較于同類型的加速器識別速度最高提升了33倍。




本文詳細內容請下載:http://www.jysgc.com/resource/share/2000003365




作者信息:

張旭欣,張  嘉,李新增,金  婕

(上海工程技術大學 電子電氣工程學院,上海201600)

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 男人j进女人p免费视频不要下载的 | 拨牐拨牐x8免费| 亚洲一区免费视频| 波多野结衣有一部紧身裙女教师| 动漫无遮挡在线观看| 色狠狠一区二区| 国产在线视频不卡| 久久久久777777人人人视频| 国产精品污WWW在线观看| 99精品众筹模特私拍在线| 小嫩妇又紧又嫩好紧视频| 中文字幕水野优香在线网在线| 日韩中文在线播放| 亚洲av无码一区二区三区鸳鸯影院 | 1213孕videos俄罗斯| 在电影院嗯啊挺进去了啊视频| www.com日本| 巨大一下一寸挤进校花| 中文字幕日韩一区二区三区不卡 | 两个人日本WWW免费版| 日本免费一级片| 久久精品亚洲欧美日韩久久| 樱花草在线播放免费| 亚洲另类激情综合偷自拍图| 欧美精品videosex极品| 亚洲精品一区二区三区四区乱码| 男人j放进女人j网站免费| 免费无码成人AV片在线在线播放| 精品国产一区二区二三区在线观看| 四虎影视永久地址四虎影视永久地址www成人 | 国产精品黄网站| 91福利在线视频| 在厨房被强行侵犯中文字幕| ?1000部又爽又黄无遮挡的视频| 女人让男人桶app免费大全| 一本岛v免费不卡一二三区| 成人三级k8经典网| 不卡精品国产_亚洲人成在线| 成人短视频完整版在线播放| 中文字幕热久久久久久久| 无码综合天天久久综合网|