《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 其他 > FPGA教學——為什么FPGA主頻比CPU慢,但卻可以用來幫CPU加速?

FPGA教學——為什么FPGA主頻比CPU慢,但卻可以用來幫CPU加速?

2022-08-23
來源:FPGA之家
關鍵詞: FPGA CPU

  我們知道,FPGA的頻率一般只有幾百MHz,而CPU的頻率卻高達數GHz。那么,有不少網友心中就有一個疑問:“為什么FPGA主頻比CPU慢,但卻可以用來幫CPU做加速?”。

  今天,EDN就和大家系統性地討論下這個問題。

  將FPGA主頻與CPU相比不妥

  在開始之前,首先要明確一點,將FPGA的主頻與CPU比較,實際是風馬牛不相及的問題。FPGA和CPU是兩種完全不同的器件,前者是專用,是硬件編程,而后者是通用,是軟件編程。

  微信圖片_20220823164532.png

  不同體系結構性能和靈活性的比較。(圖片來源:《如何評價微軟在數據中心使用 FPGA 代替傳統 CPU 的做法?》)

  表面上看,FPGA的時鐘頻率要低;對于通用計算任務,FPGA設計貌似不如CPU設計。但是實際上,單個FPGA的并行度卻比CPU要高得多。FPGA的行為是確定性的,用作硬件加速器沒有時間片、線程或資源沖突的問題。它始終以完全相同的速度執行一件事。因此,如果需要低延遲,那么FPGA就可能是最佳選擇。

  微信圖片_20220823164615.png

  計算密集型任務,CPU、GPU、FPGA、ASIC 的數量級比較(以16位整數乘法為例,數字僅為數量級的估計)(圖片來源:《如何評價微軟在數據中心使用 FPGA 代替傳統 CPU 的做法?》)

  FPGA并行計算機制

  如知乎網友young cc所言,雖然CPU主頻很高,但其是通用處理器,做某個特定運算(如信號處理,圖像處理)可能需要很多個時鐘周期。而FPGA可以通過編程重組電路,直接生成專用電路。加上電路并行性,可能做這個特定運算只需要一個時鐘周期。

  舉例來說,CPU主頻為3GHz,FPGA主頻為200MHz。若做某個特定運算,CPU需要30個時鐘周期,而FPGA只需一個,那么耗時情況是:

  CPU:30/3GHz =10ns;

  FPGA:1/200MHz =5ns。

  可以看到,FPGA做這個特定運算速度比CPU塊,能幫助加速。

  另外,CPU的主頻是加過流水線之后的。比如是15級流水線,則第一條指令執行了15個時鐘周期后才能出結果。

  但是,使用FPGA也不一定總能做加速。

  例如,知乎網友Evan172就表示,使用FPGA做加速,只是在某些強計算和數據處理的方面,因為其硬件電路并行運行和有很多DSP硬核資源供調用的特點,可以工作得更出色。

  FPGA本身也只是輔助角色,起控制的還是CPU本身,所以FPGA并不能代替CPU,只是在完成一件大任務的過程中將某部分任務分解給FPGA可以更好地一起完成任務。在這過程中也會有額外的開銷產生,在某些場合,可能用了FPGA而效果更差也是有的。

  另外,通常說的使用FPGA加速比CPU和GPU省電,是指在完成同樣的任務下,FPGA耗費的電力比起CPU和GPU更少一些。這是相對而言的,并不是說FPGA本身就一定省電。

  一個有趣的例子:數組加法計算

  知乎用戶doing舉了一個很有趣的例子。他指出,假設用FPGA完整實現了CPU,然后再跑軟件的話,的確比CPU慢。問題是FPGA不會那么干,它會直指問題本質,解決問題。

  例如,有兩個數組,其中有256個32位數。現在要把它們對應相加變成一個數組,用CPU寫最快大概是這個樣子:

  r[0] = a[0] + b[0];

  r[1] = a[1] + b[1];

  ...

  r[255] = a[255] + b[255];

  當然也可能會這么寫(在分支預測準確,指令緩存不大的情況下可能更快):

  for (int i = 0; i < 255; i++)

  r[i] = a[i] + b[i];

  對FPGA來說,也可以用上面相同的寫法,不同在于:

  CPU是一個一個加法計算,而FPGA排好邏輯電路,在一個時鐘周期內計算完畢。就算CPU主頻比FPGA快100倍也趕不上啊。話說后來CPU大量的增加SIMD指令,就有點這個意思,不過這相當于提供庫函數,沒那么靈活。

  FPGA的并行是真并行,CPU完全沒得比。CPU如果想并行最多也就是讓多個核并行,但是對于大部分算法實現來說,如上例,多個核之間的同步調度開銷遠遠大于計算開銷,就算多個核之間的調用開銷可以做的很小,一般CPU也就那幾個核,而FPGA只要門足夠,想并行幾路就可以并行幾路。

  所以在做可并行的計算密集型任務時,比如信號處理,網絡傳輸等等FPGA可以幫上忙;但是如果做常見的以串行為主的任務,FPGA的確遠遠比不上CPU。如果要類比的話,有點像似GPU和CPU之間的關系。

  “當年寫Verilog的時候,我就想如果CPU里面自帶一塊FPGA,應用程序程序可以在初始化期間直接燒一段代碼下去,那豈不是很爽。后來,有了能寫shader的3D顯卡...”

  為什么FPGA成為數據中心尖端技術?

  最后再討論一個話題,就是為什么FPGA一直是數據中心領域最尖端的技術?

  有人可能認為,再大的問題(算力)都可以通過堆CPU核心來解決。那么,假設有一臺強大的48核服務器,即使使用非常高端的FPGA,也很難達到相同的吞吐量。而且,FPGA硬件設計還需要由強大的團隊來完成,非常燒錢。

  這時,如果把機會成本和能源效率兩者考慮進去,好處就開始顯現出來了。

  首先來看能源效率。假設這臺48核服務器的功耗為400W并且發熱嚴重,那么就會對數據中心運營不利——能耗和散熱是數據中心運營的兩項最大支出。而將FPGA連接起來只執行一項任務,就可以實現很高的能效而開銷極低。通過正確的設計,可以在實現低功耗的同時獲得高吞吐量。

  其次,機會成本(這個問題不太明顯)。系統中的CPU內核數量就那么多。購買新的內核并且安裝需要花很長時間,而且最好是將通用CPU內核保留用于通用任務(例如虛擬機訂閱)。每個CPU核賣不出去就會燒錢。

  當有任務大量占用CPU時間(例如AI推理)時,FPGA就成為了不錯的選擇。

  一個有關微軟Project Catapult項目當中FPGA的趣事

  當年,微軟必應團隊在其Project Catapult項目中發現,在啟用FPGA時,CPU的總體利用率實際上略有上升。所有的人都感到困惑,因為從直覺來看FPGA應該要減少CPU負載。但是后來他們發現,數據中心的業務流量達到了原來的2倍!由于效率提高,流量實現了兩倍的負載均衡。由此可見FPGA的強大之處。

  總結

  維基百科的相關詞條提到兩點:FPGA的優勢在于其并行特性,有時對于某些應用而言可以使速度明顯變快;可以使用FPGA來對算法中的某些部分加速,也可以在FPGA和通用處理器之間共享部分計算。

  綜上,FPGA有兩個優點:FPGA并行度遠超CPU;CPU是通用電路,FPGA是定制電路。但是也有兩個缺點:開發周期長;并不是所有東西都適合FPGA。

更多信息可以來這里獲取==>>電子技術應用-AET<<

微信圖片_20210517164139.jpg

  作者:趙明燦

   本文來源于EDN電子技術設計



本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 新人本田岬847正在播放| 爱情岛论坛亚洲品质自拍视频网站| 国产精品va在线观看手机版| eeuss影影院www在线播放| 我和岳乱妇三级高清电影| 久久精品国产亚洲av麻豆| 欧美人与动人物姣配xxxx| 亚洲精品无码久久久久久| 粗大挺进朋友孕妇| 啊灬老师灬老师灬别停灬用力 | 日韩人妻系列无码专区| 亚洲一区精品无码| 欧美日韩另类综合| 亚洲福利视频网| 狠狠久久永久免费观看| 偷炮少妇宾馆半推半就激情 | 男人桶女人的肌肌30分| 再深点灬舒服灬太大了网立占| 美女脱个精光让男人桶爽| 国产一级特黄生活片| 阿v视频在线观看| 国产影片中文字幕| 黄色网在线播放| 国产成人亚洲综合网站不卡| 久久综合久久鬼| 国产挤奶水主播在线播放| 日韩爱爱小视频| 国产第一福利影院| 亚洲图片欧美另类| 国产真实伦视频在线观看| 菠萝蜜亏亏带痛声的视频| 国产精品乱码在线观看| 羞羞视频免费网站在线看| 国产精品亚洲精品日韩已方| 18禁男女爽爽爽午夜网站免费| 国产精品特级露脸AV毛片| 5x社区精品视频在线播放18| 国产精品麻豆va在线播放| 6080yy免费毛片一级新视觉| 国产精品第5页| 3d动漫精品啪啪一区二区免费 |