12月9日消息,在近日舉行的2025 年IEEE 國際電子會議(IEDM)上,比利時微電子研究中心(imec)發布了首篇針對3D 高帶寬內存(HBM)與圖形處理器(GPU)堆疊元件(HBM-on-GPU)的系統技術協同優化(STCO)熱學研究。通過完整熱模擬研究,識別了散熱瓶頸,并提出策略來提升該架構散熱可行性。
imec表示,通過整合技術和系統級調節策略(相當于目前的2.5D整合技術),在達成AI訓練工作負荷下,GPU的最高溫度可能從140.7°C降到70.8°C。這項研究結果展示結合跨層優化(也就是協同優化在所有不同抽象層上的開關)與廣泛技術專業所帶來的優勢。
imec指出,為直接在GPU上方整合HBM堆疊,提供一套具吸引力的方法來建立新一代計劃架構,可以滿足數據密集型的AI工作負荷。相較于在硅中介層上將HBM堆疊置于(單顆或兩顆)GPU附近的現行2.5D整合技術,這種HBM與GPU堆疊的3D整合有望在計算密度(每封裝包含四顆GPU)、每顆GPU的內存容量及GPU內存帶寬方面跨出一大步。然而,積極的3D整合方法因為具備更高的局部功率密度及垂直方向的熱阻,因而容易產生散熱問題。

▲ 整合方法(a)目前的2.5D方案與(b)HBM與GPU堆疊的3D提案
imec強調,這套模型假設四個HBM堆疊——每個HBM堆疊包含12顆異質接合的DRAM芯粒,利用凸塊直接放在GPU上方。散熱位在這些HBM的上方。通過取自產業相關功率曲線的功率圖來識別局部熱點,并與2.5D堆疊基線進行比對。不采用熱調節策略時,3D模型產生141.7°C的GPU峰值溫度遠高于GPU和HBM的運作溫度,而在相同的散熱條件下,2.5整合的基準測試最高溫度落在可維持運作的69.1°C。
imec基于這些數據來著手評估技術和系統級熱調節策略兩者所產生的共同影響。系統級策略包含HBM堆疊合并與矽材散熱優化等等。系統級方面,評估了雙面降溫與GPU頻率調整的影響,以實現最終的散熱改進。
imec系統技術協同優化(STCO)研究計劃主持人James Myers表示,“將GPU核心頻率減半成功把峰值溫度從120°C降到100°C以下(可以降到70.8°C),達到內存可以正常運行的目標。雖然這一步會增加28%的工作負荷,也就是放緩AI訓練步驟,但整體封裝的表現勝過2.5D基線測試,這歸功于3D設置所提供的更高通量密度。我們正在利用這套方法來研究其他GPU/HBM配置,例如把GPU放在HBM上方,以預料未來的熱學限制。”

▲ 采用系統技術協同優化(STCO)的累積熱調節成效。
imec邏輯芯片技術研發副總Julien Ryckaert表示:“這也是我們第一次展示imec跨技術協同優化(XTCO)研究計畫在建立更具備熱穩健度之運算系統的能力。 XTCO計劃于2025年展開,目標是促使imec的技術發展途徑與關鍵的業界系統升級挑戰能夠高效密切配合,該計劃也奠基于四大系統級支柱:運算密度、供電、散熱,以及記憶體密度和頻寬。結合了我們的系統技術協同優化(STCO)/設計技術協同優化(DTCO)思維與imec廣泛的技術專業,這種獨特整合在應對運算系統需求的成長及多樣化方面提供寶貴價值。我們邀請整個半導體生態系內的企業加入我們的跨技術協同優化計畫,包含無晶圓廠與系統廠商,并攜手克服關鍵的系統升級瓶頸。”

