《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業界動態 > 阿里云展示用于大語言模型訓練的自研網絡設計

阿里云展示用于大語言模型訓練的自研網絡設計

2024-07-01
來源:芯智訊

6月29日消息,阿里云近日公布了其專門為訓練大型語言模型(LLM)的超大數據傳輸而創建的以太網網絡設計,并且已在實際業務中使用了 8 個月。

阿里云之所以選擇以太網是出于避免過度依賴少數供應商和利用“整個以太網聯盟的力量實現更快發展”的愿望。這一決定似乎也順應了越來越多廠商開始支持以太網,逃離英偉達NVlink在云端AI互聯上的壟斷。

阿里巴巴的以太網網絡計劃是阿里云高級工程師、網絡研究研究員翟恩南(Ennan Zhai)的GitHub 頁面上披露的。翟恩南發布了一篇論文,該論文將在 8 月份的 SIGCOMM 會議上發表,該會議是美國計算機協會數據通信特別興趣小組的年度聚會。

這篇題為《阿里巴巴 HPN:用于大型語言模型訓練的數據中心網絡》的論文開篇指出,流量云計算流量“……會產生數百萬個小流量(例如低于 10Gbit/秒)”,而大語言模型訓練“會在每個主機上產生少量周期性、突發性的流量(例如 400Gbit/秒)”。

等價多路徑路由是一種常用的通過多條路徑將數據包發送到單個目的地的方法,但它容易出現哈希極化,這種現象會導致負載平衡困難并顯著減少可用帶寬。

阿里云的自制替代方案名為“高性能網絡”(HPN),“通過減少 ECMP 的出現來避免哈希極化,同時也大大減少了路徑選擇的搜索空間,從而使我們能夠精確選擇能夠容納大流量的網絡路徑?!?/p>

HPN 還解決了 GPU 在訓練大型語言模型時需要同步工作的事實,這使得 AI 基礎設施對單點故障很敏感——尤其是機架頂部交換機。

因此,阿里巴巴的網絡設計使用了一對交換機——但不是交換機供應商建議的堆疊配置。

堆滿了卡片

論文解釋稱,阿里云用于大型語言模型訓練的每臺主機都包含 8 個 GPU 和 9 個網絡接口卡 (NIC),每個卡都有一對 200GB/秒的端口。其中一個 NIC 負責處理“后端網絡”上的日常流量。

前端網絡允許主機中的每個 GPU 通過以 400-900GB/秒(雙向)運行的主機內網絡直接與其他 GPU 通信。每個 NIC 服務于單個 GPU(阿里云稱之為“軌道”),這種安排使每個加速器以“專用的 400Gb/秒 RDMA 網絡吞吐量運行,總帶寬為 3.2Tb/秒”。

0.png

論文指出:“這樣的設計旨在最大限度地利用 GPU 的 PCIe 功能(PCIe Gen5×16),從而將網絡發送/接收容量推向極限。”NIC 上的每個端口都連接到不同的機架頂部交換機,以避免單點故障。

阿里云表示傾向于使用以太網,這對于 AMD、博通、思科、谷歌、HPE、英特爾、Meta 和微軟來說無疑是個好消息。所有這些供應商最近都加入了Ultra Accelerator Link (UALink)聯盟,旨在挑戰英偉達的 NVlink 網絡業務。

英特爾和 AMD 表示,該聯盟以及Ultra Ethernet等其他先進網絡項目代表了一種更好的 AI 工作負載網絡化方式,因為從長遠來看,開放標準總是會獲勝,因為它們使創新變得更加容易。

不過,盡管阿里云的 NPM 設計基于以太網,但它仍然有使用英偉達的技術。這家英偉達的 NVlink 用于主機內網絡(帶寬比主機間網絡更大),并且還采用了“軌道優化”設計方法,即每個網絡接口卡都連接到不同的機架頂部交換機組。

阿里巴巴的單芯片交換機統治地位

這篇論文還多次提到阿里云的架頂式交換機中有一個“51.2Tb/秒以太網單芯片交換機(于 2023 年初首次發布)”。有兩款設備符合這一描述:博通的Tomahawk ASIC于 2023 年 3 月出貨,思科的G200于同年 6 月上市。提到“2023 年初”似乎表明阿里云選擇了博通的解決方案。

無論阿里巴巴交換機的內部情況如何,該論文表明中國云計算公司偏愛單芯片驅動的交換機。

論文指出:“目前已經出現了支持更高帶寬容量的多芯片機箱交換機”,并指出“阿里云在運營數據中心網絡的長期經驗表明,多芯片機箱交換機比單芯片交換機帶來更多的穩定性風險?!?/p>

據透露,該公司的單芯片交換機數量是多芯片交換機的 32.6 倍。而這些多芯片交換機發生嚴重硬件故障的概率是單芯片交換機的 3.77 倍。

需要 DIY 散熱器

雖然阿里云推崇單芯片交換機,并且很享受其采用的 51.2Tbit/秒設備的吞吐量是之前設備的兩倍,同時功耗僅增加 45% 這一事實,但新款設備的運行溫度并不比之前的產品低。

如果芯片溫度超過 105°C,交換機可能會關閉。阿里云找不到能夠提供能夠將芯片溫度保持在 105°C 以下的冷卻系統的交換機供應商。因此它創建了自己的蒸汽室散熱器。

論文解釋道:“通過優化燈芯結構并在芯片中心部署更多的燈芯柱,熱量可以更有效地傳導?!?/p>

數據中心設計披露

以上所有設備都內置于每個容納 15,000 個 GPU 的“艙室”中,每個艙室都位于一個數據中心建筑內。

論文透露:“阿里云所有投入使用的數據中心建筑的總功率約束為 18MW,而一棟 18MW 的建筑可容納約 15K 個 GPU”,并補充道,“與 HPN 結合,每棟建筑都可以完美容納整個 Pod,從而在同一棟建筑內形成主要的鏈接。”

大樓內的所有光纖長度均在100米以內,從而可以“使用成本較低的多模光纖收發器(與單模光纖收發器相比,成本降低70%)?!?/p>

但事情并非全是美好的:論文承認“HPN 引入了額外的設計……使得布線變得更加復雜。”

“特別是在構建 HPN 的初期,現場工作人員會犯很多接線錯誤?!边@意味著需要進行額外的測試。

論文還指出,單個以太網芯片的轉發容量每兩年翻一番。因此,阿里云已經在“設計配備更高容量單芯片交換機的下一代網絡架構”。

“我們在下一代數據中心的土地建設規劃中,對單棟建筑的總功率約束進行了調整,以覆蓋更多的GPU,這樣新數據中心交付時,就可以直接配備102.4Tbit/sec的單片交換機和下一代HPN?!?/p>

論文還指出,訓練具有數千億個參數的 LLM“依賴于大規模分布式訓練集群,通常配備數千萬個 GPU”。

阿里云自己的 Qwen 模型有一個經過 1100 億個參數訓練的變體——這意味著它有大量使用 NPM 的 pod,以及數百萬個生產中的 GPU。隨著其模型和數據中心變得越來越大、越來越多,它還需要更多。


Magazine.Subscription.jpg

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美一区二区| 欧美午夜电影完整版| 亚洲午夜激情免费视频| 亚洲人成人一区二区在线观看 | 亚洲综合色丁香婷婷六月图片| 亚洲精品视频啊美女在线直播| 亚洲大胆视频| 亚洲国产精品免费| 亚洲激情成人网| 亚洲国产精品专区久久| 揄拍成人国产精品视频| 一区二区在线观看av| 一区二区亚洲| 91久久国产综合久久91精品网站| 91久久在线| 亚洲毛片在线| 中文亚洲免费| 亚洲欧美另类中文字幕| 翔田千里一区二区| 久久精品99国产精品日本| 亚洲国产精品传媒在线观看 | 亚洲午夜女主播在线直播| 一区二区三区精品久久久| 一区二区三区四区蜜桃| 亚洲视频欧美视频| 亚洲影音一区| 欧美一区二区黄| 久久精品水蜜桃av综合天堂| 最新国产乱人伦偷精品免费网站 | 国产一区欧美| 很黄很黄激情成人| 亚洲福利视频二区| 亚洲人久久久| 亚洲深夜激情| 欧美专区日韩视频| 亚洲精品国产系列| 亚洲视频在线观看免费| 亚洲欧美日韩在线观看a三区 | 国产一区在线观看视频| 亚洲福利视频网| 一区二区三区 在线观看视频| 亚洲欧美网站| 亚洲欧洲日韩在线| 亚洲一区日本| 久久久精品一区| 欧美国产日韩在线| 国产精品久久91| 黄色一区二区三区| 99re6这里只有精品视频在线观看| 中文日韩电影网站| 久久精品免视看| 在线视频欧美精品| 久久久精品2019中文字幕神马| 欧美成人午夜剧场免费观看| 国产精品美女久久久久久2018| 国产一区二区久久久| 亚洲人成在线播放网站岛国| 亚洲综合视频一区| 亚洲精品视频啊美女在线直播| 亚洲欧美视频| 欧美成人一区在线| 国产精品亚洲综合色区韩国| 一区二区三区我不卡| 在线中文字幕日韩| 亚洲激情不卡| 欧美一区二区三区日韩视频| 欧美激情亚洲精品| 国产欧美日韩在线视频| 亚洲欧洲另类国产综合| 欧美亚洲色图校园春色| 日韩一区二区久久| 久久久91精品国产| 欧美日韩视频免费播放| 国产一区二区三区精品久久久| 亚洲精品久久久久久下一站 | 欧美在线三区| 欧美激情综合网| 国产欧美视频一区二区| 亚洲国产经典视频| 亚洲欧美日本伦理| 一区二区三区你懂的| 久久先锋资源| 国产精品xxx在线观看www| 激情综合久久| 午夜精品久久久久久99热软件| 亚洲理伦在线| 久久欧美中文字幕| 国产精品久久久久久模特| 亚洲成人资源网| 亚久久调教视频| 亚洲一区二区综合| 欧美黄色影院| 一区久久精品| 午夜日韩在线| 亚洲欧美一区二区三区在线| 欧美激情网友自拍| 好看不卡的中文字幕| 亚洲欧美日韩视频一区| 在线综合+亚洲+欧美中文字幕| 蜜桃久久精品一区二区| 国产情人节一区| 亚洲天堂成人在线观看| 一本色道精品久久一区二区三区 | 亚洲一二三区视频在线观看| 日韩视频免费在线| 麻豆成人在线播放| 国精品一区二区三区| 亚洲欧美在线网| 亚洲免费在线| 香蕉成人久久| 国产精品久久一卡二卡| 99精品视频一区二区三区| 亚洲六月丁香色婷婷综合久久| 久久亚洲影院| 国产在线一区二区三区四区| 亚洲欧美一区二区三区久久| 亚洲视频一区| 欧美视频二区| 99精品国产热久久91蜜凸| 一区二区不卡在线视频 午夜欧美不卡在| 久久一区国产| 怡红院av一区二区三区| 午夜精品一区二区三区电影天堂 | 久久久久久色| 国产一区二区三区在线播放免费观看| 亚洲永久精品大片| 午夜激情一区| 国产精品一区一区三区| 亚洲欧美日本在线| 欧美在线视屏| 国产亚洲欧美一区二区| 欧美影院一区| 久久综合五月天婷婷伊人| 欧美视频亚洲视频| 亚洲视频网站在线观看| 亚洲欧美国产高清va在线播| 国产精品久久久久久久第一福利| 一区二区三区四区五区在线| 亚洲欧美中文字幕| 国产精品自拍在线| 欧美一区激情| 免费成年人欧美视频| 亚洲国产日韩欧美综合久久 | 日韩亚洲在线观看| 欧美日韩国产一区二区三区| 99视频有精品| 亚洲欧美日韩国产另类专区| 国产美女精品人人做人人爽| 久久精品国产亚洲精品| 欧美14一18处毛片| 亚洲精品少妇30p| 亚洲免费一区二区| 国产午夜精品久久久久久久| 亚洲国产精品久久| 欧美日韩国产页| 亚洲免费在线电影| 久久免费视频观看| 亚洲国产日韩欧美一区二区三区| 一区二区三区国产在线观看| 欧美二区在线| 亚洲网站在线| 久久久久久久精| 亚洲国产另类久久精品| 亚洲一区二区在线免费观看视频| 国产亚洲免费的视频看| 亚洲日本电影在线| 国产精品黄视频| 久久激情网站| 欧美日韩免费区域视频在线观看| 亚洲在线黄色| 欧美激情视频一区二区三区在线播放 | 亚洲一区二区三区在线| 久久综合狠狠综合久久综青草| 亚洲精品日日夜夜| 欧美在线www| 亚洲人成免费| 欧美亚洲系列| 亚洲高清视频在线观看| 亚洲欧美卡通另类91av| 影音欧美亚洲| 亚洲欧美在线一区| 亚洲电影在线免费观看| 亚洲欧美视频一区二区三区| 一区二区三区在线免费视频| 亚洲主播在线观看| 精品不卡视频| 西瓜成人精品人成网站| 亚洲国产精品成人一区二区 | 最近看过的日韩成人| 国产精品你懂的在线欣赏| 亚洲国产mv| 国产乱码精品| 一区二区高清在线| 狠狠久久亚洲欧美专区| 亚洲一区免费看| 亚洲国产精品综合| 久久裸体艺术| 午夜精品久久久久久久久久久| 欧美精品一区二区蜜臀亚洲 | 亚洲在线观看|