繼在游戲、數據中心市場收獲巨額回報之后,英偉達希望覆蓋更多的AI計算領域,而下一個重點就是企業計算。在日前舉辦的COMPUTEX 2021上,英偉達面向企業計算發布了重大計劃和創新產品。
黃仁勛在今年4月的GTC大會上,首次強調了發展企業計算的決心。在他看來,現在正處于第二輪AI發展浪潮的起點,而這波發展將以企業和產業邊緣計算為主,AI將徹底改變全球大型行業,包括制造、物流、農業、醫療健康、金融服務和運輸業。
在COMPUTEX 2021上,英偉達企業計算負責人Manuvir Das也表示,現在是實現AI大眾化,將其巨大力量帶給企業用戶及其客戶的好時機。
英偉達企業計算負責人Manuvir Das
面向企業級AI計算,英偉達在構建三個基本要素:普適性強、可用于制造任何系統的硬件基礎,用于AI的軟件平臺,以及用于協作設計的軟件平臺。
擴大認證服務器生態系統
目前,面向企業級的NVIDIA EGX,英偉達正在擴大NVIDIA-Certified認證服務器生態系統,使得企業用戶的使用和部署更為便捷。
Das解釋說,為助力系統制造商創建AI優化設計,并確保這些系統能夠得到客戶的信賴,NVIDIA 制定了一項針對GPU加速服務器的計劃——NVIDIA 認證計劃。
來自研華科技、Altos、永擎電子、華碩、戴爾科技、技嘉、慧與、聯想、QCT、超微等公司的 NVIDIA 認證系統正在不斷增加,其中包括主流數據中心使用的一些主流 x86 服務器,它們將AI的力量帶了給更多行業,包括醫療、制造、零售和金融服務。
憑借NVIDIA認證系統,企業能夠支持傳統數據中心以及混合云中的各種復雜工作。其中包括在VMware vSphere上運行NVIDIA AI Enterprise和數據分析軟件,來部署支持AI的企業級平臺,從而實現批量運行AI工作負載;還包括在NVIDIA Omniverse Enterprise上實現設計協作、高級模擬以及在紅帽OpenShift平臺上實現AI部署。系統還可與 Cloudera 數據工程和機器學習無縫集成,把交付模型的時間從幾個小時縮短至幾分鐘。
據了解,NVIDIA 認證系統經過嚴格的測試,在性能、安全性和可擴展性方面延續NVIDIA 的設計最佳實踐。這些系統的價格和性能水平各異,采用NVIDIA A100、A40、A30或A10 Tensor Core GPU以及NVIDIA BlueField-2 DPU或NVIDIA ConnectX-6系列網卡。
目前,在高級AI訓練和云計算服務領域,戴爾科技、慧與、寧暢和超微已經率先推出基于NVIDIA HGX加速計算平臺、經過認證的新服務器。這些產品通過四或八個NVIDIA A100 GPU、NVIDIA NVLink GPU互連技術、NVIDIA InfiniBand網絡以及NVIDIA AI和HPC軟件棧提供領先的AI性能。
首批NVIDIA認證系統運用BlueField-2 DPU提升安全性
“今后,DPU 將成為所有服務器、數據中心和邊緣的一個重要組成部分”,Das 表示,“NVIDIA 認證系統計劃將擴展至采用 NVIDIA BlueField DPU 的系統?!?/p>
今年下半年,幾家系統制造商將首次發布經過新一類NVIDIA認證系統的服務器,將通過BlueField-2 DPU(數據處理器)在網絡、存儲和安全性能上實現突破。
通過卸載CPU的工作任務,單一BlueField-2 DPU可以提供125個CPU核才能實現的數據中心服務,從而釋放服務器CPU周期以支持各種關鍵業務應用。
NVIDIA 認證將于2022年擴展至Arm CPU服務器
Das 宣布,NVIDIA 認證系統計劃將擴展至支持配備 Arm 核主機 CPU 的加速系統。
此外,英偉達與技嘉科技合作開發了一款Arm HPC開發者套件,為HPC、AI和科學計算應用開發提供硬件和軟件一體化的平臺。該平臺經NVIDIA驗證,可滿足嚴苛的HPC應用要求,包含一個來自Ampere Computing的基于Arm Neoverse的Ampere Altra處理器、兩個A100 GPU、兩個BlueField-2 DPU以及NVIDIA HPC SDK。
Das 表示:“隨著 GPU 和 DPU 加速器承擔更多的 AI 計算工作負載,將主機 CPU 作為編排器比將它作為計算引擎更有用?!?/p>
下一步,為了將Arm生態系統擴展至企業以實現高性能AI計算,技嘉科技和緯穎科技計劃將提供新的服務器,采用基于Arm Neoverse 的CPU、NVIDIA Ampere架構GPU/BlueField-2 DPU。這款服務器預計將于明年上市,屆時將被提交至NVIDIA進行認證。
云端開發中心便于企業AI項目從原型快速投入生產
為了幫助企業將AI項目從原型快速投入生產,英偉達最新發布了一款托管在云端的開發中心NVIDIA Base Command Platform。
多數企業現在都知道AI對其數字化轉型計劃的成功至關重要,但是目前面臨的一項復雜挑戰是,如何將其部署并整合到企業中。NVIDIA Base Command Platform專為大規模、多用戶和多團隊的 AI 開發工作流程而設計,而且這些工作流程既可以在本地也可以在云中托管。憑借這款軟件,研究人員和數據科學家能夠同時使用加速計算資源工作,幫助企業最大程度地提高其專家級開發者和寶貴 AI 基礎設施的生產力。
谷歌云成為計劃在云實例中啟用Base Command Platform 來管理和編排集群的首批云服務提供商之一。谷歌云機器學習基礎設施產品管理總監Manish Sainani表示:“這款混合型AI產品,可以使得企業只需編寫一次就能在任何地方運行,靈活接入多個NVIDIA A100 Tensor Core GPU,通過采用按需的加速計算,企業可以加快AI開發速度?!?/p>
據介紹,Base Command Platform為整個AI開發提供了統一的視圖。該視圖通過圖形用戶界面和命令行API以及綜合監控和報告儀表盤來促進資源的輕松共享。包括NVIDIA NGC的AI和分析軟件目錄、與MLOps軟件集成的API、Jupyter筆記本等在內的一系列豐富的AI和數據科學工具幫助研究人員可以更快的計劃和安排工作負載、完善模型和獲得洞察。
3D設計/模擬協作和安全也是布局重點
Das 還宣布,NVIDIA 將與全球領先的系統供應商合作提供NVIDIA Omniverse Enterprise,助力各行各業的團隊輕松開展 3D 設計和模擬協作。屆時,每家公司需支付的費用為 14,000 美元起。
安全方面,Das宣布正與紅帽合作,為 OpenShift 和目前企業級數據中心中最常用的商業 Linux 版本——紅帽企業 Linux(Red Hat Enterprise Linux,簡稱RHEL)提供 Morpheus 開發者套件。Morpheus是今年GTC大會上發布的,使用機器學習來識別、捕捉和處理威脅與異常的一款軟件套件。
據Das 介紹,網絡安全公司現在將能夠在 RHEL 和 OpenShift 上使用 Morpheus,為所有企業級數據中心帶來先進的安全措施。
寫在最后
繼在嵌入式領域、邊緣市場布局了五六年后,英偉達今年明顯針對企業級計算加大了投入力度。
任何邊緣端設備,穩定性、長時間運行的故障率等都是非常重要的指標,英偉達正在通過其認證計劃在這方面做出支持和保證。
此外,在邊緣計算領域,某些情況下比數據中心更復雜,比如在面臨各種各樣的設備和應用選件時,如何把不同應用融合在一起成為一個成熟的產品,考驗的是平臺完備性。這是英偉達在邊緣市場面臨的挑戰。
當然,邊緣設備和數據中心其實是緊密結合的,因為模型都是從云中訓練所得,這是英偉達從數據中心向邊緣擴展的巨大優勢。為了幫助合作伙伴的想法快速落地,中間的架構統一性、還有各種工具便利性就變得非常重要。這也將是英偉達下一步在邊緣計算生態建設和產品創新的關鍵。