NVIDIA 與 Meta 貢獻模組化伺服器與機架科技,建立全新多供應商 AI 叢集供應鏈
加利福尼亞州聖何塞2024年10月17日 /美通社/ — 為所有人帶來超大規模創新的非營利組織 Open Compute Project Foundation (OCP),宣布擴展其 Open Systems for AI Strategic Initiative,帶有 NVIDIA 已核准提供的資料,包括以 NVIDIA MGX 為基礎的 GB200-NVL72 平台,以及 Meta 正在進行中的資料。OCP 在 2024 年 1 月推出了這項社區努力,由 Intel、Microsoft、Google、Meta、NVIDIA、AMD、ARM、Ampere、Samsung、Seagate、SuperMicro、Dell 和 Broadcom 共同帶領。OCP 社區之所以實施 Open Systems for AI Strategic Initiative,是建立共通性,並為 AI 叢集 (Cluster) 和承載這些叢集的資料中心設施,開發開放式標準化,從而提高效率和永續性並促成多供應商供應鏈的發展,務求快速、有影響力地推進市場應用。
NVIDIA 貢獻了以 MGX 為基礎的 GB200-NVL72 Rack 及 Compute and Switch Tray 設計,而 Meta 則為 AI 叢集推出 Catalina AI Rack 架構。NVIDIA 和 Meta 的貢獻以及 OCP 社區(包括其他超大規模運營商、IT 供應商和實體數據中心基礎設施供應商)的努力,將成為制定規格和藍圖的基礎,以應對大規模部署 AI 叢集的共同挑戰。這些挑戰包括新等級的功率密度、用於專業運算的矽晶片、先進的液體冷卻技術、更大寬頻與低時延 (Low-latency) 的互聯技術,以及更高效能與容量的記憶體與儲存設備。
「在 AI 正成為推動下一波資料中心建置的主要使用案例之時,我們非常歡迎整個 OCP 社區的努力以及 Meta 和 NVIDIA 的貢獻。這些貢獻擴大 OCP 社區的合作,以提供專為 AI 調整的大型高效能運算叢集。OCP 與其 Open Systems for AI Strategic Initiative,將透過超大規模部署審查,並由 OCP 社區優化的多廠商開放 AI 叢集供應鏈,以影響整個市場。Open Compute Project Foundation 行政總裁 George Tchaparian 表示,這可大大降低其他市場部門的風險和成本,消除孤島效應,並且與 OCP 的使命非常相符,是建立協作社區的使命,務求簡化新硬件部署並縮短大規模採用的上市時間。
NVIDIA 對 OCP 社群的貢獻基於現有的 OCP ORv3 規格,支援在資料中心部署高運算密度和高效液體冷卻的生態系統。NVIDIA 的貢獻包括:(1) 其強化機架構造,提供 19″ EIA 支援,具有擴充前端電纜容量、高容量 1400A 匯流排 (Bus Bar)、NVIDIA NVLink 電纜盒 (Cable Cartridge)、液冷盲配多節點互連體積與安裝,以及 (2) 1RU 液體冷卻 MGX 運算和交換器托盤,包括模組化前置 IO 槽設計、可容納 1RU OCP DC-SCM 的運算板規格尺寸、液態冷卻多節點連接器容量計、盲配 UQD(全寫 Universal Quick Disconnect,通用快速斷開)浮動機制,和更窄的母線匯流排,用於切換器托盤。
NVIDIA 首席平台架構師 Robert Ober 表示:「NVIDIA 對 OCP 的貢獻,有助於確保來自多間廠商的高運算密度機架和運算磁碟匣在電源、冷卻和機械介面上可互相操作,無需專用的冷卻機架和磁碟匣基礎架構,讓開放式硬件生態系統加速創新。」
Meta 正在進行的貢獻包括 Catalina AI Rack 架構,此架構專為提供支援 GB200 的高密度 AI 系統而配置。
Meta 工程副總裁 Yee Jiun Song 表示:「作為 OCP Foundation 的始創成員,我們很榮幸在推出 AI 開放系統策略倡議方面發揮關鍵作用,而我們會繼續致力於確保 OCP 項目,為建立更包容和可持續的 AI 生態系統帶來所需的創新。」
OCP Community 一直積極參與建立開放的大型高性能運算平台,AI 使用個案是社區活動的自然延伸。隨著 AI 驅動的建置進展,趨勢顯示 AI 加速系統需要部署到邊緣,並在企業資料中心內部部署,從而確保低時延、資料最新性和資料主權。OCP Community 可解決超大規模資料中心運營商所發現的大規模問題,為所有 AI 資料中心帶來創新技術,例如伺服器模組化、精確時間記錄、安全性、l液態冷卻,和專門的 Chiplet 系統封裝 (SiP)。
「以實現 AI 承諾的先進計算設備市場正在迅速發展,供應商和超大規模運營商各自開發自己的個人化解決方案。雖然這種快速的步伐,對於創造差異化的產品並維持競爭優勢至關重要,但可能會將供應鏈拆解為孤島,提高成本並降低效率。此外,必須減輕如此大型數據中心建設的潛在環境影響。合作創新,使用更少的電源、水量和更低碳足跡來提高效率,影響下一代 AI 叢集,這些叢集將由超大規模資料中心運營商部署,並同時擴展到企業部署。NVIDIA 和 Meta 的貢獻,以及雙方對 OCP 社區的持續參與,有潛力讓許多市場領域受惠。」IDC 集團副總裁兼全球基礎設施總經理 Ashish Nadkarni 表示。
Open Compute Project Foundation 簡介
Open Compute Project (OCP) 的核心是一個超大規模數據中心營運商、電訊、託管供應商和企業 IT 用戶組成的協作群組,與電信和主機服務供應商和企業 IT 使用者合作開發開放式創新,嵌入產品時將從雲端部署到邊緣。OCP Foundation 負責培育和服務 OCP 群組,滿足市場需求和塑造未來,並為每個人帶來超大規模主導的創新。透過開放式設計與最佳實務,以及嵌入 OCP 社群開發的創新效能、大規模運作與永續性的資料中心設施與 IT 設備,有效滿足市場需求。塑造未來包括投資策略倡議,以及為重大變革做好準備的 IT 生態系統,例如 AI & ML、光學、先進冷卻技術和可組合矽。要了解更多,請瀏覽 www.opencompute.org。若要進一步了解 OCP 的「人工智慧開放系統策略倡議」 (Strategic Initiative on Open Systems for AI),請瀏覽 www.opencompute.org/ai。
傳媒聯絡人
Dirk Van Slyke
Open Compute Project Foundation
副總裁兼營銷總監
[email protected]
手提電話:+1 303-999-7398
(北美中部時區/CST/美國德州侯斯頓)