西部數(shù)據(jù) OpenFlex™ Data24 4000 系列 NVMe-oFä 存儲(chǔ)平臺(tái),基于鎧俠 CM7-V 系列 NVMe® 固態(tài)硬盤與配置 PEAK:AIO 軟件的AI智算服務(wù)器,展現(xiàn)出卓越的 AI 存儲(chǔ)可擴(kuò)展性、簡(jiǎn)易性與吞吐量。
上海,2025 年 8 月 5 日 – 隨著 AI 工作負(fù)載的復(fù)雜性和規(guī)模與日俱增,存儲(chǔ)系統(tǒng)能否跟上加速計(jì)算基礎(chǔ)設(shè)施的發(fā)展步伐,已成為影響整體性能的關(guān)鍵因素。西部數(shù)據(jù)(NASDAQ: WDC)近日公布其 MLPerf® Storage V2 測(cè)試結(jié)果,驗(yàn)證了旗下 OpenFlex™ Data24 4000 系列 NVMe-oF™ 存儲(chǔ)平臺(tái)在真實(shí)場(chǎng)景中的應(yīng)用能力。這些結(jié)果證實(shí),OpenFlex™ Data24 EBOF(高速網(wǎng)絡(luò)全閃存儲(chǔ)擴(kuò)展柜)能夠滿足現(xiàn)代 AI 工作負(fù)載的嚴(yán)苛需求,并以一種經(jīng)濟(jì)高效的方式,為現(xiàn)代 AI 基礎(chǔ)設(shè)施提供了卓越性能、更高效率和更強(qiáng)的可擴(kuò)展性。
面向大規(guī)模 AI 的真實(shí)場(chǎng)景測(cè)試
西部數(shù)據(jù)的 OpenFlex™ Data24 NVMe-oF™ 存儲(chǔ)平臺(tái)將 NVMe® 閃存的高性能擴(kuò)展至以太網(wǎng)架構(gòu),從而為可擴(kuò)展的分離式 AI 基礎(chǔ)設(shè)施提供低延遲的共享存儲(chǔ)。該平臺(tái)的設(shè)計(jì)旨在簡(jiǎn)化部署、降低成本,并能隨 GPU 需求的增長(zhǎng)而同步擴(kuò)展,可實(shí)現(xiàn)存儲(chǔ)與計(jì)算資源的獨(dú)立擴(kuò)展,帶來(lái)更高的靈活性。
為了模擬真實(shí)且嚴(yán)苛的部署場(chǎng)景——即存儲(chǔ)系統(tǒng)必須與加速 GPU 基礎(chǔ)設(shè)施保持同步,西部數(shù)據(jù)與 PEAK:AIO 合作開(kāi)展了此次測(cè)試。作為一家高性能軟件定義存儲(chǔ)(SDS)提供商,PEAK:AIO 能夠高速接收、緩存并分發(fā)海量數(shù)據(jù)。
此次通過(guò)驗(yàn)證的方案選用了鎧俠 CM7-V 系列 NVMe™ 固態(tài)硬盤,當(dāng)被部署在 OpenFlex Data24 機(jī)箱中時(shí),可為眾多 GPU 客戶端節(jié)點(diǎn)提供持續(xù)、高性能的解耦式數(shù)據(jù)交付,在嚴(yán)苛的 AI 工作負(fù)載下仍然表現(xiàn)出色。
MLPerf Storage V2 基準(zhǔn)測(cè)試結(jié)果
MLPerf 在 AI 基準(zhǔn)測(cè)試領(lǐng)域業(yè)內(nèi)是被廣泛認(rèn)可的權(quán)威標(biāo)準(zhǔn)。此次西部數(shù)據(jù)的MLPerf Storage V2 測(cè)試結(jié)果表明,其 OpenFlex™ Data24 存儲(chǔ)平臺(tái)的架構(gòu)不僅具備大規(guī)模擴(kuò)展性能,更兼顧了效率和實(shí)際部署中的經(jīng)濟(jì)效益,且不需要軟件定義存儲(chǔ)(SDS)層的情況下仍表現(xiàn)出色。
MLPerf Storage 采用 GPU 客戶端節(jié)點(diǎn),以評(píng)估存儲(chǔ)平臺(tái)在多并發(fā) GPU 客戶端環(huán)境下對(duì)分布式 AI 場(chǎng)景的支持能力。這些節(jié)點(diǎn)通過(guò)模擬 AI 服務(wù)器在訓(xùn)練或推理過(guò)程中訪問(wèn)存儲(chǔ)的行為,從而生成真實(shí)環(huán)境下 GPU 工作負(fù)載的典型 I/O 負(fù)載模式。MLPerf 存儲(chǔ)套件中的 AI 訓(xùn)練測(cè)試,旨在衡量系統(tǒng)為 AI 工作負(fù)載提供服務(wù)的效率,這些工作負(fù)載在運(yùn)行各種深度學(xué)習(xí)模型時(shí),會(huì)對(duì)存儲(chǔ) I/O 的吞吐量和并發(fā)性等不同方面構(gòu)成壓力。MLPerf 主要使用以下兩個(gè)關(guān)鍵的工作負(fù)載基準(zhǔn)測(cè)試:
3D-UNet 工作負(fù)載
3D-UNet 是一種應(yīng)用于醫(yī)學(xué)影像和體積分割領(lǐng)域的深度學(xué)習(xí)模型。由于其龐大的三維輸入數(shù)據(jù)集以及密集的數(shù)據(jù)流式讀取模式,該模型對(duì)存儲(chǔ)系統(tǒng)負(fù)載有更高的要求。因此,在展示多節(jié)點(diǎn) AI 工作流中持續(xù)的高帶寬與低延遲性能方面,3D-UNet 是一個(gè)更為嚴(yán)苛的基準(zhǔn)測(cè)試。
在此模型中:
· 西部數(shù)據(jù)的 OpenFlex Data24 實(shí)現(xiàn)了高達(dá) 106.5 GB/s(99.2 GiB/s)的持續(xù)讀取吞吐量,足以使跨越三個(gè)物理客戶端節(jié)點(diǎn)的 36 個(gè)模擬 H100 GPU 達(dá)到飽和狀態(tài),這證明了該 EBOF 能夠輕松應(yīng)對(duì)帶寬密集型、高并行度的訓(xùn)練任務(wù)。
· 在與配置 PEAK:AIO 軟件的AI智算服務(wù)器配合使用時(shí),OpenFlex Data24 能夠提供 64.9 GB/s(59.6 GiB/s)的吞吐量,僅通過(guò)單個(gè)主服務(wù)器和單個(gè)客戶端節(jié)點(diǎn),即可使 22 個(gè)模擬 H100 GPU 達(dá)到飽和狀態(tài)。
ResNet50 工作負(fù)載
ResNet-50 是一種廣泛用于圖像分類的卷積神經(jīng)網(wǎng)絡(luò)。它常被用作訓(xùn)練吞吐量的基準(zhǔn),因?yàn)樗砹擞?jì)算與數(shù)據(jù)移動(dòng)之間的一種均衡組合。該模型兼具隨機(jī)和順序 I/O 模式,并涉及中等大小的圖像讀取,因此非常適用于評(píng)估一個(gè)系統(tǒng)在處理對(duì)較小文件的高頻訪問(wèn)和快速迭代周期方面的能力。
在此模型中:
· 西部數(shù)據(jù)的 OpenFlex Data24 展現(xiàn)了其優(yōu)秀性能,能夠支持橫跨三個(gè)客戶端節(jié)點(diǎn)的 186 個(gè)模擬 H100 GPU 的運(yùn)行,其出色的 GPU 與存儲(chǔ)驅(qū)動(dòng)器比率,充分體現(xiàn)了該平臺(tái)對(duì)物理存儲(chǔ)介質(zhì)的高效利用。
· 在與配置 PEAK:AIO 軟件的AI智算服務(wù)器配合使用時(shí),OpenFlex Data24 能夠僅通過(guò)單個(gè)主服務(wù)器和單個(gè)客戶端節(jié)點(diǎn),使 52 個(gè)模擬 H100 GPU 達(dá)到飽和狀態(tài)。
西部數(shù)據(jù)平臺(tái)業(yè)務(wù)副總裁兼總經(jīng)理 Kurt Chan 表示:“這些結(jié)果證實(shí),西部數(shù)據(jù)的存算分離式架構(gòu)是下一代 AI 基礎(chǔ)設(shè)施的強(qiáng)大賦能者與重要基石,它能夠在大幅提高 GPU 利用率的同時(shí),有效減少物理空間占用、系統(tǒng)復(fù)雜性以及總體擁有成本。無(wú)論是獨(dú)立運(yùn)行,還是與單個(gè)配置 PEAK:AIO 軟件的AI智算服務(wù)器設(shè)備協(xié)同工作時(shí),OpenFlex Data24 4000 系列 NVMe-oF 存儲(chǔ)平臺(tái)在各種嚴(yán)苛的 AI 基準(zhǔn)測(cè)試中都展現(xiàn)出近飽和性能表現(xiàn),這意味更快地獲得結(jié)果,并減少基礎(chǔ)設(shè)施的擴(kuò)張!
PEAK:AIO 總裁兼首席執(zhí)行官 Roger Cummings 表示:“這些 MLPerf 測(cè)試結(jié)果,彰顯了將 PEAK:AIO 的軟件定義 AI 數(shù)據(jù)服務(wù)器、西部數(shù)據(jù) OpenFlex Data24 的可擴(kuò)展性以及鎧俠 CM7-V 系列 SSD 的性能密度相結(jié)合,所實(shí)現(xiàn)的突破性效率。我們正攜手打造一種部署更快捷、運(yùn)營(yíng)更高效、擴(kuò)展更輕松的高性能AI基礎(chǔ)設(shè)施。這是一個(gè)極具說(shuō)服力的例證,證明了高性能不再必須以高復(fù)雜性為代價(jià)!
無(wú)論是對(duì)于剛剛開(kāi)啟 AI 之旅,還是已經(jīng)擴(kuò)展到數(shù)百個(gè) GPU 規(guī)模的企業(yè),西部數(shù)據(jù) OpenFlex Data24 憑借其業(yè)界領(lǐng)先的連接能力,搭配 Western Digital RapidFlex™ 網(wǎng)絡(luò)適配器,無(wú)需交換機(jī)即可連接多達(dá) 12 臺(tái)主機(jī)。這一數(shù)據(jù)存儲(chǔ)平臺(tái)為 AI 基礎(chǔ)設(shè)施的增長(zhǎng)提供了一種簡(jiǎn)化、可預(yù)測(cè)且高性能的路徑,同時(shí)避免了某些其他方案所帶來(lái)的高昂前期成本和功耗要求,使其成為企業(yè)安心擴(kuò)展 AI 工作負(fù)載的理想選擇。