企業(yè)發(fā)布
首頁(yè) > 企業(yè)發(fā)布 > 詳細(xì)內(nèi)容
IBM AI存儲(chǔ):算力稀缺時(shí)代的"破局者"
2023/11/21 17:05:37 來(lái)源:中國(guó)企業(yè)新聞網(wǎng)
導(dǎo)言:2023年11月,業(yè)界"又雙叒叕"發(fā)布了數(shù)款重磅 AI 基礎(chǔ)架構(gòu)產(chǎn)品。算力方面,英偉達(dá)(NVIDIA)發(fā)布了號(hào)稱"史上最強(qiáng)"的新一代AI芯片H200,和上一代產(chǎn)品相比,顯存容量幾乎翻了一番,性能提升了60% 到90%。
2023年11月,業(yè)界"又雙叒叕"發(fā)布了數(shù)款重磅 AI 基礎(chǔ)架構(gòu)產(chǎn)品。算力方面,英偉達(dá)(NVIDIA)發(fā)布了號(hào)稱"史上最強(qiáng)"的新一代AI芯片H200,和上一代產(chǎn)品相比,顯存容量幾乎翻了一番,性能提升了60% 到90%。存力方面,IBM同樣發(fā)布了新一代 Storage Scale System 6000(SSS 6000),這是一個(gè)旨在滿足數(shù)據(jù)密集型和 AI 工作負(fù)載需求的云規(guī)模全球數(shù)據(jù)平臺(tái),單個(gè)模塊可提供超過(guò) 256GB/s 的吞吐量和 5MIOPS 的文件訪問(wèn)性能,分別超過(guò)市場(chǎng)領(lǐng)先競(jìng)爭(zhēng)對(duì)手 2.5 倍和 2 倍,能夠滿足多個(gè)并行的 AI 工作負(fù)載和數(shù)據(jù)密集型工作負(fù)載對(duì)極高的數(shù)據(jù)訪問(wèn)速度要求。
周立旸,IBM 大中華區(qū)科技事業(yè)部存儲(chǔ)軟件產(chǎn)品總監(jiān)
IBM AI存儲(chǔ):算力稀缺時(shí)代的“破局者”
IBM Storage Scale System 6000
IBM 在2022年發(fā)布的Storage Scale System 3500(SSS 3500)數(shù)據(jù)存儲(chǔ),單個(gè)模塊24塊NVMe SSD可以提供超過(guò)125GB/s 的數(shù)據(jù)訪問(wèn)性能,已經(jīng)大幅領(lǐng)先于大部分 AI 存儲(chǔ)產(chǎn)品,IBM為何要推出更高性能的 SSS 6000呢?
算力和算法的發(fā)展,需要更快速的數(shù)據(jù)訪問(wèn)
人工智能是算法、數(shù)據(jù)、算力的有效結(jié)合,近年來(lái)大模型訓(xùn)練和推理、多模態(tài) AI等領(lǐng)域的突破更是得益于高質(zhì)量數(shù)據(jù)的發(fā)展。隨著數(shù)據(jù)集規(guī)模不斷增加,應(yīng)用程序載入數(shù)據(jù)花費(fèi)的時(shí)間越來(lái)越長(zhǎng),進(jìn)而影響了應(yīng)用程序的性能,因?yàn)榇媪Σ蛔銓?dǎo)致的低效I/O使得運(yùn)算速度日益提升的GPU無(wú)用武之地。為了滿足不斷提高的算力和各種基礎(chǔ)模型對(duì)更大參數(shù)規(guī)模的需要,也需要提供更高速的數(shù)據(jù)訪問(wèn)能力。
舉例來(lái)說(shuō),在目前主流的NVIDIA H100/H800 平臺(tái)上,運(yùn)行一個(gè)大小為30TB的圖像數(shù)據(jù)集用于AI訓(xùn)練,每顆GPU所需的數(shù)據(jù)存儲(chǔ)訪問(wèn)性能就超過(guò)了4GBps,運(yùn)行更大規(guī)模的數(shù)據(jù)集的應(yīng)用或支持多種負(fù)載的智算平臺(tái)可能需要數(shù)百GBps到數(shù)TBps的高速數(shù)據(jù)存儲(chǔ)才能滿足其對(duì)存力的需求。經(jīng)過(guò)充分優(yōu)化的 IBM Storage Scale System 可以充分發(fā)揮并行架構(gòu)和高速網(wǎng)絡(luò)的優(yōu)勢(shì),加速各種 AI 工作負(fù)載應(yīng)用。
此外,不僅僅是訓(xùn)練環(huán)節(jié),對(duì)于AI應(yīng)用來(lái)說(shuō),從數(shù)據(jù)攝入到生產(chǎn)推理,每個(gè)環(huán)節(jié)都需要利用不同工具實(shí)現(xiàn)海量數(shù)據(jù)處理,并且這是一個(gè)不斷重復(fù)的流程。用戶需要構(gòu)建的端到端的高速數(shù)據(jù)管道,簡(jiǎn)化流程并實(shí)現(xiàn)數(shù)據(jù)安全、高效的流動(dòng);贗BM Storage Scale軟件多協(xié)議互通的全局?jǐn)?shù)據(jù)平臺(tái)能力,用戶可以在不同地點(diǎn)通過(guò)不同接口訪問(wèn)同樣的數(shù)據(jù),減少創(chuàng)建不必要的數(shù)據(jù)副本并通過(guò)智能的緩存技術(shù)減少數(shù)據(jù)傳遞的網(wǎng)絡(luò)開(kāi)銷,整合來(lái)自核心、邊緣和云端的寶貴數(shù)據(jù)資源。
AI應(yīng)用全流程
算力短缺時(shí)代,需要提高GPU資源的利用率
隨著通用型人工智能和大模型的發(fā)展,目前包括中國(guó)公司在內(nèi)的全球AI公司都存在算力短缺的情況,英偉達(dá)等主要供應(yīng)商的中高性能 GPU更是"千金難求"。對(duì)于擁有一定數(shù)量GPU的用戶來(lái)說(shuō),如果能夠?qū)PU的利用率提高一倍,就相當(dāng)于增加了一倍的額外算力,在更短的時(shí)間內(nèi)完成更多的應(yīng)用。
由于顯存容量受限,多機(jī)多卡的GPU集群需要共享的外部存儲(chǔ)來(lái)為所有節(jié)點(diǎn)提供高速的應(yīng)用數(shù)據(jù)訪問(wèn)。將數(shù)據(jù)從存儲(chǔ)載入到GPU,過(guò)去都是由CPU負(fù)責(zé),而這將會(huì)成為硬件性能的瓶頸。即使實(shí)現(xiàn)了服務(wù)器節(jié)點(diǎn)到存儲(chǔ)的高速訪問(wèn),數(shù)據(jù)到GPU的這"最后一公里"往往會(huì)造成GPU等待數(shù)據(jù)的情況,導(dǎo)致GPU利用率低下。
為此,英偉達(dá)開(kāi)發(fā)了GPUDirect存儲(chǔ)技術(shù),可以通過(guò)RDMA高速網(wǎng)絡(luò)直接將數(shù)據(jù)從外部存儲(chǔ)傳輸至 GPU 顯存上,能有效減輕CPU I/O的瓶頸,提升GPU 訪問(wèn)數(shù)據(jù)的帶寬并大幅縮短時(shí)間延遲。IBM Storage Scale軟件是首批支持該技術(shù)的認(rèn)證存儲(chǔ)產(chǎn)品,經(jīng)測(cè)試,采用GDS 技術(shù)的IBM Storage Scale System可以將GPU 訪問(wèn)數(shù)據(jù)的帶寬提高一倍,時(shí)間延遲縮短一半。
在實(shí)際應(yīng)用中,通過(guò)采用GDUDirect 存儲(chǔ)(GDS)技術(shù)可以將GPU的利用率提高90%。例如,德國(guó)大陸汽車(Continental Automotive AG)采用 IBM Storage Scale System 作為 NVIDIA DGX 系統(tǒng)的共享數(shù)據(jù)存儲(chǔ)后,AI 訓(xùn)練時(shí)間縮短了 70%,每個(gè)月完成的試驗(yàn)數(shù)量增長(zhǎng)了14倍,寶貴GPU資源的利用率得到了極大的提升。
GPUDirect 存儲(chǔ)技術(shù)帶來(lái)時(shí)間延遲和CPU利用率的顯著改善
IBM 存儲(chǔ)與英偉達(dá)有著多年的合作歷史,早在2018年和2019年就推出了DGX-1 POD和DGX-2 POD 的參考架構(gòu),并幫助英偉達(dá)利用IBM Storage Scale System構(gòu)建了2018年全球超級(jí)計(jì)算機(jī)排名第61位的Circe和2019年全球排名第22位的DGX-2H SuperPOD;此后更是成為其 GPU Direct to Storage (GDS) 公開(kāi)測(cè)試版本的合作伙伴,針對(duì)NVIDIA DGX A100 和 H100 的BasePOD 和 SuperPOD 都提供了NVIDIA認(rèn)證的參考存儲(chǔ)架構(gòu)。
IBM Storage Scale軟件也是首批官方認(rèn)證支持GDS的產(chǎn)品。今年11月發(fā)布的最新Top500超級(jí)計(jì)算機(jī)榜單中,位于西班牙巴塞羅那超級(jí)計(jì)算中心的MareNostrum 5 ACC(GPU集群分區(qū)) 排名第八,該系統(tǒng)采用了4500塊NVIDIA H100 GPU,其存儲(chǔ)部分采用了容量為248PB的IBM Storage Scale System和400PB的磁帶系統(tǒng)。
IBM AI存儲(chǔ)的降本增效"黑科技"
除了 IBM Storage Scale 軟件的高性能數(shù)據(jù)訪問(wèn)能力,以及跨系統(tǒng)、跨地域的全局?jǐn)?shù)據(jù)訪問(wèn)和調(diào)度能力,IBM AI存儲(chǔ)還有不少"黑科技"可以更好地幫助 AI 用戶降本增效:
IBM AI存儲(chǔ)支持多協(xié)議互通
得益于這些領(lǐng)先優(yōu)勢(shì),在2023年發(fā)布的Gartner 分布式存儲(chǔ)魔力象限報(bào)告中,IBM連續(xù)第八年被評(píng)為領(lǐng)導(dǎo)者,并在報(bào)告中被認(rèn)為是用于高性能文件、AI 和分析型工作負(fù)載的最佳解決方案。
無(wú)論是應(yīng)對(duì)當(dāng)前算力稀缺的挑戰(zhàn),還是發(fā)展以數(shù)據(jù)為中心的新一代AI應(yīng)用,提升存力、優(yōu)化數(shù)據(jù)存儲(chǔ)已經(jīng)成為必選項(xiàng)。我們期待繼續(xù)攜手中國(guó)客戶和合作伙伴突破算力瓶頸、避開(kāi)成本陷阱,更加高效地將AI轉(zhuǎn)化為生產(chǎn)力!
免責(zé)聲明:
※ 以上所展示的信息來(lái)自媒體轉(zhuǎn)載或由企業(yè)自行提供,其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本網(wǎng)站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本網(wǎng)站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。如果以上內(nèi)容侵犯您的版權(quán)或者非授權(quán)發(fā)布和其它問(wèn)題需要同本網(wǎng)聯(lián)系的,請(qǐng)?jiān)?0日內(nèi)進(jìn)行。
※ 有關(guān)作品版權(quán)事宜請(qǐng)聯(lián)系中國(guó)企業(yè)新聞網(wǎng):020-34333079 郵箱:cenn_gd@126.com 我們將在24小時(shí)內(nèi)審核并處理。
標(biāo)簽 :
相關(guān)網(wǎng)文
24小時(shí)熱點(diǎn)圖片
一周新聞資訊點(diǎn)擊排行
關(guān)于我們 | CENN服務(wù) | 對(duì)外合作 | 刊登廣告 | 法律聲明 | 聯(lián)系我們 | 手機(jī)版
客戶服務(wù)熱線:020-34333079、34333137 舉報(bào)電話:020-34333002 投稿郵箱:cenn_gd@126.com
版權(quán)所有:中國(guó)企業(yè)新聞網(wǎng) 運(yùn)營(yíng)商:廣州至高點(diǎn)網(wǎng)絡(luò)科技投資有限公司 地址:廣州市海珠區(qū)江燕路353號(hào)保利紅棉48棟1004