企業(yè)發(fā)布

浪潮信息Stephen Zhang：大模型時代，我們需要什么樣的AI算力系統(tǒng)？

2023/9/14 10:41:21 來源：中國企業(yè)新聞網(wǎng) 評論：(0)

導(dǎo)言：當(dāng)前，“百模大戰(zhàn)”帶來了算力需求的爆發(fā)，AI芯片產(chǎn)業(yè)也迎來巨大機遇，“創(chuàng)新架構(gòu)+開源生態(tài)”正在激發(fā)多元AI算力產(chǎn)品百花齊放。面對新的產(chǎn)業(yè)機會，AI算力產(chǎn)業(yè)鏈亟需通過上下游協(xié)作共同把握機遇。

　　近日，浪潮信息AI&HPC產(chǎn)品線高級產(chǎn)品經(jīng)理Stephen Zhang在開放計算中國峰會就AIGC時代的算力需求趨勢與開放加速計算發(fā)展之道進行了洞察分享，他指出，開放加速計算生態(tài)協(xié)作將有效賦能多元的AI算力產(chǎn)品創(chuàng)新發(fā)展，為應(yīng)對AIGC時代的算力挑戰(zhàn)提供有益的解決之道。

　　以下為演講要點：

　　大模型帶來對AI計算性能、互連帶寬、可擴展性的爆發(fā)式需求;

　　開放加速計算技術(shù)為大規(guī)模深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練而生;

　　應(yīng)用導(dǎo)向的算力基礎(chǔ)設(shè)施架構(gòu)設(shè)計以及算力和算法的協(xié)同設(shè)計，能夠?qū)崿F(xiàn)更高效的大模型訓(xùn)練;

　　開放加速計算在性能、擴展性、節(jié)能、生態(tài)兼容層面積累了豐碩成果;

　　以下為演講原文：

　　大模型時代的算力需求及趨勢

　　自ChatGPT發(fā)布以來，大家可以明顯地感受到全社會對于生成式人工智能技術(shù)的廣泛關(guān)注，ChatGPT出圈之后帶來了更多參與者，模型的數(shù)量和模型參數(shù)量不斷激增。據(jù)不完全統(tǒng)計，我們國家的大模型數(shù)量已經(jīng)超過110個，這就帶來了對于AI算力需求的劇增。

　　針對大模型發(fā)展帶來的嚴(yán)峻算力挑戰(zhàn)，我們進行了大量的需求分析和趨勢判斷。從AI服務(wù)器算力及功耗隨時間變化的趨勢來看，要解決大模型的算力短缺問題，最直接的方式是提高單機的算力。從2016年到現(xiàn)在，AI服務(wù)器單機算力增長近100倍，功耗從4千瓦增長到12千瓦，下一代AI服務(wù)器的功耗繼續(xù)增長到18千瓦乃至20千瓦以上。AI服務(wù)器的系統(tǒng)架構(gòu)供電、散熱方式，以及數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)模式，將難以滿足未來高功耗AI服務(wù)器的部署需求。

　　其次，大模型參數(shù)量增長對GPU數(shù)量的需求也隨之增加，需要更大的顯存容量承載。2021年，一個千億規(guī)模的大模型需要3,000 GB顯存容量空間承載，換算過來需要將近40張80G的GPU才能放得下這個模型，包括權(quán)重參數(shù)、梯度數(shù)據(jù)、優(yōu)化值數(shù)據(jù)和激活值數(shù)據(jù)。今天，很多大模型的參數(shù)量已經(jīng)超過了萬億規(guī)模，顯存容量將會達(dá)到30,000GB，需要將近400塊80G顯存的GPU才能承載，這意味著需要更大規(guī)模的算力平臺才能進行如此規(guī)模大模型的訓(xùn)練。

　　更大規(guī)模的平臺會帶來另外一個問題，即卡與卡之間、不同的節(jié)點之間的更多通信，大模型的訓(xùn)練需要融合多種并行策略，對卡間P2P互連帶寬以及跨節(jié)點互聯(lián)帶寬提出了更高的要求。

　　以2457億參數(shù)的“源1.0”大模型訓(xùn)練的工程實踐為例，“源1.0”訓(xùn)練共有1800億Token，顯存容量需求7.4TB，訓(xùn)練過程中融合了張量并行、流水行并行、數(shù)據(jù)并行三種策略。單節(jié)點張量并行通信頻次達(dá)到每秒82.4次，節(jié)點內(nèi)通信帶寬最低需求達(dá)到194GB/s。計算節(jié)點內(nèi)會開展流水線并行，跨節(jié)點通信帶寬達(dá)到26.8GB/s，至少需要300Gbps通信帶寬才能滿足流水線并行訓(xùn)練的帶寬需求。在訓(xùn)練“源1.0”過程中，實際用到兩張200Gbps網(wǎng)卡進行跨節(jié)點通信，數(shù)據(jù)并行通信頻次低但數(shù)據(jù)量大，帶寬需求至少要達(dá)到8.8GB/s，單機400Gbps的帶寬可以滿足。

　　隨著模型參數(shù)量進一步增加以及GPU算力的成倍增加，未來需要更高的互連帶寬才能滿足更大規(guī)模模型的訓(xùn)練需求。

　　開放加速計算為超大規(guī)模深度神經(jīng)網(wǎng)絡(luò)而生

　　面向AIGC大模型訓(xùn)練的計算系統(tǒng)需要具備三個主要特征，一是大算力，二是高互聯(lián)，三是強擴展，傳統(tǒng)的PCIe CEM形態(tài)的加速卡很難滿足三個特征需求，因此越來越多的芯片廠商都開發(fā)了非PCIe形態(tài)的加速卡。

　　開放計算組織OCP在2019年發(fā)布了專門面向大模型訓(xùn)練的加速計算系統(tǒng)架構(gòu)，核心是UBB和OAM標(biāo)準(zhǔn)，特點是大算力。Mezz扣卡形態(tài)的加速器具備更高的散熱和互聯(lián)能力，可以承載具有更高算力的芯片。同時，它有非常強的跨節(jié)點擴展能力，可以很輕易地擴展到千卡、萬卡級的平臺，支撐大模型的訓(xùn)練。這個架構(gòu)是天然適用于超大規(guī)模深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的計算架構(gòu)�！　�

　　但是，在OAM產(chǎn)業(yè)落地過程中，很多廠商所開發(fā)的加速卡依然存在硬件接口不統(tǒng)一、互連協(xié)議不統(tǒng)一，同時軟件生態(tài)互不兼容，帶來了新型AI加速卡系統(tǒng)適配周期長、定制投入成本高的落地難題，導(dǎo)致算力供給和算力需求之間的剪刀差不斷加大，行業(yè)亟需更加開放的算力平臺，以及更加多元的算力支撐大模型的訓(xùn)練。

　　對此，浪潮信息開展了大量工作，包括技術(shù)上的預(yù)研和對產(chǎn)業(yè)生態(tài)的貢獻(xiàn)。2019年開始，浪潮信息牽頭主導(dǎo)了OAM標(biāo)準(zhǔn)的制定，發(fā)布了首款開放加速基板UBB，同時開發(fā)了全球首款開放加速參考系統(tǒng)MX1，并協(xié)同業(yè)界領(lǐng)先的芯片廠商一起完成了OAM形態(tài)加速卡的適配，證明了這條技術(shù)路線的可行性。為了推動符合OAM開放加速規(guī)范的系統(tǒng)產(chǎn)業(yè)化落地，浪潮信息開發(fā)了第一款“ALL IN ONE” OAM服務(wù)器產(chǎn)品，把CPU和OAM加速卡集成到一臺19英寸機箱中，實現(xiàn)數(shù)據(jù)中心級的快速部署，并在眾多客戶的智算中心落地應(yīng)用。

　　此后，OAM 芯片的算力和功耗在不斷提升，同時數(shù)據(jù)中心對于綠色節(jié)能的要求也越來越高。對此，我們開發(fā)了第一款液冷OAM服務(wù)器，可以實現(xiàn)8顆OAM加速器和兩顆高功耗的CPU的液冷散熱，整個液冷散熱覆蓋率超過90%，基于這款產(chǎn)品構(gòu)建的液冷OAM智算中心解決方案，千卡平臺穩(wěn)定運行狀態(tài)下PUE值小于1.1。而浪潮信息剛剛發(fā)布的新一代的OAM服務(wù)器NF5698G7，基于全PCIe Gen5鏈路，H2D互聯(lián)能力提升4倍，為新一代OAM研發(fā)提供了更加先進的部署平臺。

　　通過平臺架構(gòu)設(shè)計和算力算法協(xié)同設(shè)計解決能耗問題

　　僅僅提供算力平臺是不夠的，目前數(shù)據(jù)中心面臨著巨大的能耗挑戰(zhàn)，尤其是面向大模型訓(xùn)練的AI服務(wù)器，單機功耗輕易超過6-7千瓦�！　�

　　一個公式可以快速計算訓(xùn)練一個大模型所需要的整體耗電量(E)：分子用6倍模型參數(shù)量和訓(xùn)練過程中所用到的Token數(shù)量表征大模型訓(xùn)練所需要的算力當(dāng)量，分母用加速卡的數(shù)量還有單張加速卡的算力性能表征智算基礎(chǔ)設(shè)施所能夠提供的整體算力性能，二者相除的結(jié)果代表的是訓(xùn)練大模型所需要的時間，乘以Ecluster指標(biāo)(大模型訓(xùn)練平臺每日耗電量)即可得到整體耗電量。那么，在選定模型并且有確定卡數(shù)和規(guī)模的情況下，只有通過優(yōu)化單卡算力值，或者降低單個平臺的耗電量，才能優(yōu)化大模型訓(xùn)練所需的整體耗電量。

　　針對這兩個參數(shù)的優(yōu)化，我們做了進一步研究。通過兩張表格了呈現(xiàn)不同大模型訓(xùn)練平臺網(wǎng)絡(luò)架構(gòu)設(shè)計下，平臺功耗和相應(yīng)的大模型訓(xùn)練整體功耗的對比。以單機2張網(wǎng)卡(NIC)組網(wǎng)方案和單機8張網(wǎng)卡(NIC)組網(wǎng)方案為例，雖然不同網(wǎng)卡數(shù)量帶來的單機功耗影響并不顯著，然而放到整個計算平臺層面，網(wǎng)卡數(shù)量增加導(dǎo)致交換機數(shù)量增加，總功耗會有顯著差異，8網(wǎng)卡方案總功耗可達(dá)2000多千瓦，2網(wǎng)卡方案只有1600多千瓦，2張網(wǎng)卡方案可以節(jié)省功耗18%。

　　因此，面向?qū)嶋H應(yīng)用需求，通過精細(xì)化地計算大模型訓(xùn)練所需要的網(wǎng)絡(luò)帶寬，可以在不影響性能的前提下，顯著地優(yōu)化總功耗�！霸础贝竽Ｐ陀�(xùn)練過程當(dāng)中，僅僅使用了兩張200G的IB卡就完成2457億參數(shù)模型的訓(xùn)練，這是我們發(fā)現(xiàn)的第一個優(yōu)化訓(xùn)練平臺總功耗的技術(shù)路徑。

　　第二，提高單卡算力利用率以實現(xiàn)提效節(jié)能，也是非常重要的一個命題。經(jīng)我們測試，采用算法和算力架構(gòu)協(xié)同設(shè)計的方法，基于算力基礎(chǔ)設(shè)施的技術(shù)特點，深度優(yōu)化模型的參數(shù)結(jié)構(gòu)和訓(xùn)練策略，可以用更短的時間完成同等規(guī)模模型的訓(xùn)練。以GPT-3模型的訓(xùn)練為例，模型訓(xùn)練時間可以從15天優(yōu)化為12天，總耗電量節(jié)省達(dá)到33%。

　　以上兩點可以說明，應(yīng)用導(dǎo)向的架構(gòu)設(shè)計，以及算力和算法的協(xié)同設(shè)計，能夠?qū)崿F(xiàn)更高效的大模型訓(xùn)練，最終加速節(jié)能降碳目標(biāo)的實現(xiàn)。

　　綠色開放加速平臺，賦力大模型高效釋放算力

　　基于上述在開放計算、高效計算的技術(shù)、產(chǎn)品和方法的創(chuàng)新和研究，浪潮信息正在積極構(gòu)建面向生成式AI的綠色開放加速智算平臺。

　　去年協(xié)同合作伙伴發(fā)布的液冷開放加速智算中心解決方案，首先具有非常高的算力性能;其次，可以實現(xiàn)千芯級大規(guī)模擴展，支撐超千億規(guī)模模型訓(xùn)練;同時，先進液冷技術(shù)使整個平臺的PUE大幅優(yōu)化。

　　同時，浪潮信息也在積極構(gòu)建全棧開放加速智算能力，除了提供底層的AI計算平臺，上層有AI資源平臺，能夠在資源管理層通過統(tǒng)一接口實現(xiàn)對于30余種多元算力芯片的統(tǒng)一的調(diào)度和管理。再往上是AI算法平臺，提供開源的深度學(xué)習(xí)算法框架、大模型以及開放的數(shù)據(jù)集。在此之上是算力服務(wù)，包括算力、模型數(shù)據(jù)、交付、運維等多種服務(wù)模式。最上層是擁有4000多家合作伙伴的元腦生態(tài)，浪潮信息和生態(tài)合作伙伴共同開展開放加速計算方案的設(shè)計，并成功地推向產(chǎn)業(yè)落地。

　　基于開放加速規(guī)范的AI計算平臺目前已經(jīng)適配20多種業(yè)界主流的大模型，包括大家非常熟悉的GPT系列、LLaMA、Chat GLM、“源”，同時還支持多類擴散模型適配。

　　“助百芯，智千�！� 加速多元算力落地

　　在AIGC技術(shù)和產(chǎn)業(yè)快速發(fā)展過程中，雖然業(yè)界已經(jīng)制定了開放加速計算相關(guān)規(guī)范，但產(chǎn)業(yè)落地還存在一些問題。比如，開放計算系統(tǒng)定制化程度高，規(guī)范覆蓋的領(lǐng)域不足，包括多元算力芯片的系統(tǒng)適配、管理和調(diào)度，以及深度學(xué)習(xí)環(huán)境的部署等等。

　　在OAM規(guī)范基礎(chǔ)上，日前《開放加速規(guī)范AI服務(wù)器設(shè)計指南》發(fā)布，基于當(dāng)前AIGC產(chǎn)業(yè)背景下客戶的痛點，定義了開放加速服務(wù)器設(shè)計的原則，包括應(yīng)用導(dǎo)向、多元開放、綠色高效、統(tǒng)籌設(shè)計。同時對服務(wù)器設(shè)計方法進行深化和細(xì)化，包括從節(jié)點層到平臺層的多維協(xié)同設(shè)計方案。方案充分考量適配和研發(fā)過程中遇到的問題，進一步細(xì)化了節(jié)點到平臺的設(shè)計參數(shù)，最終目的是提高多元算力芯片的開發(fā)和適配、部署效率。

　　由于面向AIGC訓(xùn)練的服務(wù)器具有非常多的高功耗芯片以及高互連帶寬設(shè)計，穩(wěn)定性問題嚴(yán)峻，需要更加全面的測試保證系統(tǒng)穩(wěn)定性，減少斷點的發(fā)生和對大模型訓(xùn)練效率的影響。因此，《指南》提供了從結(jié)構(gòu)、散熱、壓力、穩(wěn)定性、軟件兼容性等全面系統(tǒng)的測試指導(dǎo)。

　　最后，多元算力要推向產(chǎn)業(yè)應(yīng)用，最關(guān)鍵的是性能，包括芯片性能、互連性能、模型性能以及虛擬化性能。《指南》基于前期積累的Benchmark調(diào)優(yōu)經(jīng)驗，提出了性能測評和調(diào)優(yōu)標(biāo)準(zhǔn)及方法，幫助合作伙伴更快、更好地將他們最新的芯片產(chǎn)品推向應(yīng)用落地，提高算力的可用性。最終目標(biāo)是推動整個AI算力產(chǎn)業(yè)的創(chuàng)新和發(fā)展，協(xié)同產(chǎn)業(yè)鏈上下游合作伙伴推動整個開放加速生態(tài)，共同應(yīng)對AIGC時代的算力挑戰(zhàn)。

　　謝謝大家!

　　消息來源：浪潮信息

免責(zé)聲明：

※ 以上所展示的信息來自媒體轉(zhuǎn)載或由企業(yè)自行提供，其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本網(wǎng)站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本網(wǎng)站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。如果以上內(nèi)容侵犯您的版權(quán)或者非授權(quán)發(fā)布和其它問題需要同本網(wǎng)聯(lián)系的，請在30日內(nèi)進行。
※ 有關(guān)作品版權(quán)事宜請聯(lián)系中國企業(yè)新聞網(wǎng)：020-34333079 郵箱：cenn_gd@126.com 我們將在24小時內(nèi)審核并處理。

分享到：

[責(zé)任編輯：姚小冰]