六度影院鲁鲁片在线看_亚洲av无码乱码国产精品_国产精品一二三入口播放_国产一区二区不卡高清更新

網(wǎng)站首頁| 網(wǎng)站地圖| RSS

中國網(wǎng)圈網(wǎng)| 加入收藏夾 設(shè)為首頁

熱門關(guān)鍵字: 創(chuàng)新產(chǎn)業(yè)央企創(chuàng)業(yè)國企鄉(xiāng)村振興大數(shù)據(jù)大灣區(qū)企業(yè)廣州

廣州東尼照明科技有限公司
御美養(yǎng)生美容
金煌裝飾
利富塑電

企業(yè)發(fā)布

首頁 > 企業(yè)發(fā)布 > 詳細內(nèi)容

KubeCon熱點報告:AIStation調(diào)度平臺實現(xiàn)RoCE網(wǎng)絡(luò)下大模型的高效穩(wěn)定訓(xùn)練

2023/10/16 16:05:40 來源:中國企業(yè)新聞網(wǎng)

導(dǎo)言:近日,在KubeCon + CloudNativeCon + Open Source Summit China 2023大會(簡稱"開源技術(shù)峰會")上,浪潮信息分享了"基于Kubernetes+RoCEv2構(gòu)建大規(guī)模AI基礎(chǔ)設(shè)施與大模型訓(xùn)練實踐"主題報告,介紹了浪潮信息在大模型開發(fā)過程中,尤其在大規(guī)模RoCE網(wǎng)絡(luò)的使用場景,如何通過AIStation人工智能算力調(diào)度平臺滿足大模型訓(xùn)練的穩(wěn)定性和效率要求,實現(xiàn)高效長時間持續(xù)訓(xùn)練。

  近日,在KubeCon + CloudNativeCon + Open Source Summit China 2023大會(簡稱"開源技術(shù)峰會")上,浪潮信息分享了"基于Kubernetes+RoCEv2構(gòu)建大規(guī)模AI基礎(chǔ)設(shè)施與大模型訓(xùn)練實踐"主題報告,介紹了浪潮信息在大模型開發(fā)過程中,尤其在大規(guī)模RoCE網(wǎng)絡(luò)的使用場景,如何通過AIStation人工智能算力調(diào)度平臺滿足大模型訓(xùn)練的穩(wěn)定性和效率要求,實現(xiàn)高效長時間持續(xù)訓(xùn)練。

  KubeCon + CloudNativeCon + Open Source Summit是Linux基金會、云原生計算基金會(CNCF)主辦的開源和云原生領(lǐng)域的旗艦盛會,在業(yè)界享有極高的聲譽,來自谷歌、亞馬遜、英特爾、Hugging Face等知名企業(yè)的近百位全球技術(shù)專家及行業(yè)領(lǐng)袖齊聚本屆大會,帶來最前沿的云原生相關(guān)技術(shù)成果和技術(shù)洞察。

  大模型訓(xùn)練遇RoCE網(wǎng)絡(luò)性能低、斷點難題

  大模型是當(dāng)前通用人工智能產(chǎn)業(yè)發(fā)展創(chuàng)新的核心技術(shù)。但大模型訓(xùn)練過程非常復(fù)雜,面臨諸多挑戰(zhàn)。

  一方面,大模型訓(xùn)練對通信的要求非常高。為了獲得最優(yōu)的訓(xùn)練效果,單臺GPU服務(wù)器會搭載多張InfiniBand、ROCE等高性能網(wǎng)卡,為節(jié)點間通信提供高吞吐、低時延的服務(wù)。但不同的網(wǎng)絡(luò)方案各有優(yōu)劣,InfiniBand因性能優(yōu)異已被公認(rèn)為大模型訓(xùn)練的首選,但其成本較高;RoCE雖然成本較低,但在大規(guī)模的網(wǎng)絡(luò)環(huán)境下,其性能和穩(wěn)定性不如InfiniBand方案。因此要想滿足大模型訓(xùn)練對通信的要求,就要對集群網(wǎng)絡(luò)中的通信設(shè)備適配使用和網(wǎng)絡(luò)情況進行探索和設(shè)計。

  另一方面,大模型訓(xùn)練周期通常長達數(shù)月,集群計算效力低、故障頻發(fā)且處理復(fù)雜,會導(dǎo)致訓(xùn)練中斷后不能及時恢復(fù),從而降低大模型訓(xùn)練的成功率,也會使得訓(xùn)練成本居高不下。Meta在訓(xùn)練Open Pre-trained Transformer (OPT)-175B大模型時,遇到的一大工程問題就是訓(xùn)練不穩(wěn)定,Meta訓(xùn)練日志顯示兩個星期內(nèi)因硬件、基礎(chǔ)設(shè)施或?qū)嶒灧(wěn)定性問題重新啟動了40多次。

  AIStation實現(xiàn)RoCE網(wǎng)絡(luò)下大模型高效穩(wěn)定訓(xùn)練

  針對大模型研發(fā)和應(yīng)用各環(huán)節(jié)的諸多挑戰(zhàn),浪潮信息發(fā)布了大模型智算軟件棧OGAI(Open GenAI Infra)——"元腦生智",為大模型業(yè)務(wù)提供了全棧全流程的智算軟件棧。OGAI軟件棧由5層架構(gòu)組成,其中L2層AIStation針對大模型訓(xùn)練中常見的"RoCE網(wǎng)絡(luò)性能和穩(wěn)定性低"、"訓(xùn)練中斷"難題,提供了性能和兼容性俱佳的網(wǎng)絡(luò)方案和斷點續(xù)訓(xùn)能力,為大模型訓(xùn)練保駕護航。

  1. 優(yōu)化RoCE網(wǎng)絡(luò)下的大模型訓(xùn)練,提升網(wǎng)絡(luò)性能和穩(wěn)定性

  AIStation能夠制定合理的作業(yè)執(zhí)行計劃,以最大限度地利用資源,滿足訓(xùn)練任務(wù)的時延和吞吐需求。AIStation優(yōu)化調(diào)度系統(tǒng)性能,實現(xiàn)了上千POD極速啟動和環(huán)境就緒。尤其AIStation對大規(guī)模RoCE無損網(wǎng)絡(luò)下的大模型訓(xùn)練也做了相應(yīng)優(yōu)化,實測網(wǎng)絡(luò)性能穩(wěn)定性達到了業(yè)界較高水平。

  AIStation通過PFC+ECN構(gòu)建無損以太網(wǎng)絡(luò),在交換機側(cè)控制方面,PFC在數(shù)據(jù)鏈路層基于報文-隊列優(yōu)先級,在交換機入口側(cè)進行擁塞控制,ECN在網(wǎng)絡(luò)層基于數(shù)據(jù)包頭中的標(biāo)識位,在交換機出口側(cè)進行擁塞控制。主機容器側(cè)控制則為Kubernetes的Pod,基于Linux、OFED驅(qū)動進行擁塞控制。該方案資源使用靈活,且經(jīng)過多輪次的GPU分配與回收,解決了GPU分布的碎片化問題。

  基于PFC+ECN構(gòu)建無損以太網(wǎng)絡(luò)

  在大模型訓(xùn)練場景,AIStation通過Calico構(gòu)建元數(shù)據(jù)交換網(wǎng)絡(luò),基于物理RoCE網(wǎng)卡構(gòu)建RDMA通訊網(wǎng)絡(luò),并通過CNI和虛擬化插件實現(xiàn)IP分配,使POD內(nèi)大模型訓(xùn)練任務(wù)能夠充分利用NCCL的PXN等通信優(yōu)化特性,實現(xiàn)網(wǎng)絡(luò)的高效使用。

  借助AIStation平臺,某大型商業(yè)銀行完成了主流大模型訓(xùn)練框架,如DeepSpeed、Megatron-LM和大語言模型在RoCE網(wǎng)絡(luò)環(huán)境下的訓(xùn)練,快速實現(xiàn)大模型的落地實踐。

  2. 內(nèi)置監(jiān)控系統(tǒng)和智能運維模塊,保障大模型穩(wěn)定訓(xùn)練

  健壯性與穩(wěn)定性是高效完成大模型訓(xùn)練的必要條件。利用AIStation內(nèi)置的監(jiān)控全面的監(jiān)控系統(tǒng)和智能運維模塊,可以快速定位芯片、網(wǎng)卡、通訊設(shè)備異;蚬收。同時對訓(xùn)練任務(wù)進行暫停保持,再從熱備算力中進行自動彈性替換異常節(jié)點,最后利用健康節(jié)點進行快速checkpoint讀取,實現(xiàn)大模型斷點自動續(xù)訓(xùn)。

  大規(guī)模預(yù)訓(xùn)練任務(wù)的異常處理和斷點續(xù)訓(xùn)流程

  3. 自動配置環(huán)境,快速構(gòu)建大模型訓(xùn)練任務(wù)

  AIStation實現(xiàn)了計算、存儲、網(wǎng)絡(luò)等訓(xùn)練環(huán)境的自動化配置,同時允許用戶自定義基本的超參數(shù),只需簡單幾步,就能啟動大模型分布式訓(xùn)練。并且,AIStation還集成了主流的大模型訓(xùn)練框架,包括Megatron-LM、DeepSpeed、HunggingFace上的諸多開源解決方案,實現(xiàn)了秒級構(gòu)建運行環(huán)境。能夠幫助開發(fā)者在大規(guī)模集群環(huán)境下便捷地提交分布式任務(wù)。調(diào)度系統(tǒng)根據(jù)分布式任務(wù)對GPU算力的需求,通過多種親和性調(diào)度策略,大大降低構(gòu)建分布式訓(xùn)練任務(wù)的技術(shù)門檻。

  AIStation平臺在AI開發(fā)、應(yīng)用部署和大模型工程實踐上積累了寶貴的經(jīng)驗和技術(shù),幫助諸多行業(yè)客戶在資源、開發(fā)、部署層面實現(xiàn)降本增效。在垂直行業(yè)領(lǐng)域,AIStation平臺幫助頭部金融客戶、生物制藥服務(wù)公司快速利用密集數(shù)據(jù)訓(xùn)練、驗證大模型,大大降低大模型業(yè)務(wù)成本。某大型商業(yè)銀行基于AIStation打造的并行運算集群,憑借領(lǐng)先的大規(guī)模分布式訓(xùn)練支撐能力,榮獲2022 IDC"未來數(shù)字基礎(chǔ)架構(gòu)領(lǐng)軍者"獎項。

  浪潮信息AIStation在大模型方面已經(jīng)取得了諸多業(yè)界領(lǐng)先的經(jīng)驗和積累,實現(xiàn)了端到端的優(yōu)化,是更適合大模型時代的AI算力調(diào)度平臺。未來AIStation進一步通過低代碼、標(biāo)準(zhǔn)化的大模型開發(fā)流程,以及低成本和高效的推理服務(wù)部署,幫助客戶快速實現(xiàn)大模型開發(fā)和落地,加速生成式AI發(fā)展。

免責(zé)聲明:

※ 以上所展示的信息來自媒體轉(zhuǎn)載或由企業(yè)自行提供,其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本網(wǎng)站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本網(wǎng)站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。如果以上內(nèi)容侵犯您的版權(quán)或者非授權(quán)發(fā)布和其它問題需要同本網(wǎng)聯(lián)系的,請在30日內(nèi)進行。
※ 有關(guān)作品版權(quán)事宜請聯(lián)系中國企業(yè)新聞網(wǎng):020-34333079 郵箱:cenn_gd@126.com 我們將在24小時內(nèi)審核并處理。

分享到:
[責(zé)任編輯:姚小冰]
更多新聞,請關(guān)注
中國企業(yè)新聞網(wǎng)

標(biāo)簽 :

關(guān)于我們 | CENN服務(wù) | 對外合作 | 刊登廣告 | 法律聲明 | 聯(lián)系我們 | 手機版
客戶服務(wù)熱線:020-34333079、34333137 舉報電話:020-34333002 投稿郵箱:cenn_gd@126.com
版權(quán)所有:中國企業(yè)新聞網(wǎng) 運營商:廣州至高點網(wǎng)絡(luò)科技投資有限公司 地址:廣州市海珠區(qū)江燕路353號保利紅棉48棟1004

粵ICP備12024738號-1 粵公網(wǎng)安備 44010602001889號

乌拉特前旗| 武陟县| 买车| 沈阳市| 屏边| 临漳县| 黑龙江省| 乡城县| 星座| 历史| 阜阳市| 六安市| 盐亭县| 六枝特区| 灵武市| 汽车| 图木舒克市| 建平县| 舟山市| 海丰县| 旌德县| 乃东县| 沾益县| 东丰县| 玉溪市| 兰溪市| 榆中县| 新安县| 栾城县| 东乡族自治县| 武冈市| 马尔康县| 石林| 乐陵市| 大同市| 朔州市| 葵青区| 台东县| 平原县| 同心县| 永嘉县|