六度影院鲁鲁片在线看_亚洲av无码乱码国产精品_国产精品一二三入口播放_国产一区二区不卡高清更新

網(wǎng)站首頁| 網(wǎng)站地圖| RSS

中國網(wǎng)圈網(wǎng)| 加入收藏夾 設(shè)為首頁

熱門關(guān)鍵字: 創(chuàng)新產(chǎn)業(yè)央企創(chuàng)業(yè)國企鄉(xiāng)村振興大數(shù)據(jù)大灣區(qū)企業(yè)廣州

廣州東尼照明科技有限公司
御美養(yǎng)生美容
金煌裝飾
利富塑電

企業(yè)發(fā)布

首頁 > 企業(yè)發(fā)布 > 詳細(xì)內(nèi)容

KubeCon熱點(diǎn)報(bào)告:AIStation調(diào)度平臺(tái)實(shí)現(xiàn)RoCE網(wǎng)絡(luò)下大模型的高效穩(wěn)定訓(xùn)練

2023/10/16 16:05:40 來源:中國企業(yè)新聞網(wǎng)

導(dǎo)言:近日,在KubeCon + CloudNativeCon + Open Source Summit China 2023大會(huì)(簡稱"開源技術(shù)峰會(huì)")上,浪潮信息分享了"基于Kubernetes+RoCEv2構(gòu)建大規(guī)模AI基礎(chǔ)設(shè)施與大模型訓(xùn)練實(shí)踐"主題報(bào)告,介紹了浪潮信息在大模型開發(fā)過程中,尤其在大規(guī)模RoCE網(wǎng)絡(luò)的使用場(chǎng)景,如何通過AIStation人工智能算力調(diào)度平臺(tái)滿足大模型訓(xùn)練的穩(wěn)定性和效率要求,實(shí)現(xiàn)高效長時(shí)間持續(xù)訓(xùn)練。

  近日,在KubeCon + CloudNativeCon + Open Source Summit China 2023大會(huì)(簡稱"開源技術(shù)峰會(huì)")上,浪潮信息分享了"基于Kubernetes+RoCEv2構(gòu)建大規(guī)模AI基礎(chǔ)設(shè)施與大模型訓(xùn)練實(shí)踐"主題報(bào)告,介紹了浪潮信息在大模型開發(fā)過程中,尤其在大規(guī)模RoCE網(wǎng)絡(luò)的使用場(chǎng)景,如何通過AIStation人工智能算力調(diào)度平臺(tái)滿足大模型訓(xùn)練的穩(wěn)定性和效率要求,實(shí)現(xiàn)高效長時(shí)間持續(xù)訓(xùn)練。

  KubeCon + CloudNativeCon + Open Source Summit是Linux基金會(huì)、云原生計(jì)算基金會(huì)(CNCF)主辦的開源和云原生領(lǐng)域的旗艦盛會(huì),在業(yè)界享有極高的聲譽(yù),來自谷歌、亞馬遜、英特爾、Hugging Face等知名企業(yè)的近百位全球技術(shù)專家及行業(yè)領(lǐng)袖齊聚本屆大會(huì),帶來最前沿的云原生相關(guān)技術(shù)成果和技術(shù)洞察。

  大模型訓(xùn)練遇RoCE網(wǎng)絡(luò)性能低、斷點(diǎn)難題

  大模型是當(dāng)前通用人工智能產(chǎn)業(yè)發(fā)展創(chuàng)新的核心技術(shù)。但大模型訓(xùn)練過程非常復(fù)雜,面臨諸多挑戰(zhàn)。

  一方面,大模型訓(xùn)練對(duì)通信的要求非常高。為了獲得最優(yōu)的訓(xùn)練效果,單臺(tái)GPU服務(wù)器會(huì)搭載多張InfiniBand、ROCE等高性能網(wǎng)卡,為節(jié)點(diǎn)間通信提供高吞吐、低時(shí)延的服務(wù)。但不同的網(wǎng)絡(luò)方案各有優(yōu)劣,InfiniBand因性能優(yōu)異已被公認(rèn)為大模型訓(xùn)練的首選,但其成本較高;RoCE雖然成本較低,但在大規(guī)模的網(wǎng)絡(luò)環(huán)境下,其性能和穩(wěn)定性不如InfiniBand方案。因此要想滿足大模型訓(xùn)練對(duì)通信的要求,就要對(duì)集群網(wǎng)絡(luò)中的通信設(shè)備適配使用和網(wǎng)絡(luò)情況進(jìn)行探索和設(shè)計(jì)。

  另一方面,大模型訓(xùn)練周期通常長達(dá)數(shù)月,集群計(jì)算效力低、故障頻發(fā)且處理復(fù)雜,會(huì)導(dǎo)致訓(xùn)練中斷后不能及時(shí)恢復(fù),從而降低大模型訓(xùn)練的成功率,也會(huì)使得訓(xùn)練成本居高不下。Meta在訓(xùn)練Open Pre-trained Transformer (OPT)-175B大模型時(shí),遇到的一大工程問題就是訓(xùn)練不穩(wěn)定,Meta訓(xùn)練日志顯示兩個(gè)星期內(nèi)因硬件、基礎(chǔ)設(shè)施或?qū)嶒?yàn)穩(wěn)定性問題重新啟動(dòng)了40多次。

  AIStation實(shí)現(xiàn)RoCE網(wǎng)絡(luò)下大模型高效穩(wěn)定訓(xùn)練

  針對(duì)大模型研發(fā)和應(yīng)用各環(huán)節(jié)的諸多挑戰(zhàn),浪潮信息發(fā)布了大模型智算軟件棧OGAI(Open GenAI Infra)——"元腦生智",為大模型業(yè)務(wù)提供了全棧全流程的智算軟件棧。OGAI軟件棧由5層架構(gòu)組成,其中L2層AIStation針對(duì)大模型訓(xùn)練中常見的"RoCE網(wǎng)絡(luò)性能和穩(wěn)定性低"、"訓(xùn)練中斷"難題,提供了性能和兼容性俱佳的網(wǎng)絡(luò)方案和斷點(diǎn)續(xù)訓(xùn)能力,為大模型訓(xùn)練保駕護(hù)航。

  1. 優(yōu)化RoCE網(wǎng)絡(luò)下的大模型訓(xùn)練,提升網(wǎng)絡(luò)性能和穩(wěn)定性

  AIStation能夠制定合理的作業(yè)執(zhí)行計(jì)劃,以最大限度地利用資源,滿足訓(xùn)練任務(wù)的時(shí)延和吞吐需求。AIStation優(yōu)化調(diào)度系統(tǒng)性能,實(shí)現(xiàn)了上千POD極速啟動(dòng)和環(huán)境就緒。尤其AIStation對(duì)大規(guī)模RoCE無損網(wǎng)絡(luò)下的大模型訓(xùn)練也做了相應(yīng)優(yōu)化,實(shí)測(cè)網(wǎng)絡(luò)性能穩(wěn)定性達(dá)到了業(yè)界較高水平。

  AIStation通過PFC+ECN構(gòu)建無損以太網(wǎng)絡(luò),在交換機(jī)側(cè)控制方面,PFC在數(shù)據(jù)鏈路層基于報(bào)文-隊(duì)列優(yōu)先級(jí),在交換機(jī)入口側(cè)進(jìn)行擁塞控制,ECN在網(wǎng)絡(luò)層基于數(shù)據(jù)包頭中的標(biāo)識(shí)位,在交換機(jī)出口側(cè)進(jìn)行擁塞控制。主機(jī)容器側(cè)控制則為Kubernetes的Pod,基于Linux、OFED驅(qū)動(dòng)進(jìn)行擁塞控制。該方案資源使用靈活,且經(jīng)過多輪次的GPU分配與回收,解決了GPU分布的碎片化問題。

  基于PFC+ECN構(gòu)建無損以太網(wǎng)絡(luò)

  在大模型訓(xùn)練場(chǎng)景,AIStation通過Calico構(gòu)建元數(shù)據(jù)交換網(wǎng)絡(luò),基于物理RoCE網(wǎng)卡構(gòu)建RDMA通訊網(wǎng)絡(luò),并通過CNI和虛擬化插件實(shí)現(xiàn)IP分配,使POD內(nèi)大模型訓(xùn)練任務(wù)能夠充分利用NCCL的PXN等通信優(yōu)化特性,實(shí)現(xiàn)網(wǎng)絡(luò)的高效使用。

  借助AIStation平臺(tái),某大型商業(yè)銀行完成了主流大模型訓(xùn)練框架,如DeepSpeed、Megatron-LM和大語言模型在RoCE網(wǎng)絡(luò)環(huán)境下的訓(xùn)練,快速實(shí)現(xiàn)大模型的落地實(shí)踐。

  2. 內(nèi)置監(jiān)控系統(tǒng)和智能運(yùn)維模塊,保障大模型穩(wěn)定訓(xùn)練

  健壯性與穩(wěn)定性是高效完成大模型訓(xùn)練的必要條件。利用AIStation內(nèi)置的監(jiān)控全面的監(jiān)控系統(tǒng)和智能運(yùn)維模塊,可以快速定位芯片、網(wǎng)卡、通訊設(shè)備異常或故障。同時(shí)對(duì)訓(xùn)練任務(wù)進(jìn)行暫停保持,再從熱備算力中進(jìn)行自動(dòng)彈性替換異常節(jié)點(diǎn),最后利用健康節(jié)點(diǎn)進(jìn)行快速checkpoint讀取,實(shí)現(xiàn)大模型斷點(diǎn)自動(dòng)續(xù)訓(xùn)。

  大規(guī)模預(yù)訓(xùn)練任務(wù)的異常處理和斷點(diǎn)續(xù)訓(xùn)流程

  3. 自動(dòng)配置環(huán)境,快速構(gòu)建大模型訓(xùn)練任務(wù)

  AIStation實(shí)現(xiàn)了計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等訓(xùn)練環(huán)境的自動(dòng)化配置,同時(shí)允許用戶自定義基本的超參數(shù),只需簡單幾步,就能啟動(dòng)大模型分布式訓(xùn)練。并且,AIStation還集成了主流的大模型訓(xùn)練框架,包括Megatron-LM、DeepSpeed、HunggingFace上的諸多開源解決方案,實(shí)現(xiàn)了秒級(jí)構(gòu)建運(yùn)行環(huán)境。能夠幫助開發(fā)者在大規(guī)模集群環(huán)境下便捷地提交分布式任務(wù)。調(diào)度系統(tǒng)根據(jù)分布式任務(wù)對(duì)GPU算力的需求,通過多種親和性調(diào)度策略,大大降低構(gòu)建分布式訓(xùn)練任務(wù)的技術(shù)門檻。

  AIStation平臺(tái)在AI開發(fā)、應(yīng)用部署和大模型工程實(shí)踐上積累了寶貴的經(jīng)驗(yàn)和技術(shù),幫助諸多行業(yè)客戶在資源、開發(fā)、部署層面實(shí)現(xiàn)降本增效。在垂直行業(yè)領(lǐng)域,AIStation平臺(tái)幫助頭部金融客戶、生物制藥服務(wù)公司快速利用密集數(shù)據(jù)訓(xùn)練、驗(yàn)證大模型,大大降低大模型業(yè)務(wù)成本。某大型商業(yè)銀行基于AIStation打造的并行運(yùn)算集群,憑借領(lǐng)先的大規(guī)模分布式訓(xùn)練支撐能力,榮獲2022 IDC"未來數(shù)字基礎(chǔ)架構(gòu)領(lǐng)軍者"獎(jiǎng)項(xiàng)。

  浪潮信息AIStation在大模型方面已經(jīng)取得了諸多業(yè)界領(lǐng)先的經(jīng)驗(yàn)和積累,實(shí)現(xiàn)了端到端的優(yōu)化,是更適合大模型時(shí)代的AI算力調(diào)度平臺(tái)。未來AIStation進(jìn)一步通過低代碼、標(biāo)準(zhǔn)化的大模型開發(fā)流程,以及低成本和高效的推理服務(wù)部署,幫助客戶快速實(shí)現(xiàn)大模型開發(fā)和落地,加速生成式AI發(fā)展。

免責(zé)聲明:

※ 以上所展示的信息來自媒體轉(zhuǎn)載或由企業(yè)自行提供,其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本網(wǎng)站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本網(wǎng)站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。如果以上內(nèi)容侵犯您的版權(quán)或者非授權(quán)發(fā)布和其它問題需要同本網(wǎng)聯(lián)系的,請(qǐng)?jiān)?0日內(nèi)進(jìn)行。
※ 有關(guān)作品版權(quán)事宜請(qǐng)聯(lián)系中國企業(yè)新聞網(wǎng):020-34333079 郵箱:cenn_gd@126.com 我們將在24小時(shí)內(nèi)審核并處理。

分享到:
[責(zé)任編輯:姚小冰]
更多新聞,請(qǐng)關(guān)注
中國企業(yè)新聞網(wǎng)

標(biāo)簽 :

關(guān)于我們 | CENN服務(wù) | 對(duì)外合作 | 刊登廣告 | 法律聲明 | 聯(lián)系我們 | 手機(jī)版
客戶服務(wù)熱線:020-34333079、34333137 舉報(bào)電話:020-34333002 投稿郵箱:cenn_gd@126.com
版權(quán)所有:中國企業(yè)新聞網(wǎng) 運(yùn)營商:廣州至高點(diǎn)網(wǎng)絡(luò)科技投資有限公司 地址:廣州市海珠區(qū)江燕路353號(hào)保利紅棉48棟1004

粵ICP備12024738號(hào)-1 粵公網(wǎng)安備 44010602001889號(hào)

竹山县| 宜兰市| 冕宁县| 江孜县| 台江县| 托克托县| 林甸县| 温宿县| 迁西县| 孟州市| 台州市| 兴安县| 泊头市| 沾益县| 成安县| 龙岩市| 衡阳市| 星座| 和硕县| 大庆市| 广南县| 分宜县| 九龙坡区| 金山区| 新晃| 肇州县| 融水| 樟树市| 峡江县| 婺源县| 南澳县| 锡林浩特市| 唐河县| 常州市| 湘阴县| 南投市| 泉州市| 玛纳斯县| 页游| 临夏县| 沛县|