六度影院鲁鲁片在线看_亚洲av无码乱码国产精品_国产精品一二三入口播放_国产一区二区不卡高清更新

網(wǎng)站首頁| 網(wǎng)站地圖| RSS

中國網(wǎng)圈網(wǎng)| 加入收藏夾 設為首頁

熱門關鍵字: 創(chuàng)新產(chǎn)業(yè)國企央企創(chuàng)業(yè)鄉(xiāng)村振興大數(shù)據(jù)大灣區(qū)天業(yè)天辰

御美養(yǎng)生美容
金煌裝飾
廣州東尼照明科技有限公司
雷格設計

企業(yè)發(fā)布

首頁 > 企業(yè)發(fā)布 > 詳細內(nèi)容

浪潮信息發(fā)布 "源2.0-M32" 開源大模型,大幅提升模算效率

2024/5/31 9:11:58 來源:中國企業(yè)新聞網(wǎng)

導言:5月28日,浪潮信息發(fā)布"源2.0-M32"開源大模型。"源2.0-M32"在基于"源2.0"系列大模型已有工作基礎上,創(chuàng)新性地提出和采用了"基于注意力機制的門控網(wǎng)絡"技術

  5月28日,浪潮信息發(fā)布"源2.0-M32"開源大模型。"源2.0-M32"在基于"源2.0"系列大模型已有工作基礎上,創(chuàng)新性地提出和采用了"基于注意力機制的門控網(wǎng)絡"技術,構建包含32個專家(Expert)的混合專家模型(MoE),并大幅提升了模型算力效率,模型運行時激活參數(shù)為37億,在業(yè)界主流基準評測中性能全面對標700億參數(shù)的LLaMA3開源大模型。

  在算法層面,源2.0-M32提出并采用了一種新型的算法結構:基于注意力機制的門控網(wǎng)絡(Attention Router),針對MoE模型核心的專家調(diào)度策略,這種新的算法結構關注專家模型之間的協(xié)同性度量,有效解決傳統(tǒng)門控網(wǎng)絡下,選擇兩個或多個專家參與計算時關聯(lián)性缺失的問題,使得專家之間協(xié)同處理數(shù)據(jù)的水平大為提升。源2.0-M32采用源2.0-2B為基礎模型設計,沿用并融合局部過濾增強的注意力機制(LFA, Localized Filtering-based Attention),通過先學習相鄰詞之間的關聯(lián)性,然后再計算全局關聯(lián)性的方法,能夠更好地學習到自然語言的局部和全局的語言特征,對于自然語言的關聯(lián)語義理解更準確,進而提升了模型精度。

  Figure1- 基于注意力機制的門控網(wǎng)絡(Attention Router)

  在數(shù)據(jù)層面,源2.0-M32基于2萬億的token進行訓練、覆蓋萬億量級的代碼、中英文書籍、百科、論文及合成數(shù)據(jù)。大幅擴展代碼數(shù)據(jù)占比至47.5%,從6類最流行的代碼擴充至619類,并通過對代碼中英文注釋的翻譯,將中文代碼數(shù)據(jù)量增大至1800億token。結合高效的數(shù)據(jù)清洗流程,滿足大模型訓練"豐富性、全面性、高質(zhì)量"的數(shù)據(jù)集需求;谶@些數(shù)據(jù)的整合和擴展,源2.0-M32在代碼生成、代碼理解、代碼推理、數(shù)學求解等方面有著出色的表現(xiàn)。

  在算力層面,源2.0-M32采用了流水并行的方法,綜合運用流水線并行+數(shù)據(jù)并行的策略,顯著降低了大模型對芯片間P2P帶寬的需求,為硬件差異較大訓練環(huán)境提供了一種高性能的訓練方法。針對MOE模型的稀疏專家計算,采用合并矩陣乘法的方法,模算效率得到大幅提升。

  基于在算法、數(shù)據(jù)和算力方面全面創(chuàng)新,源2.0-M32的性能得以大幅提升,在多個業(yè)界主流的評測任務中,展示出了較為先進的能力表現(xiàn),在MATH(數(shù)學競賽)、ARC-C(科學推理)榜單上超越了擁有700億參數(shù)的LLaMA3大模型。

  Figure2 源2.0-M32業(yè)界主流評測任務表現(xiàn)

  源2.0-M32大幅提升了模型算力效率,在實現(xiàn)與業(yè)界領先開源大模型性能相當?shù)耐瑫r,顯著降低了在模型訓練、微調(diào)和推理所需的算力開銷。在模型推理運行階段,M32處理每token所需算力為7.4GFLOPs,而LLaMA3-70B所需算力為140GFLOPs。在模型微調(diào)訓練階段,對1萬條平均長度為1024 token的樣本進行全量微調(diào),M32消耗算力約0.0026PD(PetaFLOPs/s-day),而LLaMA3消耗算力約為0.05PD。M32憑借特別優(yōu)化設計的模型架構,在僅激活37億參數(shù)的情況下,取得了和700億參數(shù)LLaMA3相當?shù)男阅芩,而所消耗算力僅為LLaMA3的1/19,從而實現(xiàn)了更高的模算效率。

  浪潮信息人工智能首席科學家吳韶華表示:當前業(yè)界大模型在性能不斷提升的同時,也面臨著所消耗算力大幅攀升的問題,對企業(yè)落地應用大模型帶來了極大的困難和挑戰(zhàn)。源2.0-M32是浪潮信息在大模型領域持續(xù)耕耘的最新探索成果,通過在算法、數(shù)據(jù)、算力等方面的全面創(chuàng)新,M32不僅可以提供與業(yè)界領先開源大模型相當?shù)男阅,更可以大幅降低大模型所需算力消耗。大幅提升的模算效率將為企業(yè)開發(fā)應用生成式AI提供模型高性能、算力低門檻的高效路徑。M32開源大模型配合企業(yè)大模型開發(fā)平臺EPAI(Enterprise Platform of AI),將助力企業(yè)實現(xiàn)更快的技術迭代與高效的應用落地,為人工智能產(chǎn)業(yè)的發(fā)展提供堅實的底座和成長的土壤,加速產(chǎn)業(yè)智能化進程。

免責聲明:

※ 以上所展示的信息來自媒體轉載或由企業(yè)自行提供,其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本網(wǎng)站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本網(wǎng)站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內(nèi)容。如果以上內(nèi)容侵犯您的版權或者非授權發(fā)布和其它問題需要同本網(wǎng)聯(lián)系的,請在30日內(nèi)進行。
※ 有關作品版權事宜請聯(lián)系中國企業(yè)新聞網(wǎng):020-34333079 郵箱:cenn_gd@126.com 我們將在24小時內(nèi)審核并處理。

分享到:
[責任編輯:姚小冰]
更多新聞,請關注
中國企業(yè)新聞網(wǎng)

標簽 :

網(wǎng)客評論

關于我們 | CENN服務 | 對外合作 | 刊登廣告 | 法律聲明 | 聯(lián)系我們 | 手機版
客戶服務熱線:020-34333079、34333137 舉報電話:020-34333002 投稿郵箱:cenn_gd@126.com
版權所有:中國企業(yè)新聞網(wǎng) 運營商:廣州至高點網(wǎng)絡科技投資有限公司 地址:廣州市海珠區(qū)江燕路353號保利紅棉48棟1004

粵ICP備12024738號-1 粵公網(wǎng)安備 44010602001889號

蒙阴县| 手游| 赤壁市| 隆子县| 康乐县| 开阳县| 龙井市| 张家川| 瑞丽市| 枞阳县| 安新县| 阿城市| 厦门市| 黎城县| 乐清市| 唐河县| 扎囊县| 泸西县| 百色市| 保靖县| 信阳市| 建阳市| 浦北县| 赤壁市| 于田县| 砚山县| 三亚市| 达孜县| 且末县| 商水县| 淮安市| 哈巴河县| 开封县| 泗水县| 文水县| 花垣县| 临洮县| 安阳市| 崇明县| 开远市| 永清县|