六度影院鲁鲁片在线看_亚洲av无码乱码国产精品_国产精品一二三入口播放_国产一区二区不卡高清更新

網(wǎng)站首頁(yè)| 網(wǎng)站地圖| RSS

中國(guó)網(wǎng)圈網(wǎng)| 加入收藏夾 設(shè)為首頁(yè)

熱門(mén)關(guān)鍵字: 創(chuàng)新國(guó)企產(chǎn)業(yè)央企創(chuàng)業(yè)鄉(xiāng)村振興大灣區(qū)大數(shù)據(jù)天業(yè)天辰

御美養(yǎng)生美容
金煌裝飾
利富塑電
廣州東尼照明科技有限公司

企業(yè)發(fā)布

首頁(yè) > 企業(yè)發(fā)布 > 詳細(xì)內(nèi)容

浪潮信息Lance SUN:高效數(shù)據(jù)編排,加速數(shù)據(jù)在AI場(chǎng)景釋放潛能

2024/7/3 9:25:16 來(lái)源:中國(guó)企業(yè)新聞網(wǎng)

導(dǎo)言:7月2日,AIGC作為當(dāng)下最火的技術(shù)話題,其業(yè)務(wù)流程涉及到數(shù)據(jù)的采集、處理、訓(xùn)練、推理和歸檔五個(gè)階段,每個(gè)階段都面臨著不同的存儲(chǔ)需求和挑戰(zhàn)。

  7月2日,AIGC作為當(dāng)下最火的技術(shù)話題,其業(yè)務(wù)流程涉及到數(shù)據(jù)的采集、處理、訓(xùn)練、推理和歸檔五個(gè)階段,每個(gè)階段都面臨著不同的存儲(chǔ)需求和挑戰(zhàn)。隨著數(shù)據(jù)量的爆炸性增長(zhǎng),特別是隨著多模態(tài)數(shù)據(jù)的快速增長(zhǎng),對(duì)存儲(chǔ)系統(tǒng)的擴(kuò)展性和服務(wù)兼容性也提出了新的挑戰(zhàn)。

  在2024年數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)峰會(huì)上,浪潮信息分布式存儲(chǔ)產(chǎn)品線架構(gòu)師Lance Sun博士發(fā)表了題目為"高效數(shù)據(jù)編排,加速釋放數(shù)據(jù)潛能"的主旨演講,詳細(xì)討論了高效數(shù)據(jù)編排對(duì)于解決上述挑戰(zhàn),并釋放數(shù)據(jù)潛能的重要性。

  AIGC帶來(lái)的存儲(chǔ)挑戰(zhàn)凸顯了數(shù)據(jù)的重要性

  首先,Lance Sun博士詳細(xì)介紹了AIGC對(duì)存儲(chǔ)提出的需求和挑戰(zhàn),讓我們對(duì)AIGC的業(yè)務(wù)流程和對(duì)數(shù)據(jù)存儲(chǔ)的需求有了更深入的認(rèn)識(shí)。

  第一個(gè)是巨量多模態(tài)數(shù)據(jù)的挑戰(zhàn)。很多大語(yǔ)言模型都采用了來(lái)自Common Crawl的數(shù)據(jù)集,這個(gè)組織在過(guò)去17年已經(jīng)采集了2500億網(wǎng)頁(yè),現(xiàn)在還在持續(xù)收集更多。IDC預(yù)測(cè),到2025年,全球數(shù)據(jù)總量將超過(guò)175ZB,這種增長(zhǎng)對(duì)存儲(chǔ)系統(tǒng)的多樣性和擴(kuò)展性帶來(lái)了挑戰(zhàn)。

  第二個(gè)挑戰(zhàn)是對(duì)超大讀寫(xiě)帶寬的需求。在訓(xùn)練階段,checkpoint的管理是關(guān)鍵,良好的存儲(chǔ)性能應(yīng)在12分鐘內(nèi)完成checkpoint的讀寫(xiě)操作,確保不拖慢整個(gè)訓(xùn)練過(guò)程。同時(shí),由于GPU成本高昂,更高的存儲(chǔ)性能可以減少顯卡的等待時(shí)間,減少資源浪費(fèi)。

  第三個(gè)挑戰(zhàn)是對(duì)于讀寫(xiě)IOPS的更高需求。千億級(jí)文件的快速訪問(wèn)對(duì)IOPS有著極高要求,在某些采用shuffle洗牌策略的訓(xùn)練過(guò)程,如果IOPS性能不夠,會(huì)導(dǎo)致元數(shù)據(jù)服務(wù)器產(chǎn)生大量的通信阻塞,同時(shí)會(huì)造成GPU集群等待,影響訓(xùn)練效率,造成資源浪費(fèi)。

  第四個(gè)挑戰(zhàn)在于數(shù)據(jù)全生命周期管理。在數(shù)據(jù)清洗和標(biāo)注算法日益發(fā)展的今天,數(shù)據(jù)作為企業(yè)的核心資產(chǎn),企業(yè)需要對(duì)數(shù)據(jù)進(jìn)行長(zhǎng)期保存。于是,如何將數(shù)據(jù)以較低的成本安全存儲(chǔ)起來(lái),也成為更重要的課題。

  為了說(shuō)明高質(zhì)量數(shù)據(jù)的重要性,Lance Sun博士還提到了ImageNet數(shù)據(jù)集。作為高質(zhì)量的數(shù)據(jù)集,它極大地推動(dòng)了深度學(xué)習(xí)算法的發(fā)展。2012年,AlexNet在ImageNet挑戰(zhàn)賽上取得成功,這不僅驗(yàn)證了深度學(xué)習(xí)模型處理復(fù)雜視覺(jué)任務(wù)的能力,也激發(fā)了后續(xù)研究和多種新算法的產(chǎn)生。

  由此可見(jiàn),數(shù)據(jù)的采集和高質(zhì)量的數(shù)據(jù)清洗,對(duì)AI的發(fā)展至關(guān)重要的。過(guò)去十多年的時(shí)間里,語(yǔ)言類(lèi)模型的數(shù)據(jù)集規(guī)模,模型參數(shù)規(guī)模,AI芯片計(jì)算能力和數(shù)據(jù)存儲(chǔ)需求都發(fā)生了顯著變化。

  AIGC在數(shù)據(jù)歸集面臨的挑戰(zhàn)與浪潮信息的解決之道

  在數(shù)據(jù)存儲(chǔ)方面,隨著數(shù)據(jù)集規(guī)模和多樣性增加,越發(fā)依賴(lài)更大規(guī)模的存儲(chǔ)服務(wù)器集群。Lance Sun博士介紹稱(chēng),很多傳統(tǒng)行業(yè)都積累了大量數(shù)據(jù),這些數(shù)據(jù)需要在不同的存儲(chǔ)系統(tǒng)間進(jìn)行高效的數(shù)據(jù)流轉(zhuǎn)以支持AI和大數(shù)據(jù)分析,這在現(xiàn)有的存儲(chǔ)架構(gòu)中造成了數(shù)據(jù)流動(dòng)的效率問(wèn)題。

  事實(shí)上,多數(shù)據(jù)中心和異構(gòu)存儲(chǔ)環(huán)境中數(shù)據(jù)遷移面臨很多挑戰(zhàn),對(duì)此,Lance Sun博士總結(jié)了三點(diǎn):

  第一點(diǎn),數(shù)據(jù)訪問(wèn)分散。數(shù)據(jù)遷移的過(guò)程對(duì)用戶(hù)來(lái)說(shuō)是不透明的,嚴(yán)重依賴(lài)第三方遷移軟件,而且受網(wǎng)絡(luò)波動(dòng)和存儲(chǔ)性能的影響,容易導(dǎo)致數(shù)據(jù)遷移時(shí)間過(guò)長(zhǎng),增加操作的不確定性和復(fù)雜性。

  第二點(diǎn),空間和時(shí)間成本的浪費(fèi)。遷移過(guò)程常用糾刪或副本機(jī)制來(lái)提高可靠性,但這會(huì)導(dǎo)致時(shí)間和空間成本大幅增加。此外,這一過(guò)程還嚴(yán)重依賴(lài)于第三方遷移軟件的性能,不同存儲(chǔ)平臺(tái)的使用容量差異可能導(dǎo)致數(shù)據(jù)副本遷移時(shí)出現(xiàn)容量不均衡問(wèn)題。

  第三點(diǎn),運(yùn)維復(fù)雜性增加。由于不同存儲(chǔ)產(chǎn)品的特性差異,使得存儲(chǔ)廠商各自發(fā)展出不同的運(yùn)維管理系統(tǒng),數(shù)據(jù)的頻繁遷移或長(zhǎng)時(shí)間遷移導(dǎo)致數(shù)據(jù)管理混亂,導(dǎo)致運(yùn)維時(shí)間和成本顯著增加。

  為了應(yīng)對(duì)多數(shù)據(jù)中心和異構(gòu)存儲(chǔ)環(huán)境中數(shù)據(jù)管理和遷移挑戰(zhàn),浪潮信息存儲(chǔ)進(jìn)行了大量工作,基于AS13000構(gòu)建了一套全局?jǐn)?shù)據(jù)管理平臺(tái)。

  在全局?jǐn)?shù)據(jù)管理平臺(tái)的最上層,通過(guò)一個(gè)統(tǒng)一的全局命名空間提供用戶(hù)視角的完全統(tǒng)一,確保所有數(shù)據(jù)都可以通過(guò)一個(gè)統(tǒng)一的入口進(jìn)行訪問(wèn)和管理,極大地簡(jiǎn)化了數(shù)據(jù)操作流程。

  第二個(gè)層面,系統(tǒng)支持多種標(biāo)準(zhǔn)協(xié)議接口,包括Linux的NFS、對(duì)象存儲(chǔ)的S3、大數(shù)據(jù)的HDFS、容器化的CSI接口以及Windows環(huán)境下的SMB協(xié)議。這樣的設(shè)計(jì)使得平臺(tái)能夠廣泛兼容各種應(yīng)用和環(huán)境,滿(mǎn)足不同場(chǎng)景的需求。

  最后一層,AS13000引入了智能數(shù)據(jù)編排和緩存系統(tǒng)。智能數(shù)據(jù)編排引擎利用人工智能算法自動(dòng)讓數(shù)據(jù)在熱、溫、冷存儲(chǔ)之間的流轉(zhuǎn),優(yōu)化數(shù)據(jù)存儲(chǔ)效率。而高效的緩存系統(tǒng)可以為短期內(nèi)頻繁使用的極熱數(shù)據(jù)提供快速訪問(wèn)能力,加速數(shù)據(jù)的流轉(zhuǎn)。

  最終,用戶(hù)可以基于AS13000的全局?jǐn)?shù)據(jù)管理平臺(tái)實(shí)現(xiàn)數(shù)據(jù)在任何地點(diǎn),任何時(shí)間以任何類(lèi)型可視可管可流動(dòng)。

  Lance Sun博士還指出了市場(chǎng)上一些方案的不足。比如,一些方案在數(shù)據(jù)采集階段使用了混閃對(duì)象存儲(chǔ),而在訓(xùn)練階段使用全閃存儲(chǔ)技術(shù)。然而,數(shù)據(jù)在兩個(gè)存儲(chǔ)集群的流轉(zhuǎn)非常低效,數(shù)遷移過(guò)程中,經(jīng)常由于網(wǎng)絡(luò)波動(dòng)造成文件斷傳。

  相比之下,AS13000由于在一套系統(tǒng)內(nèi)引入了多協(xié)議融合互通技術(shù),直接省去了數(shù)據(jù)遷移的過(guò)程,大大提高了訓(xùn)練數(shù)據(jù)的準(zhǔn)備效率,以確保數(shù)據(jù)在訓(xùn)練和處理階段的高效率和低延遲訪問(wèn)。 

  AIGC存儲(chǔ)的技術(shù)展望

  AIGC技術(shù)的影響力日益擴(kuò)大,各大存儲(chǔ)廠商對(duì)此高度重視,存儲(chǔ)系統(tǒng)的創(chuàng)新和演進(jìn)均將AIGC作為核心考量。在演講的最后,Lance Sun博士詳細(xì)介紹了浪潮信息存儲(chǔ)在AIGC領(lǐng)域的未來(lái)發(fā)展關(guān)鍵方向和技術(shù)動(dòng)向,并表示浪潮存儲(chǔ)將持續(xù)深度融入AI生態(tài)系統(tǒng)。

  在行業(yè)技術(shù)方面,GPU直連存儲(chǔ)技術(shù)已在眾多文件系統(tǒng)層面廣泛應(yīng)用,其在大文件讀寫(xiě)方面的性能表現(xiàn)尤為出色。浪潮信息與英偉達(dá)及業(yè)界廠商緊密合作,致力于推動(dòng)完整技術(shù)體系和標(biāo)準(zhǔn)的落地。

  在行業(yè)基準(zhǔn)評(píng)測(cè)方面,浪潮信息積極參與權(quán)威的AI性能測(cè)試基準(zhǔn)—MLperf Storage評(píng)測(cè),并在多項(xiàng)負(fù)載性能評(píng)測(cè)中表現(xiàn)優(yōu)異,幫助企業(yè)選擇最適用于AI場(chǎng)景的存儲(chǔ)系統(tǒng)。

  存儲(chǔ)的安全問(wèn)題同樣不容忽視。英偉達(dá)在2024年的GTC大會(huì)上提到包括加密計(jì)算在內(nèi)的多種安全技術(shù),而在存儲(chǔ)層面,同樣需要提供強(qiáng)有力的數(shù)據(jù)保護(hù)措施。浪潮信息存儲(chǔ)正在多租戶(hù)權(quán)限隔離、防勒索等數(shù)據(jù)保護(hù)技術(shù)領(lǐng)域進(jìn)行深入探索。

  談到未來(lái)發(fā)展,Lance Sun博士表示,存儲(chǔ)性能的持續(xù)優(yōu)化是浪潮信息存儲(chǔ)的核心目標(biāo)。浪潮信息將繼續(xù)通過(guò)軟硬件結(jié)合的持續(xù)創(chuàng)新,力求在智算產(chǎn)業(yè)和AI產(chǎn)業(yè)中實(shí)現(xiàn)快速落地,推動(dòng)整個(gè)行業(yè)的進(jìn)步。

  2024年,AIGC依然是最熱技術(shù)話題,其迅猛的發(fā)展速度和廣闊的應(yīng)用前景吸引了眾多關(guān)注和創(chuàng)新力量。憑借在數(shù)據(jù)存儲(chǔ)領(lǐng)域的持續(xù)創(chuàng)新和深耕,浪潮信息正站在這場(chǎng)技術(shù)革新的前沿。

免責(zé)聲明:

※ 以上所展示的信息來(lái)自媒體轉(zhuǎn)載或由企業(yè)自行提供,其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本網(wǎng)站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本網(wǎng)站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。如果以上內(nèi)容侵犯您的版權(quán)或者非授權(quán)發(fā)布和其它問(wèn)題需要同本網(wǎng)聯(lián)系的,請(qǐng)?jiān)?0日內(nèi)進(jìn)行。
※ 有關(guān)作品版權(quán)事宜請(qǐng)聯(lián)系中國(guó)企業(yè)新聞網(wǎng):020-34333079 郵箱:cenn_gd@126.com 我們將在24小時(shí)內(nèi)審核并處理。

分享到:
[責(zé)任編輯:姚小冰]
更多新聞,請(qǐng)關(guān)注
中國(guó)企業(yè)新聞網(wǎng)

標(biāo)簽 :

網(wǎng)客評(píng)論

關(guān)于我們 | CENN服務(wù) | 對(duì)外合作 | 刊登廣告 | 法律聲明 | 聯(lián)系我們 | 手機(jī)版
客戶(hù)服務(wù)熱線:020-34333079、34333137 舉報(bào)電話:020-34333002 投稿郵箱:cenn_gd@126.com
版權(quán)所有:中國(guó)企業(yè)新聞網(wǎng) 運(yùn)營(yíng)商:廣州至高點(diǎn)網(wǎng)絡(luò)科技投資有限公司 地址:廣州市海珠區(qū)江燕路353號(hào)保利紅棉48棟1004

粵ICP備12024738號(hào)-1 粵公網(wǎng)安備 44010602001889號(hào)

凭祥市| 哈巴河县| 兰考县| 昌江| 时尚| 碌曲县| 黄大仙区| 澜沧| 丰顺县| 新绛县| 高平市| 霍邱县| 华池县| 获嘉县| 蒲江县| 孝感市| 高碑店市| 乌审旗| 盘锦市| 察雅县| 日土县| 乐陵市| 伊川县| 镇江市| 南投市| 上林县| 四会市| 库尔勒市| 棋牌| 威宁| 时尚| 镇江市| 洛川县| 张北县| 沧州市| 镇原县| 邻水| 上饶市| 曲阳县| 邛崃市| 蓝田县|