企業(yè)發(fā)布
首頁(yè) > 企業(yè)發(fā)布 > 詳細(xì)內(nèi)容
智能運(yùn)維第一步:HDD磁盤(pán)故障預(yù)測(cè)
2023/10/31 14:56:13 來(lái)源:中國(guó)企業(yè)新聞網(wǎng)
導(dǎo)言:當(dāng)今數(shù)字化時(shí)代,信息技術(shù)扮演著企業(yè)和組織運(yùn)營(yíng)的關(guān)鍵角色。然而,隨著IT環(huán)境不斷復(fù)雜化和數(shù)據(jù)量激增,傳統(tǒng)的運(yùn)維管理方法已經(jīng)無(wú)法滿(mǎn)足日益增長(zhǎng)的需求。為應(yīng)對(duì)這一挑戰(zhàn),智能運(yùn)維(Artificial intelligence for IT operations,簡(jiǎn)稱(chēng)AIOPS)應(yīng)運(yùn)而生。
當(dāng)今數(shù)字化時(shí)代,信息技術(shù)扮演著企業(yè)和組織運(yùn)營(yíng)的關(guān)鍵角色。然而,隨著IT環(huán)境不斷復(fù)雜化和數(shù)據(jù)量激增,傳統(tǒng)的運(yùn)維管理方法已經(jīng)無(wú)法滿(mǎn)足日益增長(zhǎng)的需求。為應(yīng)對(duì)這一挑戰(zhàn),智能運(yùn)維(Artificial intelligence for IT operations,簡(jiǎn)稱(chēng)AIOPS)應(yīng)運(yùn)而生。
AIOPS融合了人工智能、自動(dòng)化和數(shù)據(jù)分析等技術(shù),旨在優(yōu)化IT運(yùn)維的效率、可靠性和可用性。在AIOPS的范疇內(nèi),硬盤(pán)驅(qū)動(dòng)器(HDD)故障預(yù)測(cè)是其中一個(gè)至關(guān)重要的組成部分。在數(shù)字化時(shí)代,數(shù)據(jù)被譽(yù)為“新時(shí)代的石油”,HDD作為數(shù)據(jù)存儲(chǔ)的基礎(chǔ)設(shè)備,在數(shù)據(jù)中心、服務(wù)器和個(gè)人計(jì)算機(jī)中廣泛使用,扮演著關(guān)鍵角色。然而其敏感、精確、結(jié)構(gòu)復(fù)雜的特性往往也使得某些故障難以避免。因此,通過(guò)AIOPS來(lái)實(shí)現(xiàn)HDD故障預(yù)測(cè),避免數(shù)據(jù)丟失、業(yè)務(wù)中斷、維護(hù)成本上升,從而保障數(shù)據(jù)可用性和系統(tǒng)穩(wěn)定性,逐漸成為保障業(yè)務(wù)正常運(yùn)轉(zhuǎn)的重要手段。
為什么硬盤(pán)會(huì)出現(xiàn)故障?
由旋轉(zhuǎn)磁盤(pán)和漂浮在其上方的讀/寫(xiě)頭組合而成的硬盤(pán)驅(qū)動(dòng)器盡管結(jié)構(gòu)復(fù)雜,但它們已經(jīng)證明了自己作為數(shù)據(jù)載體的價(jià)值。然而,引起機(jī)械硬盤(pán)發(fā)生故障的原因有多種:首先,如高溫、濕度、機(jī)械磨損、讀寫(xiě)操作頻率等,這些因素之間的相互作用使得故障模式變得更為復(fù)雜,大大提高了預(yù)測(cè)難度。其次,溫度、振動(dòng)、讀寫(xiě)速度、錯(cuò)誤率等多樣性HDD性能數(shù)據(jù)在規(guī)模龐大的數(shù)據(jù)存儲(chǔ)環(huán)境中對(duì)進(jìn)行有效利用和分析,無(wú)疑也是一個(gè)挑戰(zhàn)。
傳統(tǒng)的故障預(yù)測(cè)方法主要基于固定的閾值和經(jīng)驗(yàn)判斷,存在明顯的限制:傳統(tǒng)方法只能在故障已經(jīng)發(fā)生或接近發(fā)生時(shí)才采取行動(dòng),無(wú)法預(yù)測(cè)性地防止故障;基于閾值的警報(bào)往往容易誤報(bào),因?yàn)槟承﹨?shù)可能因正常使用而產(chǎn)生波動(dòng);傳統(tǒng)方法通常需要大量的人工干預(yù),增加管理成本。相比之下,智能算法的引入為HDD故障預(yù)測(cè)帶來(lái)諸多可能性,利用大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù),其強(qiáng)大的學(xué)習(xí)和自適應(yīng)能力可以更好地利用和分析這些多樣化的數(shù)據(jù),從海量的硬盤(pán)驅(qū)動(dòng)器數(shù)據(jù)中提取有價(jià)值的信息,進(jìn)而更加準(zhǔn)確地進(jìn)行故障預(yù)測(cè)。
HDD故障預(yù)測(cè)解決方案
方案主要包含兩部分:模型離線(xiàn)訓(xùn)練以及實(shí)時(shí)監(jiān)測(cè)和警報(bào)。首先通過(guò)離線(xiàn)訓(xùn)練得到可用的預(yù)測(cè)模型,然后將模型運(yùn)用到實(shí)際生產(chǎn)環(huán)境中進(jìn)行實(shí)時(shí)故障預(yù)測(cè)。
模型離線(xiàn)訓(xùn)練整體流程如圖1所示。模型所需數(shù)據(jù)為S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology,自我監(jiān)測(cè)、分析及報(bào)告技術(shù),即一種自動(dòng)的硬盤(pán)狀態(tài)檢測(cè)與預(yù)警系統(tǒng)和規(guī)范)數(shù)據(jù),主要指硬盤(pán)運(yùn)行過(guò)程中的指標(biāo)值。在數(shù)據(jù)預(yù)處理階段,由于并非所有原始屬性都是機(jī)器學(xué)習(xí)模型的可用特征,因此需要先去除冗余和不相關(guān)的特征并選擇與預(yù)測(cè)結(jié)果相關(guān)的特征,然后對(duì)于空缺的數(shù)據(jù)進(jìn)行向前補(bǔ)全。同時(shí),故障盤(pán)最后兩周的樣本均為潛在故障樣本(預(yù)示著該硬盤(pán)可能隨時(shí)會(huì)發(fā)生故障),即需要將最后兩周的樣本設(shè)置為故障盤(pán)樣本標(biāo)簽。最后,二維數(shù)據(jù)類(lèi)圖構(gòu)建則是將時(shí)間作為第二維度(SMART屬性作為第一維度),使用滑動(dòng)窗口的方式,構(gòu)建出二維數(shù)據(jù)圖,如圖2所示。經(jīng)過(guò)此階段處理能夠保持SMART數(shù)據(jù)的時(shí)間局部性,有利于磁盤(pán)故障預(yù)測(cè)。最后將得到的數(shù)據(jù)進(jìn)行數(shù)據(jù)劃分,分別組成訓(xùn)練集、驗(yàn)證集和測(cè)試集用于模型訓(xùn)練和評(píng)估。
圖1 模型離線(xiàn)訓(xùn)練
圖2 滑動(dòng)窗口構(gòu)建數(shù)據(jù)類(lèi)圖
在故障預(yù)測(cè)模型訓(xùn)練過(guò)程中(圖3中虛線(xiàn)框所示),只使用健康硬盤(pán)的樣本。編碼器GE用來(lái)對(duì)原始輸入圖片x進(jìn)行編碼,得到圖片特征z,解碼器GD對(duì)編碼后的圖片特征z`進(jìn)行解碼。得到重構(gòu)圖片x`。為檢測(cè)異常,添加一個(gè)編碼器E來(lái)學(xué)習(xí)重構(gòu)樣本x`的特征表示z`。對(duì)于原始樣本x和生成圖片x`,交由判別網(wǎng)絡(luò)D來(lái)判別真?zhèn),這樣,在判別網(wǎng)絡(luò)進(jìn)行更新時(shí),判別網(wǎng)絡(luò)的判別能力會(huì)得到提升。
圖3 故障預(yù)測(cè)模型
在模型預(yù)測(cè)過(guò)程中(圖3中實(shí)線(xiàn)框所示),無(wú)判別網(wǎng)絡(luò),只利用生成網(wǎng)絡(luò)。將硬盤(pán)當(dāng)前的二維SMART數(shù)據(jù)類(lèi)圖作為輸入,經(jīng)過(guò)模型中生成網(wǎng)絡(luò)的處理,得到輸入類(lèi)圖的特征表示z和生成網(wǎng)絡(luò)的特征表示z`。其預(yù)測(cè)原理是,利用z和z`之間的差異來(lái)衡量樣本生成的有效性,且兩者差異越小,樣本生成越好。因此,兩者的L2范式A(X)=||z-z`||2被用于衡量樣本的異常度,即當(dāng)值大于某一閾值時(shí),表示樣本異常,即該硬盤(pán)將發(fā)生故障。其背后原因是,在訓(xùn)練過(guò)程中只利用和學(xué)習(xí)健康硬盤(pán)樣本的分布,則使得健康硬盤(pán)樣本的差異更小,即z和z`的差距更小。在預(yù)測(cè)時(shí),如果輸入樣本來(lái)自故障硬盤(pán),則會(huì)因?yàn)楣收蠘颖酒x健康樣本的分布,導(dǎo)致z和z`差異更顯著。
模型每次迭代訓(xùn)練使用AUC(Area Under Curve,接受者操作特征曲線(xiàn)下面積)區(qū)域預(yù)測(cè)效果最好的模型參數(shù)進(jìn)行保存并供后續(xù)預(yù)測(cè)使用。模型訓(xùn)練完成后使用準(zhǔn)確率對(duì)模型的性能進(jìn)行評(píng)估,經(jīng)評(píng)估模型的預(yù)測(cè)準(zhǔn)確性可達(dá)99%。
當(dāng)模型訓(xùn)練完成后將HDD故障預(yù)測(cè)引擎順利整合到多設(shè)備管理軟件InView端,允許實(shí)時(shí)采集硬盤(pán)SMART數(shù)據(jù),并利用模型進(jìn)行在線(xiàn)推理預(yù)測(cè)未來(lái)兩周內(nèi)硬盤(pán)發(fā)生故障可能性(如圖4所示)。當(dāng)系統(tǒng)檢測(cè)到硬盤(pán)出現(xiàn)故障風(fēng)險(xiǎn)立即觸發(fā)告警機(jī)制,及時(shí)通知用戶(hù)進(jìn)行換盤(pán)處理。此機(jī)制不僅能夠確保數(shù)據(jù)的安全可靠性,還提高了硬盤(pán)驅(qū)動(dòng)器的整體性能和維護(hù)效率,強(qiáng)力保障了業(yè)務(wù)的連續(xù)性和數(shù)據(jù)管理的穩(wěn)定性。
圖4 InView端HDD故障預(yù)測(cè)
通過(guò)AIOPS技術(shù),浪潮信息HDD磁盤(pán)故障預(yù)測(cè)解決方案不僅實(shí)現(xiàn)了業(yè)界領(lǐng)先的預(yù)測(cè)準(zhǔn)確性,還成功整合預(yù)測(cè)引擎和實(shí)時(shí)監(jiān)測(cè)系統(tǒng),能夠在故障風(fēng)險(xiǎn)出現(xiàn)時(shí)采取及時(shí)的措施,保護(hù)數(shù)據(jù)的安全和業(yè)務(wù)的連續(xù)性。
未來(lái),將繼續(xù)優(yōu)化和拓展HDD磁盤(pán)故障預(yù)測(cè)能力:
面對(duì)生成式AI掀起的變革浪潮,5G、AI大語(yǔ)言模型、自動(dòng)駕駛等各類(lèi)新技術(shù)融合,大容量HDD依然是企業(yè)級(jí)數(shù)據(jù)中心、云服務(wù)提供商以及超大規(guī)模云業(yè)務(wù)領(lǐng)域的首選,浪潮信息將繼續(xù)秉承“極致存儲(chǔ),智慧有數(shù)”的理念,基于自身技術(shù)優(yōu)勢(shì)不斷創(chuàng)新,持續(xù)推動(dòng)該領(lǐng)域的技術(shù)發(fā)展,以可靠高效的一體式解決方案守護(hù)企業(yè)數(shù)據(jù)安全,助力千行百業(yè)數(shù)字化轉(zhuǎn)型。
消息來(lái)源:浪潮信息
免責(zé)聲明:
※ 以上所展示的信息來(lái)自媒體轉(zhuǎn)載或由企業(yè)自行提供,其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本網(wǎng)站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本網(wǎng)站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。如果以上內(nèi)容侵犯您的版權(quán)或者非授權(quán)發(fā)布和其它問(wèn)題需要同本網(wǎng)聯(lián)系的,請(qǐng)?jiān)?0日內(nèi)進(jìn)行。
※ 有關(guān)作品版權(quán)事宜請(qǐng)聯(lián)系中國(guó)企業(yè)新聞網(wǎng):020-34333079 郵箱:cenn_gd@126.com 我們將在24小時(shí)內(nèi)審核并處理。
標(biāo)簽 :
相關(guān)網(wǎng)文
24小時(shí)熱點(diǎn)圖片
一周新聞資訊點(diǎn)擊排行
關(guān)于我們 | CENN服務(wù) | 對(duì)外合作 | 刊登廣告 | 法律聲明 | 聯(lián)系我們 | 手機(jī)版
客戶(hù)服務(wù)熱線(xiàn):020-34333079、34333137 舉報(bào)電話(huà):020-34333002 投稿郵箱:cenn_gd@126.com
版權(quán)所有:中國(guó)企業(yè)新聞網(wǎng) 運(yùn)營(yíng)商:廣州至高點(diǎn)網(wǎng)絡(luò)科技投資有限公司 地址:廣州市海珠區(qū)江燕路353號(hào)保利紅棉48棟1004