解碼分布式:存儲環(huán)境下海量非結(jié)構(gòu)化數(shù)據(jù)安全
2021/2/20 15:57:14 來源:中國企業(yè)新聞網(wǎng)
導(dǎo)言:非結(jié)構(gòu)化數(shù)據(jù)的重要之處在于它所提供的語境,通過其對應(yīng)的數(shù)據(jù)流能更準(zhǔn)確地對未來趨勢進(jìn)行解鎖,即對行業(yè)動向進(jìn)行可視化拆分及分析。
非結(jié)構(gòu)化數(shù)據(jù)的重要之處在于它所提供的語境,通過其對應(yīng)的數(shù)據(jù)流能更準(zhǔn)確地對未來趨勢進(jìn)行解鎖,即對行業(yè)動向進(jìn)行可視化拆分及分析。據(jù)IDC調(diào)查報告顯示,全球企業(yè)數(shù)據(jù)量中結(jié)構(gòu)化數(shù)據(jù)僅占20%,以多種格式存在的非結(jié)構(gòu)化數(shù)據(jù)及半結(jié)構(gòu)化數(shù)據(jù)占比約為80%,且逐年遞增60%。
存在Oracle、SQL Server等數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)(即行數(shù)據(jù))往往是可以通過二維邏輯表(數(shù)字、符號等)來表達(dá)實現(xiàn)。而非結(jié)構(gòu)化數(shù)據(jù)(XML、圖像、聲音、超媒體等信息)往往是先有數(shù)據(jù),再有結(jié)構(gòu),因此難以被納入關(guān)系數(shù)據(jù)庫。尤其是,將海量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲絕非易事。數(shù)據(jù)專家60%的時間都花費在清理和整理非結(jié)構(gòu)化數(shù)據(jù)上(《福布斯》)。
此外,面對海量數(shù)據(jù)劇增的情況下,通過增加存儲節(jié)點,極易造成成本劇增、管理困難及系統(tǒng)的高負(fù)載性等諸多問題。對于非結(jié)構(gòu)數(shù)據(jù)SAN、NAS等傳統(tǒng)存儲架構(gòu)顯然是不適合的,面對未來的數(shù)據(jù)存儲需求,分布式存儲架構(gòu)具有鏈路聚合及Scale-out擴展能力等特性,可實現(xiàn)4K/8K視頻儲存的帶寬需求、資源池的高可用性及訪問更加便捷。
柏科數(shù)據(jù)深耕數(shù)據(jù)存儲、數(shù)據(jù)保護(hù)及數(shù)據(jù)生產(chǎn)三大領(lǐng)域,依托在存儲架構(gòu)、存儲管理軟件及存儲核心算法等方面的核心技術(shù),針對海量非結(jié)構(gòu)數(shù)據(jù)存儲需求,自主研發(fā)推出IS -Cloud分布式存儲系統(tǒng)。
在“智慧城市”數(shù)字化建設(shè)方案中,柏科數(shù)據(jù)為視頻監(jiān)控網(wǎng)絡(luò)部署了IS -Cloud分布式存儲系統(tǒng)解決方案,為其配置分布式存儲內(nèi)部數(shù)據(jù)交換網(wǎng)絡(luò)(集群內(nèi)網(wǎng))、業(yè)務(wù)數(shù)據(jù)訪問網(wǎng)絡(luò)(集群外網(wǎng))、IPMI管理網(wǎng)絡(luò)以及分布式存儲配置管理網(wǎng)絡(luò)。
整體方案配置兩臺元數(shù)據(jù)節(jié)點及數(shù)臺分布式存儲節(jié)點,基于X86的分布式存儲的集群架構(gòu),實現(xiàn)了較強的Scale-out擴展能力。選用SSD作為相應(yīng)的存儲實現(xiàn)方式?蓪/O性能線性提高到幾十個GB或者上百個GB的聚合帶寬,實現(xiàn)每秒數(shù)十萬個的文件查詢效率,大幅度減少計算任務(wù)的數(shù)據(jù)IO時間,提高系統(tǒng)的整體效率。
冗余保護(hù)策略
多副本及糾刪碼是數(shù)據(jù)冗余保護(hù)策略中,較為重要的兩項數(shù)據(jù)安全技術(shù)。多副本是通過多路讀寫的方式,將副本存放至不同存儲節(jié)點的資源池內(nèi),實現(xiàn)數(shù)據(jù)冗余備份,通過副本對數(shù)據(jù)進(jìn)行恢復(fù),有效應(yīng)對物理故障。即副本就是對原始數(shù)據(jù)的完全拷貝,有效地提高文件的可用性,避免在物理上分散的存儲節(jié)點或硬盤由網(wǎng)絡(luò)斷開或機器故障等不可測因素而引起的數(shù)據(jù)丟失或不可獲取。副本數(shù)量越多,文件的可靠性就越高,同時通過對多個副本的并行讀取,進(jìn)一步分散和平衡節(jié)點負(fù)載,提高文件讀取的效率,提高系統(tǒng)的I/O性能。副本保護(hù)機制是目前業(yè)界安全性最高底層技術(shù)。
相對于副本校驗的方式,糾刪碼技術(shù)不需要完整寫入真實的數(shù)據(jù)副本,主要通過糾刪碼算法將原始數(shù)據(jù)進(jìn)行編碼,可實現(xiàn)存儲空間高可用。其基本思想是指將K塊原始的數(shù)據(jù)通過一定的計算,得M塊編碼塊。對于這K+M個數(shù)據(jù)塊,其中任意個數(shù)據(jù)塊出現(xiàn)故障,可通過對應(yīng)的重構(gòu)算法將原始的K數(shù)據(jù)塊進(jìn)行恢復(fù),提高了磁盤的整體利用率。
如圖所示,采用糾刪碼方式的存儲池是以 K+M 個數(shù)據(jù)塊,來存儲一個單一對象,其中分為 K 個數(shù)據(jù)塊和 M 個編碼塊。首先,將一個糾刪碼存儲池規(guī)劃為3+2的配置形式,那么一個對象需要分別存儲到五個 OSD 上,最多可以容忍其中兩個丟失數(shù)據(jù)的風(fēng)險( M = 2 )。
當(dāng)包含 ABCDEFGHI 的對象 NYAN 被寫入存儲池時,糾刪編碼函數(shù)把內(nèi)容分割為三個數(shù)據(jù)塊,假設(shè)切割為分別包含 ABC 、 DEF 、和 GHI的三份 ,另外還會創(chuàng)建兩個編碼塊:第四份是 YXY 、第五份是 GQC ,各個塊分別存入 acting set 中的 OSD 內(nèi)。這些塊擁有相同的名字NYAN,但是位于存儲節(jié)點不同的 OSD 上;分塊順序也會作為對象的一個屬性存儲起來。
從糾刪碼存儲池中讀取 NYAN 對象時,假設(shè)最先讀取到的三個塊是:包含 ABC 的塊 1 ,包含 GHI 的塊 3 和包含 YXY 的塊 4 ,解碼函數(shù)會立刻重建對象的原始內(nèi)容 ABCDEFGHI 。即使我們說塊 5 因為 OSD4 異常沒有辦法讀取, 塊2因為OSD2 讀取較慢最后獲取到,糾刪碼的機制下只需要有三塊讀出就可以立刻調(diào)用解碼函數(shù),即為糾刪碼技術(shù)針對數(shù)據(jù)保護(hù)環(huán)境下的高性能讀寫速度及數(shù)據(jù)安全性能。
免責(zé)聲明:
※ 以上所展示的信息來自媒體轉(zhuǎn)載或由企業(yè)自行提供,其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本網(wǎng)站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本網(wǎng)站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。如果以上內(nèi)容侵犯您的版權(quán)或者非授權(quán)發(fā)布和其它問題需要同本網(wǎng)聯(lián)系的,請在30日內(nèi)進(jìn)行。
※ 有關(guān)作品版權(quán)事宜請聯(lián)系中國企業(yè)新聞網(wǎng):020-34333079 郵箱:cenn_gd@126.com 我們將在24小時內(nèi)審核并處理。
標(biāo)簽 :
相關(guān)網(wǎng)文
一周新聞資訊點擊排行
關(guān)于我們 | CENN服務(wù) | 對外合作 | 刊登廣告 | 法律聲明 | 聯(lián)系我們 | 手機版
客戶服務(wù)熱線:020-34333079、34333137 傳真:020-34333002 舉報電話:020-34333002、13925138999(春雷) 舉報郵箱:cenn_gd@126.com
版權(quán)所有:中國企業(yè)新聞網(wǎng) 運營商:廣州至高點網(wǎng)絡(luò)技術(shù)有限公司 地址:廣州市海珠區(qū)江燕路353號保利紅棉48棟1004