湖倉一體:揭秘數(shù)據(jù)湖架構(gòu)現(xiàn)代化之道
2023/7/17 16:29:05 來源:中國企業(yè)新聞網(wǎng)
導(dǎo)言:數(shù)據(jù)湖誕生至今已有十多年的歷史,為全球一些最大的企業(yè)提供了數(shù)據(jù)分析的支持。然而,也有人認為,絕大多數(shù)數(shù)據(jù)湖部署已經(jīng)演變成為"數(shù)據(jù)沼澤"。
數(shù)據(jù)湖誕生至今已有十多年的歷史,為全球一些最大的企業(yè)提供了數(shù)據(jù)分析的支持。然而,也有人認為,絕大多數(shù)數(shù)據(jù)湖部署已經(jīng)演變成為"數(shù)據(jù)沼澤"。不論你站在哪一邊,現(xiàn)實情況是,這些系統(tǒng)中仍然承載著大量的數(shù)據(jù)。這些數(shù)據(jù)規(guī)模龐大,使得移動、遷移或?qū)ζ溥M行現(xiàn)代化都變得異常困難。
數(shù)據(jù)湖的巨大挑戰(zhàn):單一結(jié)構(gòu)的架構(gòu)問題
從較高層次來看,數(shù)據(jù)湖是一個大規(guī)模的單一數(shù)據(jù)存儲庫。數(shù)據(jù)可以以原始形式存儲,也可以經(jīng)過優(yōu)化,采用適合專用引擎使用的不同格式。
就Hadoop而言,它是最受歡迎的數(shù)據(jù)湖之一,通過使用開源軟件實現(xiàn)該存儲庫,并在通用硬件上運行,可以以非常低的成本在系統(tǒng)中存儲大量數(shù)據(jù)。數(shù)據(jù)可以以開放的數(shù)據(jù)格式進行持久化,從而實現(xiàn)了數(shù)據(jù)消費的民主化,并通過自動復(fù)制提供了高可用性的支持。默認的處理框架具備從故障中恢復(fù)的能力。這無疑是與傳統(tǒng)分析環(huán)境有著顯著差異的重要轉(zhuǎn)變,傳統(tǒng)數(shù)據(jù)分析環(huán)境往往意味著供應(yīng)商鎖定以及無法處理大規(guī)模數(shù)據(jù)。
另一個出乎意料的挑戰(zhàn)是將Spark引入作為大數(shù)據(jù)處理框架。由于其支持數(shù)據(jù)轉(zhuǎn)換、流式處理和SQL,它迅速獲得了廣泛的認可。然而,它并未能與現(xiàn)有的數(shù)據(jù)湖環(huán)境友好共存,因此通常需要額外的專用計算集群才能運行Spark。
我們將時間前移15年回到當(dāng)下,現(xiàn)實已經(jīng)清楚地表明了這項技術(shù)所涉及的權(quán)衡和妥協(xié)。其快速的采用意味著客戶很快失去了對數(shù)據(jù)湖中數(shù)據(jù)的追蹤。同樣具有挑戰(zhàn)的是,他們無法確定數(shù)據(jù)的來源、獲取方式以及在處理過程中的轉(zhuǎn)換方式。數(shù)據(jù)治理仍然是這項技術(shù)中尚未探索的領(lǐng)域。雖然軟件可能是開源的,但需要有人學(xué)習(xí)如何使用、維護和支持它。僅依賴社區(qū)支持并不能持續(xù)滿足業(yè)務(wù)運營所需的響應(yīng)時間。高可用性通過復(fù)制實現(xiàn)則意味著需要更多磁盤上的數(shù)據(jù)副本,增加存儲成本,并導(dǎo)致故障更加頻繁。而高可用的分布式處理框架則意味著不得不在性能方面做出妥協(xié),以換取彈性(這將導(dǎo)致交互式分析和商業(yè)智能的性能嚴(yán)重下降)。
為何要對數(shù)據(jù)湖進行現(xiàn)代化?
數(shù)據(jù)湖在特定的使用場景中已經(jīng)被證明是成功的。然而清楚的是,企業(yè)迫切需要對這些部署進行現(xiàn)代化,保護基礎(chǔ)設(shè)施、技能和存儲在這些系統(tǒng)中的數(shù)據(jù)的投資。
在尋找答案的過程中,行業(yè)研究了現(xiàn)有的數(shù)據(jù)平臺技術(shù)及其優(yōu)勢。很明顯,有效的方法是將傳統(tǒng)的(或者說是遺留的)數(shù)據(jù)倉庫或數(shù)據(jù)集市的關(guān)鍵特性與數(shù)據(jù)湖的優(yōu)勢結(jié)合起來。以下幾個關(guān)鍵要素迅速浮出水面:
具備彈性和可擴展的存儲,能夠滿足日益增長的數(shù)據(jù)規(guī)模需求。
采用開放的數(shù)據(jù)格式,使數(shù)據(jù)對所有人都可訪問,同時針對高性能進行優(yōu)化,并具備良好定義的結(jié)構(gòu)。
開放的元數(shù)據(jù)(可共享),能夠支持多個消費引擎或框架。
支持數(shù)據(jù)更新(ACID特性)和事務(wù)并發(fā)處理。
綜合的數(shù)據(jù)安全和數(shù)據(jù)治理(如數(shù)據(jù)血緣、完整的數(shù)據(jù)訪問策略定義和執(zhí)行,包括地理分布)。
上述要素導(dǎo)致了湖倉一體的出現(xiàn)。湖倉一體是一種數(shù)據(jù)平臺,是將數(shù)據(jù)倉庫和數(shù)據(jù)湖的優(yōu)點融合在一起,形成統(tǒng)一、協(xié)調(diào)的數(shù)據(jù)管理解決方案。
利用watsonx.data來現(xiàn)代化數(shù)據(jù)湖的好處
站在當(dāng)下數(shù)據(jù)分析的十字路口,IBM的回應(yīng)是為企業(yè)提供watsonx.data解決方案。
站在當(dāng)下數(shù)據(jù)分析的十字路口,IBM的回應(yīng)是為企業(yè)提供watsonx.data解決方案,這是一個用于大規(guī)模數(shù)據(jù)管理的新型開放式數(shù)據(jù)存儲,允許企業(yè)在無需遷移的情況下圍繞、增強和現(xiàn)代化其現(xiàn)有的數(shù)據(jù)湖和數(shù)據(jù)倉庫。它支持開放式的多云與混合云,可以在客戶管理的基礎(chǔ)設(shè)施(本地或者私有云)和公有云上運行。它建立在湖倉一體架構(gòu)之上,并嵌入了一整套解決方案(以及通用軟件堆棧),適用于所有形態(tài)。
與市場上的競品相比,IBM的方法基于開源堆棧和架構(gòu)。這些組件并不是新的,而是業(yè)界已經(jīng)廣泛使用的成熟組件。IBM關(guān)注它們的互操作性、共存性和元數(shù)據(jù)交換。用戶可以快速入門,從而大大降低了入門和使用的成本,因為其上層架構(gòu)和基礎(chǔ)概念是大家熟悉且直觀的:
通過對象存儲實現(xiàn)開放的數(shù)據(jù)(和表格格式)
通過S3進行數(shù)據(jù)訪問
使用Presto和Spark進行查詢計算(SQL、數(shù)據(jù)科學(xué)、轉(zhuǎn)換和流處理)
通過Hive和兼容結(jié)構(gòu)實現(xiàn)開放的元數(shù)據(jù)共享
Watsonx.data為企業(yè)提供了一種保護他們在數(shù)據(jù)湖和數(shù)據(jù)倉庫數(shù)十年投資的方式,使企業(yè)可立即擴展并逐步現(xiàn)代化其安裝,將每個組件專注于對企業(yè)最重要的使用場景。
一個關(guān)鍵的差異化因素是多引擎 策略,允許用戶在統(tǒng)一的數(shù)據(jù)平臺上根據(jù)實際情況選擇適合的技術(shù)。watsonx.data使客戶能夠?qū)崿F(xiàn)完全動態(tài)的分層存儲(以及相關(guān)的計算)。隨著時間的推移,這可以帶來非常顯著的數(shù)據(jù)管理和處理的成本節(jié)省。
如果最終企業(yè)的目標(biāo)是通過湖倉一體架構(gòu)來現(xiàn)代化現(xiàn)有的數(shù)據(jù)湖部署,那么watsonx.data則通過選擇計算方式來最小化數(shù)據(jù)遷移和應(yīng)用遷移,從而簡化了任務(wù)。
接下來可以做什么?
在過去的幾年里,數(shù)據(jù)湖在大多數(shù)企業(yè)的數(shù)據(jù)管理策略中發(fā)揮了重要作用。如果企業(yè)的目標(biāo)是對其數(shù)據(jù)管理策略進行演進并現(xiàn)代化為真正的混合分析云架構(gòu),那么IBM基于湖倉一體架構(gòu)構(gòu)建的新型數(shù)據(jù)存儲watsonx.data,則是值得企業(yè)考慮的技術(shù)選擇。
相關(guān)資料:
點擊下載電子書:《為 AI而設(shè)的數(shù)據(jù)存儲》:https://www.ibm.com/account/reg/us-en/signup?formid=urx-52131
點擊閱讀 IBM watsonx.data 解決方案簡介:https://www.ibm.com/downloads/cas/4Z1YXEBO
瀏覽 watsonx.data 的產(chǎn)品頁面了解更多:https://www.ibm.com/products/watsonx-data
免責(zé)聲明:
※ 以上所展示的信息來自媒體轉(zhuǎn)載或由企業(yè)自行提供,其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本網(wǎng)站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本網(wǎng)站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。如果以上內(nèi)容侵犯您的版權(quán)或者非授權(quán)發(fā)布和其它問題需要同本網(wǎng)聯(lián)系的,請在30日內(nèi)進行。
※ 有關(guān)作品版權(quán)事宜請聯(lián)系中國企業(yè)新聞網(wǎng):020-34333079 郵箱:cenn_gd@126.com 我們將在24小時內(nèi)審核并處理。
標(biāo)簽 :
相關(guān)網(wǎng)文
一周新聞資訊點擊排行
關(guān)于我們 | CENN服務(wù) | 對外合作 | 刊登廣告 | 法律聲明 | 聯(lián)系我們 | 手機版
客戶服務(wù)熱線:020-34333079、34333137 舉報電話:020-34333002 投稿郵箱:cenn_gd@126.com
版權(quán)所有:中國企業(yè)新聞網(wǎng) 運營商:廣州至高點網(wǎng)絡(luò)科技投資有限公司 地址:廣州市海珠區(qū)江燕路353號保利紅棉48棟1004