国产麻豆精品视频-国产麻豆精品免费视频-国产麻豆精品免费密入口-国产麻豆精品高清在线播放-国产麻豆精品hdvideoss-国产麻豆精品

深圳熱線

什么是?數(shù)據(jù)倉庫 創(chuàng)建數(shù)據(jù)湖有什么用?

2023-04-06 15:04:55 來源:匯世網(wǎng)

什么是?數(shù)據(jù)倉庫

數(shù)據(jù)倉庫長期以來一直是管理大數(shù)據(jù)的標(biāo)準(zhǔn)方法,但是數(shù)據(jù)湖是否更適合組織的需要?其答案是肯定的。

隨著當(dāng)今數(shù)據(jù)的數(shù)量、速度和種類的不斷變化,人們開始意識到,并沒有一種能夠滿足組織所有數(shù)據(jù)需求的數(shù)據(jù)庫。與其相反,許多組織已經(jīng)轉(zhuǎn)向?yàn)樘囟ㄓ美蝽?xiàng)目選擇合適的數(shù)據(jù)存儲技術(shù)。數(shù)據(jù)分散存儲在不同數(shù)據(jù)存儲空間中給組織整合數(shù)據(jù)進(jìn)行分析帶來了挑戰(zhàn)。從歷史上看,唯一可行的解決方案是構(gòu)建數(shù)據(jù)倉庫,這可以從所有不同的數(shù)據(jù)源攝取數(shù)據(jù),在清理之后并將其合并在一起,最后以定義良好的結(jié)構(gòu)將這些數(shù)據(jù)加載到精煉的數(shù)據(jù)倉庫中。雖然這種方法并沒有什么問題,但是數(shù)據(jù)湖和數(shù)據(jù)倉庫的組合才是組織真正需要的解決方案。以下是組織為什么應(yīng)該采用數(shù)據(jù)湖的7個(gè)原因:

創(chuàng)建數(shù)據(jù)湖有什么用

1.為數(shù)據(jù)倉庫構(gòu)建暫存區(qū)

數(shù)據(jù)湖并不需要成為數(shù)據(jù)的最終存儲目的地。由于數(shù)據(jù)不斷流動并改變其形式,現(xiàn)代數(shù)據(jù)平臺應(yīng)該便于數(shù)據(jù)的攝取和發(fā)現(xiàn),同時(shí)又要為分析需求提供完整而嚴(yán)格的結(jié)構(gòu)。常見的一個(gè)模式是數(shù)據(jù)湖充當(dāng)數(shù)據(jù)攝取的不可變層。任何內(nèi)容都不會從中刪除(可能只會被新版本覆蓋,或者出于合規(guī)性原因而刪除)。所有被攝取到數(shù)據(jù)平臺的原始數(shù)據(jù)都可以在數(shù)據(jù)湖中找到。這意味著組織仍然可以有ELT/ETL作業(yè)來轉(zhuǎn)換和清理數(shù)據(jù),然后將其接收到數(shù)據(jù)倉庫中,同時(shí)嚴(yán)格遵循Kimbol、Inmon或Data Vault方法。

組織無需在數(shù)據(jù)湖或數(shù)據(jù)倉庫之間進(jìn)行選擇,可以同時(shí)使用數(shù)據(jù)湖和不可更改的暫存區(qū),以及將數(shù)據(jù)倉庫用于商業(yè)智能的分析報(bào)告。人工智能廠商Databricks公司創(chuàng)造了“湖倉一體”(Data Lakehouse)這一術(shù)語,也就是在一個(gè)解決方案中將數(shù)據(jù)湖和數(shù)據(jù)倉庫的優(yōu)點(diǎn)結(jié)合在一起。同樣,組織采用Snowflake之類的平臺將諸如S3之類的云存儲桶作為外部存儲,從而有效地利用數(shù)據(jù)湖作為暫存區(qū)域。

最后,組織需要確定為其用例是選擇采用湖倉一體,還是數(shù)據(jù)湖與數(shù)據(jù)倉庫的組合。

研究發(fā)現(xiàn),越來越多的數(shù)據(jù)團(tuán)隊(duì)不再只是采用數(shù)據(jù)倉庫或數(shù)據(jù)湖,他們希望采用湖倉一體,這有著充分的理由。隨著更多用例的出現(xiàn)和涉及更多利益相關(guān)者,單一的解決方案難以滿足所有需求。

2.由于暫存區(qū)不可變,因此可以審核所有數(shù)據(jù)的日志,這些數(shù)據(jù)都被攝入到組織的數(shù)據(jù)生態(tài)系統(tǒng)中

審計(jì)跟蹤對于滿足合規(guī)性要求通常很重要。數(shù)據(jù)湖使收集元數(shù)據(jù)變得更容易,它可以了解用戶何時(shí)和從何處攝取數(shù)據(jù)。這不僅有助于合規(guī)性,而且有助于跟蹤數(shù)據(jù)所有權(quán)。

3.增加洞察價(jià)值的時(shí)間和數(shù)據(jù)價(jià)值

通過提供不可變的所有數(shù)據(jù)層,組織在獲取數(shù)據(jù)后立即向消費(fèi)者提供數(shù)據(jù)。通過提供原始數(shù)據(jù),組織將啟用探索性分析,而在不同的數(shù)據(jù)團(tuán)隊(duì)以不同的方式使用相同的數(shù)據(jù)集時(shí),這可能很難完成。通常情況下,不同的數(shù)據(jù)使用者可能需要基于相同原始數(shù)據(jù)的不同轉(zhuǎn)換。數(shù)據(jù)湖允許組織深入研究各種類型和形式的數(shù)據(jù),并決定哪些數(shù)據(jù)可能為組織產(chǎn)生見解。

4.用于實(shí)時(shí)和批處理分析的單一數(shù)據(jù)平臺

將實(shí)時(shí)數(shù)據(jù)攝取到數(shù)據(jù)倉庫中仍然是一個(gè)具有挑戰(zhàn)性的問題。即使市場上推出嘗試解決這一問題的工具,但在利用數(shù)據(jù)湖作為提取所有數(shù)據(jù)的不可變層時(shí),也可以輕松解決這一問題。例如,許多解決方案(例如Kinesis Data Streams或Apache Kafka)允許組織將S3存儲桶作為數(shù)據(jù)的接收器。

5.成本

隨著社交媒體、傳感器、日志和Web分析數(shù)據(jù)量的不斷增長,將所有數(shù)據(jù)存儲在數(shù)據(jù)倉庫中的成本可能會變得越來越高昂。許多傳統(tǒng)的數(shù)據(jù)倉庫將存儲和處理緊密地結(jié)合在一起,使得數(shù)據(jù)倉庫的擴(kuò)展變得更加困難。

數(shù)據(jù)湖彼此獨(dú)立地?cái)U(kuò)展存儲和處理(查詢和API請求以檢索數(shù)據(jù))的規(guī)模,而一些云計(jì)算數(shù)據(jù)倉庫也支持這種范例。

6.便利性

通常情況下,采用數(shù)據(jù)倉庫解決方案要求組織管理基礎(chǔ)計(jì)算集群。云計(jì)算供應(yīng)商開始意識到這樣做的困難,并建立了完全托管或完全無服務(wù)器的數(shù)據(jù)存儲。

例如,將S3存儲桶與AWS Glue和Athena結(jié)合使用時(shí),組織的平臺仍然不需要采用服務(wù)器,并只需為其使用的內(nèi)容支付費(fèi)用。組織可以利用這個(gè)單一數(shù)據(jù)平臺執(zhí)行以下操作:

檢索關(guān)系和非關(guān)系數(shù)據(jù)

查詢歷史和實(shí)時(shí)數(shù)據(jù)

檢查組織機(jī)器學(xué)習(xí)訓(xùn)練工作和服務(wù)機(jī)器學(xué)習(xí)模型

攝取數(shù)據(jù)之后直接在應(yīng)用轉(zhuǎn)換之前查詢數(shù)據(jù)

通過外部表合并來自數(shù)據(jù)湖和DWH表的數(shù)據(jù)(幾乎在所有DWH解決方案中都可用)

與其他服務(wù)和分布式計(jì)算框架(例如Dask或Spark)集成

關(guān)于數(shù)據(jù)集成,在AWS云平臺上,組織可以利用:

數(shù)據(jù)湖形成的通道管理

awswrangler(可在AWS上稱為Pandas的Python庫)

Quicksight(AWS BI工具)

Delta lake(由Databricks創(chuàng)建的開源平臺)

lakeFS(數(shù)據(jù)的版本控制)

Upsolver(使用Kappa架構(gòu),例如數(shù)據(jù)流和批處理的數(shù)據(jù)攝取)

AWS Database Migration Service可以使組織將數(shù)據(jù)從RDS數(shù)據(jù)庫表(甚至整個(gè)架構(gòu))以增量方式導(dǎo)出到S3存儲桶文件中,這些文件可以使用AWS Glue使用Athena進(jìn)行查詢。

7.經(jīng)得起未來的考驗(yàn)

根據(jù)調(diào)查和統(tǒng)計(jì),通常存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)中至少有三分之一幾乎從未使用過。組織需要攝取、清理和維護(hù)這樣的數(shù)據(jù)源,以便以后可能需要它們。這意味著數(shù)據(jù)工程師將要花費(fèi)大量時(shí)間和精力來構(gòu)建和維護(hù)可能還沒有明確業(yè)務(wù)需求的數(shù)據(jù)。

ELT范例使組織可以通過只針對實(shí)際需要的用例構(gòu)建數(shù)據(jù)管道來節(jié)省時(shí)間,同時(shí)將所有數(shù)據(jù)存儲在數(shù)據(jù)湖中以備將來可能的用例使用。如果在將來出現(xiàn)特定的業(yè)務(wù)問題,則可能會找到答案,因?yàn)閿?shù)據(jù)已經(jīng)存在。但是組織不必花時(shí)間清理和維護(hù)數(shù)據(jù)管道,以解決尚無明確業(yè)務(wù)用例的問題。

數(shù)據(jù)湖和云計(jì)算數(shù)據(jù)平臺能夠經(jīng)得起未來考驗(yàn)的另一個(gè)原因是,如果組織的業(yè)務(wù)增長迅速,則其平臺將具備快速擴(kuò)展的能力。組織不需要采用成本高昂的遷移方案即可轉(zhuǎn)換到更大或更小的數(shù)據(jù)庫來適應(yīng)其規(guī)模的增減。

無論組織選擇哪一種方法,組織的云數(shù)據(jù)平臺都應(yīng)允許其無限制地增長數(shù)據(jù)資產(chǎn)。

關(guān)鍵詞: 數(shù)據(jù)倉庫是什么 為什么要創(chuàng)建數(shù)據(jù)湖 什么是?數(shù)據(jù)倉庫 創(chuàng)建數(shù)據(jù)湖有什么用

熱門推薦