栏目分类
热点资讯
深刻阐发逻辑数据仓库、数据编织与数据网格,数据架构中枢工夫
发布日期:2024-12-21 04:00 点击次数:102
导读 在现在数字化转型的海浪中,企业在数据治理方面靠近诸多挑战,Denodo 算作数据假造化领域的指令者,悉力于通过逻辑数据编织工夫,匡助企业更高效地经管和利用数据财富。本文将深刻探讨 Denodo 在数据治理和数据假造化方面的处治有缱绻,阐释逻辑数据编织的理念、上风以偏执在企业中的本色应用。
主题为:数据治理与数据假造化工夫在逻辑数据编织中的应用
主要先容:
1. 刻下数据环境和数据挑战的相识
2. 逻辑数据编织的理念偏执上风
3. 数据假造化在企业本色环境中的应用场景
4. 公共得手客户案例分享
分享嘉宾|郭杰 Denodo Technologies 大中华区工夫总监
01
刻下数据环境和数据挑战的相识
1. 刻下数据环境的多重挑战
在刻下的数据环境中,数据治理的要津挑战在于数据的挪动、分散和种种化。跟着工夫、资源和用户需求的变化,企业不休将数据从一个场所漂流到另一个场所,以终了数据的经管、应用和分享。然则,数据的连接转移使数据治理变得愈加复杂。
领先,从数据环境的变化来看,数据量呈现出爆炸式增长的趋势。据 IDC 酬报自大,亚太地区 2022 年的数据产量达到 41.4 ZB,瞻望到 2025 年将翻倍至 96.4 ZB。同期,数据产生和存储的形式也日益分散化。瞻望到 2025 年,在公共各个边际节点上产生的数据量将从 2021 年的 12.4 ZB 增至 40 ZB。这种数据分散化的表象不仅源于传统的东说念主为输入,还包括多数来自传感器、酬酢媒体和线上线下应用等多种渠说念的数据。
此外,云表数据的快速增长也进一步加重了数据环境的复杂性。瞻望到 2025 年,云表数据将占公共数据总量的 55%。然则,这意味着剩余的 45% 数据并未存储在云表,企业在经管这些数据时需要面对云表与非云表数据之间的分散式性情。对于企业来说,奈何灵验经管和利用这些分散的数据财富成为一个亟需处治的问题。
其次,数据的种种化形式对数据治理提倡了更高要求。当年,结构化数据占据主导地位,而如今,非结构化和半结构化数据的比重不休增多。例如,企业在云表或不同系统中存储的数据,不再局限于传统的数据库形式,更多的是通过 API 等形式进行造访和集成。这种数据造访形式的变化,使得企业在数据治理中需要磋议奈何经管和利用这些多模态数据。
临了,数据的及时性成为刻下数据环境的另一垂死特征。2020 年,在挪动平台上产生了 6.7 ZB 的数据,这径直鼓舞了云表应用的发展。瞻望到 2025 年,25% 的原始数据将包含及时数据。及时数据的激增要求企业在数据治理有缱绻中纳入对及时数据的经管和分析,以提高数据的价值。
玄虚来看,刻下数据环境靠近着数据量激增、数据分散、种种化和及时化等多重挑战。在这种配景下,企业需要制定新的数据治理策略,以在确保数据安全和合规的同期,提高数据的利用末端,诽谤数据经管的本钱。
2. 数据治理需求的演变
在刻下的数据治理中,业务部门和 IT 部门对数据的需乞降挑战正在发生变化。业务部门要求更高的数据敏捷性和质料,但愿大约快速取得准确的数据以援手业务决策。此外,数据的使用不应依赖少数数据科学家,强调数据民主化,让更多非 IT 专科东说念主员也能松驰使用数据。这种需求鼓舞数据治理走向诽谤使用门槛,让更平素的用户大约更快地虚耗和利用数据。
IT 部门则靠近着数据体量增多和数据叠加挪动、复制导致的本钱问题。传统的数据治理形式相似波及数据复制,如 ETL、ELT 等过程,但这种形式在面对大范畴数据时本钱不菲。因此,IT 部门需要念念考是否有更包容、更优化的治理法式,减少对数据的物理复制,尤其是提前量的对原始数据级别的全量复制步履,以此诽谤数据经管的举座本钱。
除了业务部门和 IT 部门的需求,数据合规和安全问题也日益卓越。首席数据官(CDO)和首席风险官(CRO)脚色的出现,反应了企业对数据合规和安全的青睐。跟着企业在公共范围内的推广,数据跨境传输带来了合规和安全挑战。不同国度和地区的数据司法(如中国的 PIPL、欧洲的 GDPR、好意思国的 CCPA)对数据的存储、传输和造访提倡了严格的要求。企业必须在公共不同地区的数据治理中顺从各自的司法,以确保数据的正当合规。这些司法对数据的存储和跨境造访提倡了规章,使得数据治理策略愈加复杂。玄虚这些变化,数据治理法式、理念和架构需要不休演进,以适当业务敏捷性、数据合规、安全经管等多维度的需求。
3. 分散式数据环境的当代化策略
Denodo 提倡的处治有缱绻数据假造化工夫为数据治理提供更多的选拔。数据假造化是一种让数据不错在不进行物理复制的情况下被造访和经管的工夫,这种形式为企业带来了优化数据治理的智商。当代数据架构需要应付两个中枢问题:领先,接受分散式数据环境已成为势必。由于工夫、安全合规、数据使用等多重原因,数据很难终了物理连合,强行连合不仅本钱不菲,还会带来复杂的风险。企业必须安心接受分散式数据环境,承认数据在物理上是分散的。
其次,天然数据在存储层面是分散的,但在造访、经管、治理层面仍需终了斡旋。若企业需要造访多个分散在不同环境致使跨境的数据源,点对点的相接形式将导致造访相聚复杂且絮叨,不利于闪现地掌控数据的使用情况。因此,在逻辑层面上连合数据的造访和经管是要津。这即是逻辑数据经管的中枢念念想,它允许在分散式数据环境下终了数据的连合化使用,知足业务对数据敏捷性和准确性的需求。
逻辑数据经管并非新主见,依然被公共顶级数据经管询查机构(如 Gartner、Forrester 等)斟酌多年,并资格了不同发展阶段,包括逻辑数据仓库、逻辑数据编织和数据网格等理念。Denodo 将在后续的斟酌中闪耀酬报这些主见,匡助企业更好地相识逻辑数据经管在当代数据治理中的垂死性。
02
逻辑数据编织上风
1. 数据编织的上风
逻辑数据编织在当代数据架构中具有显赫上风,尤其是在数据治理和数据经管方面。凭证 Gartner 2021 年的酬报,逻辑数据编织借助逻辑连合化的数据造访,终阐发治理、审计、跟踪、安全性和监控的斡旋经管。具体上风如下:
斡旋的业务语义和安全性:逻辑数据编织提供了对数据治理的单一接入点。尽管数据存储是分散式的,但数据的造访和经管通过逻辑连合化终了斡旋。这种斡旋性确保了业务语义的一致性,并强化了数据的安全性。
敏捷性与裁汰寄托时期:逻辑数据编织大幅提高数据寄托的敏捷性。它灵验裁汰了从需求提倡到终了寄托的周期(TTM,Time to Market),从而使数据在更短时期内为业务提供援手,提高了组织的响应速率和竞争力。
易于业务东说念主员使用:逻辑数据编织为业务东说念主员提供了一种更友好的数据虚耗形式。它使用标准化、斡旋的业务话语和造访肯求,使得业务东说念主员无需深刻掌持工夫细节,也能灵验利用和虚耗数据。
面向将来的架构遐想:逻辑数据编织是一种面向将来的数据经管法式。其架构遐想活泼,大约适当工夫发展和基础架构的变更,为企业提供了连接发展的空间,确保数据系统在将来的可扩展性和可儿惜性。
2. 逻辑数据仓库(LDW)架构
(1)逻辑数据仓库(LDW)架构
在数据经管的架构遐想中,逻辑数据仓库(Logical Data Warehouse, LDW)是一种常见的终了形式,它通过斡旋的数据经管和造访层整合了多种数据源。构建逻辑数据仓库并不料味着物理数据仓库的消散,物理数据仓库在 LDW 架构中依然存在,致使不错与数据湖等物理存储环境共存。通过假造化层的整合,这些物理存储成为一个斡旋的逻辑数据环境。
在 LDW 架构中,左侧为各式数据源,包括物理数据仓库和数据湖,右侧则是数据应用。架构中的中枢是中间的假造化层,它提供了一个斡旋的数据造访界面,不论数据位于仓库、数据湖,如故径直来自业务系统的数据源,用户都能在这个逻辑环境中进行造访。
这一架构的活泼性体现在数据的跨源造访和异构整合上,用户不错快速灵验地组织和查询来自不同源的数据。致使在某些情况下,数据无谓领先参加数据仓库或数据湖,而是不错径直从业务系统中进行造访,这使得数据的处理和响应愈加活泼和高效。
LDW 并不是一个全新的主见,早在 2010 年,公共范围内依然开动平素应用这一工夫架构。LDW 的兴起很猛进程上是因为物理数据仓库建立本钱不菲。跟着数据量的增长,数据仓库的鄙吝用度,包括东说念主力、存储和时期的本钱,都会显赫高潮。例如,很多企业存储了十年以上的历史数据,尽管本色使用中可能只需要近三个月或三年的数据。对于指令层来说,往往只关注最新的数月数据,而对更久远的数据需求较少。然则,一些中层经管东说念主员或者具体履行层面的东说念主,比如财务部门,可能需要稽察较永劫期跨度的数据。面对这些不同层级的需求,络续将所特别据存放在高本钱的物理数据仓库中显著是不对理的。
(2)数据分区与假造化层的终了
逻辑数据仓库的一个要津上风在于,它大约基于数据的使用场景和需求,活泼分派数据存储资源。这种分派不错通过不同的分区策略终了,比如水中分区和垂直分区。以水中分区为例,LDW 允许咱们在保持数据结构一致的前提下,将数据凭证不同条目分派到不同的存储环境中。
例如来说,企业不错将最中枢的、高造访频率的数据保存在性能更高的物理数据仓库中,而将历史性或低频造访的数据存储在如 Hadoop 集群这么的低本钱环境中。对于三年以上的历史数据,由于造访频率较低,用户对查询响当令期的容忍度相对较高,因此不需要保存在高性能系统中。然则,指令层可能对及时数据的响当令期要求荒谬高,延长几秒钟就可能影响他们的决策,因此这些数据必须保存在高效的物理仓库中。而对于需要查询多年历史数据的财务或操作主说念主员,即使系统响应稍慢也不错接受,这么的数据就不错被漂流到更具性价比的存储系统中。
在逻辑数据仓库的假造化层中,用户无谓温雅数据究竟存储在数据仓库如故数据湖中。假造化层会凭证用户的肯求自动决定数据的造访旅途。用户不错同期查询物理数据仓库和数据湖中的数据,而这一过程对用户来说是透明的。这么的遐想确保了数据的活泼整合和高效造访,减少了跨源查询的复杂性。
(3)LDW 构建的中枢因素
在逻辑数据仓库的建立过程中,假造化层的终了波及三项中枢任务:
业务逻辑的遐想与斡旋建模:逻辑数据仓库中的数据造访是通过一种业务话语进行的。不论数据是存储在物理数据仓库中,如故在数据湖中,逻辑数据仓库需要将这些数据抽象成斡旋的业务模子。这个模子必须是面向业务的,浅显业务东说念主员相识和操作,保证用户大约以一致的形式造访所特别据源。
自动化处理与优化:在逻辑数据仓库的环境中,数据造访的自动化优化至关垂死。用户发出的查询肯求并不会径直指向某个特定的数据源,而是通过假造化层的自动化机制决定应该从那儿索取数据。凭证用户的查询条目,系统会自动判断是否从物理数据仓库或数据湖中取得数据,从而提高造访末端。用户不需要相识这些数据是奈何分散的,也不需要手动指定数据的起头,这一切都是在后台通过智能优化完成的。
数据经管与治理:逻辑数据仓库的另一垂死功能是数据经管和治理,包括数据安全、监控、审计和数据治理。由于逻辑数据仓库可能会波及多个数据源,因此在保证数据造访末端的同期,还需要确保数据的安全性和合规性。假造化层会对数据造访进行监控和审计,保证数据治理的齐全性和安全性,确保数据造访稳妥企业的合规要求。
通过这三大中枢因素的构建,逻辑数据仓库大约灵验处治物理数据仓库带来的存储和鄙吝本钱问题,提供了一个活泼的、面向业务的斡旋数据造访平台。它不仅优化了跨源数据的查询和经管,还为企业提供了高效的数据整合有缱绻,知足了不同层级的业务需求。
3. 逻辑数据编织的主见
逻辑数据编织(Logical Data Fabric)是连年来数据经管领域中平素斟酌的一个主见,往往与逻辑数据仓库(Logical Data Warehouse)一同被说起。然则,逻辑数据编织与逻辑数据仓库并非完全换取的主见,而是一种更平素的数据集成和经管法式。尽管咫尺尚未有一个皆备明确的标准界说来评释什么是逻辑数据编织,但诸如 Gartner、Forrester 等泰斗询查机构在当年五年中提倡了对于它的一些不雅点,不错匡助咱们对其进行相识。
凭证 Gartner 的不雅点,逻辑数据编织领先是一种面向数据集配置业的遐想架构。它旨在通过提供数据集配置业来终了数据的无缝整合。逻辑数据编织的第二个要津特色是它基于元数据驱动。元数据在这个架构中起到中枢作用,驱动数据集成和经管的各个门径。基于元数据驱动的架构使得逻辑数据编织大约按需完成数据集成职责,这意味着在数据集成过程中,逻辑数据编织不错动态地适当不同的数据需求。
逻辑数据编织的另一个垂死特征是其对东说念主工智能(AI)和机器学习(Machine Learning)的愚弄。Gartner 指出,逻辑数据编织应当在数据集成的过程中,最大化或自动化地使用 AI 和机器学习工夫,以优化数据集成和经管经过。这不仅提高了数据集成的末端,还能使得数据分析和数据知悉更为智能和精确。
逻辑数据编织通过元数据来驱动通盘数据集成过程,并大约基于这些元数据进行保举和优化。这种元数据与保举的勾通,组成了逻辑数据编织的核容颜念,使其在数据集成领域中饰演了垂死脚色。
4. 数据网格
数据网格(Data Mesh)是一种新式的数据治理架构,它的中枢念念想是通过各个部门基于本人的数据家具来终了联邦式的数据治理。与传统的连合化数据治理形式不同,数据网格强调数据家具的分散式经管和自治,这种形式大约更好地适当组织里面各个部门的特定需乞降数据性情。
尊重各别:数据网格强调各部门数据的独有性,允许不同部门凭证本人需求来经管和使用数据。每个部门的数据可能在形式、结构和用途上有所不同,数据网格荧惑保持这种种种性,而不是强制斡旋标准。这一特色使数据治理大约更活泼地适当企业里面的复杂需求。
数据即家具:在数据网格中,数据被视为家具。各部门的数据家具应具备易于发现、相识和使用的性情,浅显其他部门在组织里面进行分享和利用。通过将数据算作家具来经管,不错确保数据质料、提高数据可用性,并使数据在组织里面进展更大的价值。
自就业平台:数据网格提供了一个自就业的平台,使各部门不错自主构建、部署、发布和经管其数据家具。天然该平台由中央团队运营,但中央团队的职责仅限于鄙吝平台,而不认真拓荒具体的数据家具。这么,各部门不错快速响应业务需求,构建稳妥本人需要的数据家具,提高数据治理的末端和活泼性。
联邦式诡计治理:联邦式诡计治理确保了数据网格的举座互操作性和一致性。通过分享实体的通用语义和旧例,数据网格在各部门之间终阐发数据的无缝合营。同期,联邦式治理还援手全局安全和经管策略的履行,确保数据在通盘组织中的安全和合规。这种治理形式既保证了各部门的自主性,又鄙吝了全局的数据一致性和安全性。
5. Denodo 的处治有缱绻
基于数据假造化和 Denodo 的处治有缱绻,数据网格的终了不错分步进行,其中的中枢主见是数据家具。数据网格将数据寄托视为数据家具,并将其分类为三种类型:源域的数据家具、跨域的数据家具以及面向业务的数据家具。这种分类形式强调了数据在不同场景和需求下的寄托形式,使得数据家具大约更好地就业于组织的多元化需求。
回来来看,数据经管的架构资格了三个主要阶段。凭证 Gartner 的最新揣摸,不错差异为三个时期:前数据仓库时期、逻辑数据仓库时期和增强型分析时期。
在 2010 年以前,这被称为前数据仓库时期或后数仓时期。在这一时期,企业主要构建的是物理数据仓库、数据集市和数据沙箱等环境,要点是将数据连合到一个物理平台中进行经管和分析。跟着需求的变化和数据范畴的扩大,这种物理连合式的形式爽气暴涌现其局限性。
2010 年至 2020 年的十年被称为逻辑数据仓库时期。这一阶段的中枢在于构建斡旋的数据分析环境,以知足日益增长的分析需求。逻辑数据仓库在原有物理数据平台的基础上,增多了一个斡旋的业务语义层,即逻辑数据造访经管层。这一层的引入使得不同的数据平台不错通过斡旋的接口进行造访和分析,从而更好地援手业务需求。然则,数据环境的举座构建念念路在这个时期并未发生根人性的变化,依然依赖于物理数据的连合存储。
2020 年以后,被称为增强型分析时期或步履元数据时期。在这一阶段,数据经管的中枢从物理连合转向了元数据驱动。通过相聚和经管元数据,企业不错在斡旋的数据寄托和经管框架下,更高效地进行数据治理。元数据驱动不仅使数据经管愈加活泼,还为数据的自动保举提供了可能性,从而终阐发步履元数据的经管架构。
在本色应用中,企业奈何选拔这三种架构是一个需要玄虚磋议的问题。逻辑数据编织的中枢在于对元数据的相聚和经管,因此适用于那些在元数据经管熟识度较高的企业。对于数据网格,它强调分散和自治的核容颜念,适用于数据治理熟识度更高、大约自助式经管数据的企业。然则,践诺中,公共范围内大约在这两个维度上都达到熟识度要求的企业不及 15%,剩余的 85% 企业相似在两个维度上都无法完全知足。因此,逻辑数据仓库成为这些企业较为稳妥的处治有缱绻。
需要严防的是,数据编织和数据网格并非互斥的主见。在想象的数据治理环境中,数据编织和数据网格应当勾通使用。在数据集成的架构层面,终了自动化和编织念念想,同期在企业范围内,通过网格化的相接,终了各个数据单位的编织。这种会通的形式,既能利用元数据驱动的数据编织上风,又能进展数据网格的自治性,为企业提供全面的数据治聪慧商。
03
企业脚色与使用场景
在本色应用场景中,使用 Denodo 的数据假造化工夫不错终了多种数据架构,包括逻辑数据仓库、逻辑数据编织以及数据网格。然则,不论给与何种架构,都需要凭证具体的业务需求找到稳妥的切入点。以下是六个常见的切入点:
单一视图场景:构建客户、家具、车辆、档案等 360 度全景视图。这种场景适用于业务部门需要全面了解某一双象的所关连联信息,以援手业务决策和客户就业。
数据安全与合规场景:知够数据安全和合规性要求,包括数据造访限度、审计、数据阴私保护等。金融、医疗等对数据安全要求较高的行业尤为稳妥。
数据就业场景:提供 API 经管和数据就业发布,终了数据的标准化和可复用。通过数据就业化,不错为其他系统提供斡旋的数据造访接口,援手活泼的数据虚耗。
自助式 BI 场景:知足业务部门的数据自助分析需求,终了数据民主化和数据好处。通过自助式分析器具,业务用户不错径直对数据进行查询和分析,提高数据利用末端。
大数据场景:包括逻辑数据仓库和逻辑数据湖的经管。在大数据环境中,逻辑数据假造化层不错整合各式类型的数据源,提供斡旋的数据造访接口。
云表场景:援手上云、下云和多云策略,终了夹杂云和多云环境下的数据经管。通过数据假造化,不错终了云表与腹地数据的无缝集成。
04
得手案例-冰岛银行
冰岛银行(Landsbank)的实践案例展现了逻辑数据仓库和数据网格的演进过程。在给与 Denodo 处治有缱绻之前,冰岛银行靠近着数据经管的复杂性。银行需要知足董事会、业务部门等不同的需求,例如 KPI 酬报、风险酬报等。冰岛银行原有的架构中,各个业务部门给与不同的 BI 器具(如 SAP BO、SAS)构建模子层和语义层。这种多器具、多系统的架构导致了以下问题:
数据安全与合规:银行对数据安全管控要求高,在每个数据源、数据集成层、应用层都需要进行多数的安全和审计章程治理,增多了经管的复杂性。
数据叠加建立:不同部门给与不同器具和法式,导致数据模子的叠加建立,增多了数据经管的本钱。
第一年:逻辑数据仓库的终了:为处治上述问题,冰岛银行领先构建了逻辑数据仓库,将数据假造化层遮掩在原有的中间模子层上。通过数据假造化层,银行连合经管业务章程、安全审计章程,从而大幅诽谤了数据治理和管控的本钱。
第二、三年:扩展逻辑数据仓库:看到逻辑数据仓库的得手后,冰岛银即将这一架构扩充至更多业务部门,包括对私和对公业务等。逻辑数据仓库范围的扩大,终阐发对更多业务数据的连合经管和假造化。
第四年:数据网格的初步构建:跟着业务的扩展,冰岛银行发现仅靠物理连合存储无法知足通盘业务需求,尤其是对原系统中数据的相识和经管成为瓶颈。因此,银行开动结伙业务众人,对原域数据家具进行深刻治理,提高数据质料。通过逻辑数据经管的法式,银行完成了从数据连合化到自治化的疗养,为构建数据网格奠定了基础。
将来:数据网格的全面落地:经过多年的勉力,冰岛银行最终终阐发全行范围的数据网格化。数据网格使银行各个业务部门大约活泼地造访和分享数据,从而援手业务立异。例如,对公部门不错造访同行数据,对私部门不错造访信用卡数据。数据网格的终了使银行的业务更具活泼性和可扩展性。
冰岛银行的案例展示了数据假造化在数据经管架构中的垂死性。不论是逻辑数据仓库、逻辑数据编织,如故数据网格,数据假造化都不错提供活泼的数据集成和治聪慧商,知足不同行务场景的需求。选拔何种架构取决于企业的业务需求、数据治理熟识度以及数据安全与合规要求。在想象情况下,数据编织和数据网格的勾通不错终了企业数据的最好治理。
下一篇:2025年的主张策略