数据中台已经走向没落?
根据Gartner在2024年数据分析与人工智能技术成熟度曲线(中国版)中指出,“数据中台”落入泡沫破裂低谷期,并且,Gartner还提出了“数据中台即将消亡”的论断。
提出这样的论断,在于经过了十多年的发展,数据中台的弊端愈发明显。从技术视角分析,数据中台是物理集中式架构,侧重于物理化的统一归集和数据搬运,而随着数据规模指数级增长,由于合规性、安全性等原因,数据中台难以应对“跨源异构”数据的整合,且建设数据中台,投资巨大,回报周期长,ROI成为众多企不得不考虑的问题。从业务视角分析,这种架构高度依赖于ETL专业团队及相关工具,不仅在时效性和灵活性上,难以为前端业务决策和产品创新提供支持,对一些自服务的数据消费场景,也难以提供敏捷的数据交付。
因此,从实际应用角度出发,对于正实施数字化转型战略的大型企业,或者想要更快、成本更低落地数字应用的中小型,甚至是初创企业来说,数据中台在当下这样的环境中,显然已经不是更好的选择。更灵活、更敏捷,也更低成本的数据编织架构开始受到关注。
什么是数据编织?
数据编织(Data Fabric)不是一个产品而是一种设计理念,是利用AI、机器学习和数据科学的功能,访问数据或支持数据动态整合,以发现可用数据之间独特的、与业务相关的关系。换句话说,现在的数据连接的架构设计还主要是“人找数据”,而数据编织的设计核心是“数据找人”,在合适的时间、将合适的数据推送给需要的人。
数据编织是一种全新的数据管理架构理念,其核心是通过优化跨源异构数据的发现与访问,将可信数据以灵活且业务可理解的方式交付给所有相关数据消费者,让数据消费者自助服务和高效协作,实现极致敏捷的数据交付。
与传统数据中台架构相比,数据编织的关键突破是通过数据虚拟化技术,创建逻辑数据层,在单点逻辑集成了分散在不同系统中的数据,为数据消费者提供了一个统一的、抽象的、封装的逻辑数据视图,无需物理搬运数据即可实现数据的统一访问与管理。
“用户通过这个逻辑视图,可以查询和操作存储在异构数据源中的数据,把多个异构数据源当成一个同构数据源使用,无需关心数据的位置、类型和格式,最终实现类似数据中台的统一集中化的数据访问和管理。”Aloudata大应科技CMO刘靓告诉,“数据编织与数据中台最大的差异在于:无需事前物理集中数据,事中运维 ETL 任务,事后计存治理(零搬运、免运维、自治理),为企业数据体系建设和数据管理架构提供了一种全新的思路。”
另一方面,国际市场也看好数据编织架构的发展。根据全球行业分析师报告,全球数据编织市场从2020年的11亿美元,到2026年将达到37亿美元,增长超过2倍。在此前,Gartner连续三年将数据编织(Data Fabric)列为“十大数据和分析技术趋势”之一,更是在2024年的数据管理技术成熟度曲线里大幅提升数据编织的成熟度,预测该技术在未来2-5年内会获得广泛应用。
在Gartner看来,数据编织是一种跨平台的数据整合的方式,它不仅可以集合所有业务用户的信息,还具有灵活且弹性的特点,使得人们可以随时随地使用任何数据。
从应用上看,刘靓告诉,目前国际上对于数据编织架构的应用案例比较多,但是在国内市场,数据编织架构的应用仍处于发展的初期阶段。
门槛更低,效率更高,哪些场景适合数据编织?
数据中台在国内已经有了多年的发展历史。数据中台的概念最早由阿里巴巴在2014年前后提出并开始实施。阿里巴巴通过构建数据中台,解决了内部多个业务线数据孤岛的问题,实现了数据的统一管理和高效利用。此后,数据中台的概念逐渐被广泛认可和应用。
随着数据中台概念的普及,越来越多的企业认识到数据中台的重要性,纷纷开始布局数据中台建设。数据中台的建设和应用,推动了企业的数字化转型,也为企业带来了新的商业机会和竞争优势。
但在Gartner 2024《创新洞察:数据基础设施成为中国数据与分析生态系统的基石》报告中提出,纯技术驱动的 "大而全 "的数据与分析平台(如数据中台)无法确保切实的商业回报,从而失去了利益相关者的支持。
究其原因,虽然单就国内市场而言,数据中台仍是大多数企业统一管理和交付数据,以数据驱动数字化转型的重要选项,但其复杂的架构搭建,高昂的建设成本,以及持续的投入和较长的回报周期,让企业开始思考和探寻新的数据架构。并且数据中台架构的运作,高度依赖于专业的ETL工程师及相关工具,需要人工进行复杂且繁琐的数据加工处理,然后交付数据给到前端消费者,而这不仅难以及时响应越来越快的业务需求,对于自服务的场景,也存在一定的门槛。除企业在使用数据中台的过程中,也会存在数据反复搬运的情况,而这种情况也导致了企业使用数据中台的成本不断上升。
对此,西卡中国 BI 和数据负责人袁莺表示,数据中台主要提供统一的服务,其数据存储模式主要是物理集中式的,相比之下,数据编织更多地提供虚拟化的逻辑集成方案,能够在云上、本地系统,以及多个存储位置之间,构建统一的虚拟访问层,不仅解决了数据迁移的问题,还有助于应对数据合规性的问题。
换言之,数据编织架构的出现,能够让企业以更低的成本,更快的速度,以及更好的合规性,实现全域数据的整合集成,及时响应业务需求,赋能产品创新和业务决策等。
首先,从技术与业务场景的匹配度来说。企业一方面在强调“让技术服务于业务”,数据体系建设最简单朴素的目标是“让业务及时用上好数据”;另一方面,企业应用技术的现状又是“技术落后于业务”的,尤其是企业业务变化越来越快,技术的响应却跟不上业务变化的节奏。数据中台“打固定靶”的开发模式显然难以赋能业务灵活创新。在康明斯中国区首席架构师徐志蔚看来,数据编织最大的优势在于,能够推进自服务场景。“就数据而言,业务部门本身是最了解数据的,如果业务部门无法直接获取所需数据进行分析,则可能导致数据处理过程中的误解与偏差。”徐志蔚指出,“通过数据编织,企业可以将数据分析的能力给到业务,无需依赖 ETL 开发,即时获取并充分利用数据价值。”
其次,从技术的组织就绪度来说。基于数据中台的解决方案存在众多的产品供应商和服务实施商,很容易让人误以为数据体系建设等同于数据中台的一次性部署和不定期的数据代码外包开发。而这种想法过于简单了,简化来看,数据开发和管理可以划分为数据集成、数据加工和数据服务三大步骤,在这三个步骤中,企业不能单纯的依靠供应商提供的项目管理服务,要想更好地应用数据中台服务业务,企业需要组建一支自己的数据团队,以便更好地推动企业内部的数据变革,而这点对于大多数企业而言,是一笔不小的开支。
最后,在这个各行业都在追求降本增效的当下,很多企业的CIO都曾向表示,企业在应用数字技术的时候,会将ROI放在比较靠前的位置考虑。而数据中台的建设理念通常强调了数据的“应存尽存”,通过ETL将全域数据进行物理集中存储,并采用面向数据建模的方法构建数据中间层和采用面向业务建模的方法构建数据应用层,层与层之间以及层的内部都有相应的数据搬运和拷贝,存在数据快速膨胀的现象。这意味着数据中台建设成本不仅包括硬件相关的存算基础设施,也包括一系列的数据开发与管理工具,还包括建模、开发、运维与管理的大量人力投入,前期TCO(Total Cost of Ownership,总拥有成本)至少百万元。
随着企业数智化的深入,数据源、数据类型、数据规模、数据需求在快速变化,数据链路和数据工程的复杂度在持续增加,任务运维和数据治理的工作量在指数级增长,数据体系的成本投入随之也水涨船高,成为CIO无法绕开的难题。Aloudata CEO周卫林对此指出,数字化本身的目标是帮助企业降本增效,但是数据中台架构的大规模初始投资和持续投资却让数据体系本身成为了成本中心。
所以,通过数据编织,可以有效地解决企业数字化转型过程中的效率、成本、组织、合规等各个方面的问题。而对于拥有充足资金和人才储备的大型企业而言,建设数据中台当然可以一步到位,而且也可作为企业底层数字基础,但数据编织能够解决数据敏捷交付、跨域合规使用等问题,可以与数据中台形成补充。袁莺表示:“它们并非相互替代的关系,而是可以相互融合、互为补充。”对于投资谨慎和人才储备不足的数字化初阶企业而言,应用数据编织显然能让他们以更低的成本,更快的速度上线业务,同时也可以满足他们业务随时变化、调整的需求。
综合来看,当企业选择数据中台或是数据编织架构的时候,企业要考虑自身是否具备充足的资金、充足的数据人才储备,以及业务变化速率的快慢,再进行选择。刘靓告诉,对于企业而言,有三个场景比较适合数据编织架构。首先,就是不想耗费过多的人力、财力去建设数据中台,但又同时有着数字化转型需求的企业,通常这些企业还拥有敏捷性的诉求。
其次,对于组织架构庞杂的大型企业,在开展多子公司数据湖仓跨域,甚至是跨境联合数据查询的过程中,数据编织能够在确保安全的前提下,提供快速整合多湖仓数据的能力,而就Aloudata观察来看,目前这部分诉求比较大的企业主要集中在金融机构、能源与制造业和汽车行业。
最后,对于部分统一建设了数据中台的企业,能够将数据编织作为数据中台的补充,用于满足业务自助敏捷用数的场景。
三个评估维度、两个关键指标,用好数据编织
“相对于数据中台,在国内,真正将数据编织这一架构理念付诸实践的企业仍属罕见。”刘靓认为,造成这一现象的原因在于众多企业苦于缺乏清晰可参考的实践方法论与价值评估框架。为此,国内Data Fabric架构理念的实践者与引领者Aloudata日前正式发布了《数据编织价值评估指南》白皮书,提出了业界首个数据编织价值实现评估框架。
这本白皮书的发布源自Aloudata多年的实践。早些年,创始团队亲自操刀和参与了蚂蚁集团的数据平台的建设和管理,在洞察到数据中台普遍存在的ROI、难以支持敏捷用数及自服务场景、过度依赖ETL等问题后,提出了“NoETL”的创新理念,并由此自研了数据虚拟化技术,打造了国内首个逻辑数据编织平台Aloudata AIR,积极推进在各行业的落地应用。“与其他企业不同,我们不是因为先有了数据编织的概念,再去落地相关技术和产品,我们是从实践中走来。事后看,我们的‘NoETL’理念与数据编织高度契合,也就自然成为数据编织架构理念的拥立者、实践者和引领者。”Aloudata CEO周卫林如是说。
在白皮书中,Aloudata紧紧围绕“让业务及时用上好数据”这一点,提出了“提升数据交付效率”、“降低数据膨胀系数”、“减少数据管理成本”三个评估维度,并提供了“当天需求满足率”和“当天数据动销率”两个关键指标,以帮助业务进行量化评估。
在提升数据交付效率方面,企业需要观察,通过数据编织架构能否端到端地提升了从数据集成、整合到服务的交付效率,将数据需求的响应周期,从“周”缩短到“天”。
在降低数据膨胀系数方面,企业需要评估,能否从机制设计上系统化地减少数据拷贝,节约存算资源,提升存算的有效性和经济性,“对于企业来说,使用好数据编织架构的话,至少能够节约30%的存算成本。”刘靓指出。
在减少数据管理成本方面,企业需要评估,是否通过数据编织架构,简化了系统技术概念,降低数据平台的应用门槛,并减少了日常运维成本,提升数据管理的自动化水平和增强数据平台的智能化能力,“在这方面,根据Aloudata观察,应用好的企业,至少可以节省70%的数据管理成本。”刘靓说。
与此同时,通过“当天需求满足率”和“当天数据动销率”两个关键指标,企业还能够对数据编织架构的应用效果进行量化评估。
在Aloudata看来,当天需求满足率是站在业务方视角评估和感受数据平台能力和价值的唯一核心指标,也是数据产生业务价值的重要体现之一。“通过观测业务数据化运营需求的当天满足率可以比较好地衡量一家企业的数据交付效率。”刘靓如是说。
而数据动销率则是对存算资源是否合理使用的量化指标—即当天有更新的数据在当天或未来段时间内(比如 30天内)的使用率(有没有下游场景对数据产生访问)。通常一个基于数据中台理念构建的数据平台,30天内的数据动销率不会超过50%——即有大量的存算资源用于数据的更新,但却没有产生使用,而是被浪费了。如果计算数据的动销热度,比如一次数据更新带来三次以上的数据使用,称为热销,那么数据当日三次热销率会更低,通常低于10%,数据当月三次热销率通常低于30%。
刘靓表示,数智化程度越高的企业,比如偏互联网性质的公司,这个比例会越低,因为业务变化快,有大量临时性的、过期的数据更新没有及时获得清理。
通过三个维度,两个指标,企业可以在使用数据编织架构的过程中,更好地掌握自身数字架构使用实现了真正的价值,从而更好地激发数据价值,赋能业务发展。
从应用上看,目前国内也已经有一些企业在数据编织应用方面产生了良好的“化学反应”,以首创证券为例,初始阶段,首创证券在构建数据仓库时,面临了人员短缺与Hadoop技术栈不熟悉的挑战。传统Hadoop数仓体系需要庞大的ETL开发团队和深厚的技术积累,这对于仅有少量数据工程师的首创证券来说,无疑是一大难题。
而数据编织为首创证券提供了解题思路,通过Aloudata AIR逻辑数据编织平台,首创证券成功构建了一个逻辑数仓,将各业务系统的数据无缝连接。在ODS层实现逻辑连接后,DWD层则用于沉淀数仓的历史数据。这种分层策略不仅简化了数仓结构,还实现了数据的按需加速与物化,大大提高了数据处理的灵活性。
首创证券的源头数据库多达一百多个,涉及几万张表。在传统方案下,仅集成这些数据就可能产生成千上万的任务,耗时费力。部署完成后,通过Aloudata AIR,这些表在短短一天内就完成了集成。更真正在明细层沉淀的物理表数量不到100张,大大降低了数据管理的复杂度。报表的查询响应率也显著提升,一秒内响应率达到95%。这得益于DWD层的数据加速与沉淀策略,以及应用层查询的自动路由机制,确保了查询的高效执行。(本文首发于,作者|张申宇,编辑丨盖虹达)