01 | 前因后果:为什么说数据中台是大数据的下一站?

你好,我是郭忆。

“数据中台”无疑是今年大数据圈最火的词,如果你关注数据相关的行业会议,但凡有数据中台相关的主题,人员都会爆满。去年5月,我作为演讲嘉宾参加了由ITPUB主办的中国数据库大会,一个100人的“数据中台”场次,最后涌进来200多人,前排地下、走廊、过道到处都挤满了人,还有很多人因为挤不进来在外面看直播,数据中台的火爆程度可见一斑。

除了支撑集团的大数据建设,我的团队还提供To B的企业服务,因此我也有机会接触到一些正在做数字化转型的传统企业。从2018年末开始,原先市场上各种关于大数据平台的招标突然不见了,取而代之的是数据中台项目,建设数据中台俨然成为传统企业数字化转型的首选,甚至不少大数据领域的专家都认为,数据中台是大数据的下一站。

那么为什么数据中台被认为是大数据的下一站呢?它与你之前遇到的数据仓库、数据湖、大数据平台又有什么区别?

今天这节课,我想带着这个问题,与你深入大数据的发展历史,先从数据仓库的出现讲起,途径数据湖,再到大数据平台,因为这样,你才能理解大数据发展的每个阶段遇到的问题,从而深入理解数据中台在大数据发展中的历史定位。

启蒙时代:数据仓库的出现

商业智能(Business Intelligence)诞生在上个世纪90年代,它是将企业已有的数据转化为知识,帮助企业做出经营分析决策。比如在零售行业的门店管理中,如何使得单个门店的利润最大化,我们就需要分析每个商品的销售数据和库存信息,为每个商品制定合理的销售采购计划,有的商品存在滞销,应该降价促销,有的商品比较畅销,需要根据对未来销售数据的预测,进行提前采购,这些都离不开大量的数据分析。

而数据分析需要聚合多个业务系统的数据,比如需要集成交易系统的数据,需要集成仓储系统的数据等等,同时需要保存历史数据,进行大数据量的范围查询。传统数据库面向单一业务系统,主要实现的是面向事务的增删改查,已经不能满足数据分析的场景,这促使数据仓库概念的出现。

在1991年出版的《Building the Data Warehouse》中,数据仓库之父比尔·恩门(Bill Inmon)首次给出了数据仓库的完整定义,他认为:

数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的,不可修改的数据集合。

为了帮你理解数据仓库的四要素,我举个电商的例子。

在电商场景中,有一个数据库专门存放订单的数据,另外一个数据库存放会员相关的数据。构建数据仓库,首先要把不同业务系统的数据同步到一个统一的数据仓库中,然后按照主题域方式组织数据。

主题域是业务过程的一个高层次的抽象,像商品、交易、用户、流量都能作为一个主题域,你可以把它理解为数据仓库的一个目录。数据仓库中的数据一般是按照时间进行分区存放,一般会保留5年以上,每个时间分区内的数据都是追加写的方式,对于某条记录是不可更新的。

除了这个概念之外,我还要提一下他和金博尔(Kimball) 共同开创的数仓建模的设计方法,这个方法对于后来基于数据湖的现代数据仓库的设计有重要的意义,所以你有必要了解。

恩门提出的建模方法自顶向下(这里的顶是指数据的来源,在传统数据仓库中,就是各个业务数据库),基于业务中各个实体以及实体之间的关系,构建数据仓库。

比如,在一个最简单的买家购买商品的场景中,按照恩门建模的思维模式,首先你要理清这个业务过程中涉及哪些实体。买家、商品是一个实体,买家购买商品是一个关系。所以,模型设计应该有买家表,商品表,和买家商品交易表三个模型。



金博尔建模与恩门正好相反,是一种自底向上的模型设计方法,从数据分析的需求出发,拆分维度和事实。那么用户、商品就是维度,库存、用户账户余额是事实。




这两种方法各有优劣,恩门建模因为是从数据源开始构建,构建成本比较高,适用于应用场景比较固定的业务,比如金融领域,冗余数据少是它的优势。金博尔建模由于是从分析场景出发,适用于变化速度比较快的业务,比如互联网业务。由于现在的业务变化都比较快,所以我更推荐金博尔的建模设计方法。

传统数据仓库,第一次明确了数据分析的应用场景应该用单独的解决方案去实现,不再依赖于业务的数据库。在模型设计上,提出了数据仓库模型设计的方法论,为后来数据分析的大规模应用奠定了基础。但是进入互联网时代后,传统数据仓库逐渐没落,一场由互联网巨头发起的技术革命催生了大数据时代的到来。

技术革命:从Hadoop 到数据湖

进入互联网时代,有两个最重要的变化。

  • 一个是数据规模前所未有,一个成功的互联网产品日活可以过亿,就像你熟知的头条、抖音、快手、网易云音乐,每天产生几千亿的用户行为。传统数据仓库难于扩展,根本无法承载如此规模的海量数据。

  • 另一个是数据类型变得异构化,互联网时代的数据除了来自业务数据库的结构化数据,还有来自App、Web的前端埋点数据,或者业务服务器的后端埋点日志,这些数据一般都是半结构化,甚至无结构的。传统数据仓库对数据模型有严格的要求,在数据导入到数据仓库前,数据模型就必须事先定义好,数据必须按照模型设计存储。

所以,数据规模和数据类型的限制,导致传统数据仓库无法支撑互联网时代的商业智能。

而以谷歌和亚马逊为代表的互联网巨头率先开始了相关探索。从2003年开始,互联网巨头谷歌先后发表了3篇论文:《The Google File System》《MapReduce:Simplified Data Processing on Large Clusters》《Bigtable:A Distributed Storage System for Structed Data》,这三篇论文奠定了现代大数据的技术基础。它们提出了一种新的,面向数据分析的海量异构数据的统一计算、存储的方法。关于这三篇论文,在这里我们不做深入的解读,如果对实现技术感兴趣的话,也可以查看我在文末提供的链接。

但2005年Hadoop出现的时候,大数据技术才开始普及。你可以把Hadoop 认为是前面三篇论文的一个开源实现,我认为Hadoop 相比传统数据仓库主要有两个优势:

  1. 完全分布式,易于扩展,可以使用价格低廉的机器堆出一个计算、存储能力很强的集群,满足海量数据的处理要求;

  2. 弱化数据格式,数据被集成到Hadoop之后,可以不保留任何数据格式,数据模型与数据存储分离,数据在被使用的时候,可以按照不同的模型读取,满足异构数据灵活分析的需求。

随着Hadoop 技术日趋成熟,2010年,Pentaho 创始人兼CTO James Dixon在纽约Hadoop World 大会上提出了数据湖的概念,他提到:

数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。

数据湖概念的提出,我认为是Hadoop从开源技术走向商业化成熟的标志。企业可以基于Hadoop 构建数据湖,将数据作为一种企业核心资产。

数据湖拉开了Hadoop 商用化的大幕,但是一个商用的Hadoop 包含20多种计算引擎, 数据研发涉及流程非常多,技术门槛限制了Hadoop的商用化进程。那么如何让数据的加工像工厂一样,直接在设备流水线上完成呢?

数据工厂时代:大数据平台兴起

对于一个数据开发,在完成一项需求时,常见的一个流程是首先要把数据导入到大数据平台中,然后按照需求进行数据开发。开发完成以后要进行数据验证比对,确认是否符合预期。接下来是把数据发布上线,提交调度。最后是日常的任务运维,确保任务每日能够正常产出数据。

如此繁杂的一个工作流程,如果没有一个高效的平台作为支撑,就跟写代码没有一个好用的IDE, 用文本编辑器写代码一样,别人完成十个需求,你可能连一个需求都完成不了,效率异常低下,根本无法大规模的应用。

提出大数据平台的概念,就是为了提高数据研发的效率,降低数据研发的门槛,让数据能够在一个设备流水线上快速地完成加工。

大数据平台是面向数据研发场景的,覆盖数据研发的完整链路的数据工作台

大数据平台按照使用场景,分为数据集成、数据开发、数据测试……任务运维,大数据平台的使用对象是数据开发。大数据平台的底层是以Hadoop为代表的基础设施,分为计算、资源调度和存储。

Hive、Spark、Flink、Impala 提供了大数据计算引擎:

  • Hive、Spark 主要解决离线数据清洗、加工的场景,目前,Spark用得越来越多,性能要比Hive 高不少;
  • Flink 主要是解决实时计算的场景;
  • Impala 主要是解决交互式查询的场景。

这些计算引擎统一运行在一个称为Yarn的资源调度管理框架内,由Yarn来分配计算资源。目前最新的研究方向中也有基于Kubernetes实现资源调度的,例如在最新的Spark版本(2.4.4)中,Spark已经能够运行在Kubernetes管理的集群上,这样的好处是可以实现在线和离线的资源混合部署,节省机器成本。

数据存储在HDFS、Kudu和HBase 系统内。HDFS 不可更新,主要存全量数据,HBase提供了一个可更新的KV,主要存一些维度表,Kudu 提供了实时更新的能力,一般用在实时数仓的构建场景中。

大数据平台像一条设备流水线,经过大数据平台的加工,原始数据变成了指标,出现在各个报表或者数据产品中。随着数据需求的快速增长,报表、指标、数据模型越来越多,找不到数据,数据不好用,数据需求响应速度慢等问题日益尖锐,成为阻塞数据产生价值的绊脚石。

数据价值时代:数据中台崛起

时间到了2016年前后,互联网高速发展,背后对数据的需求越来越多,数据的应用场景也越来越多,有大量的数据产品进入到了我们运营的日常工作,成为运营工作中不可或缺的一部分。在电商业务中,有供应链系统,供应链系统会根据各个商品的毛利、库存、销售数据以及商品的舆情,产生商品的补货决策,然后推送给采购系统。

大规模数据的应用,也逐渐暴露出现一些问题。

业务发展前期,为了快速实现业务的需求,烟囱式的开发导致企业不同业务线,甚至相同业务线的不同应用之间,数据都是割裂的。两个数据应用的相同指标,展示的结果不一致,导致运营对数据的信任度下降。如果你是运营,当你想看一下商品的销售额,发现两个报表上,都叫销售额的指标出现了两个值,你的感受如何? 你第一反应肯定是数据算错了,你不敢继续使用这个数据了。

数据割裂的另外一个问题,就是大量的重复计算、开发,导致的研发效率的浪费,计算、存储资源的浪费,大数据的应用成本越来越高。

  • 如果你是运营,当你想要一个数据的时候,开发告诉你至少需要一周,你肯定想是不是太慢了,能不能再快一点儿?

  • 如果你是数据开发,当面对大量的需求的时候,你肯定是在抱怨,需求太多,人太少,活干不完。

  • 如果你是一个企业的老板,当你看到每个月的账单成指数级增长的时候,你肯定觉得这也太贵了,能不能再省一点,要不吃不消了。

这些问题的根源在于,数据无法共享。2016年,阿里巴巴率先提出了“数据中台”的口号。数据中台的核心,是避免数据的重复计算,通过数据服务化,提高数据的共享能力,赋能数据应用。之前,数据是要啥没啥,中间数据难于共享,无法积累。现在建设数据中台之后,要啥有啥,数据应用的研发速度不再受限于数据开发的速度,一夜之间,我们就可以根据场景,孵化出很多数据应用,这些应用让数据产生价值。

课堂总结

现在,回到我们本节课的题目:为什么说数据中台是大数据的下一站? 在我看来,有这样几个原因:

  1. 数据中台构建于数据湖之上,具备数据湖异构数据统一计算、存储的能力,同时让数据湖中杂乱的数据通过规范化的方式管理起来。

  2. 数据中台需要依赖大数据平台,大数据平台完成了数据研发的全流程覆盖,数据中台增加了数据治理和数据服务化的内容。

  3. 数据中台借鉴了传统数据仓库面向主题域的数据组织模式,基于维度建模的理论,构建统一的数据公共层。

总的来说,数据中台吸收了传统数据仓库、数据湖、大数据平台的优势,同时又解决了数据共享的难题,通过数据应用,实现数据价值的落地。

在文章的最后,为了帮你把数据中台诞生的大事件串联起来,我做了一张时间图,在这个时间线里,你可以很清晰地看到数据中台诞生的前期、中期,和后期的大事件,这样可以帮你更清晰的掌握数据中台背景。

思考时间

在这节课快要结束时,我给你留一个发散性的思考题:如果说数据中台是大数据的下一站,那数据中台的下一站是什么?这个话题很有趣,欢迎你大开“脑洞”,在留言区与我分享。

最后,感谢你的阅读,如果这篇文章让你有所收获,也欢迎你将它分享给更多的朋友。

论文链接:

精选留言

  • 西蒙

    2020-03-31 07:48:32

    数据中台的下一站是AI中台。
    作者回复

    机器学习是数据中台之上一个重要的应用领域。不是有句话是这么说的,数据和特征决定了机器学习的上限,算法和模型只是在无限的逼近这个上限。

    我来谈谈数据中台的下一站到底是什么吧

    目前数据中台的主要应用领域还是数据智能领域,所以我们就先不延申到机器学习,深度学习,安全、推荐等领域。

    1. 实时数据中台,实现批流一体。
    2. 云上数据中台,全面拥抱K8S,实现在线、离线混合部署,进一步提高资源利用率。
    3. 智能元数据管理+增强分析,降低数据分析的门槛,进一步释放数据智能
    4. 自动化代码构建,通过拖拉拽,自动化生成ETL代码的构建,进一步释放数据研发的效能,甚至让我们的非技术人员都可以完成简单的数据加工。
    5. 数据产品的时代,面向各种行业的数据产品全面涌现,并且和中台系统联动,比如基于指标的可分析维度,自动进行指标的业务诊断等等。

    我会在我们专栏结束的最后一篇,为大家在详细的展开这些,这里先抛砖引玉,提供给大家思考。

    2020-03-31 19:50:34

  • 李跃爱学习

    2020-03-30 18:51:35

    老师讲得非常透彻,值回票价了

    1. 传统数据仓库,第一次明确了数据分析的应用场景应该用单独的解决方案去实现,不再依赖于业务的数据库。在模型设计上,提出了数据仓库模型设计的方法论,为后来数据分析的大规模应用奠定了基础。
    2. 互联网产品的新特性:数据多、数据类型异构。
    3. Google论文指导下的开源项目Hadoop采用分布式、弱化数据格式,来应当面临的问题。
    4. 数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。
    5. 大数据平台是面向数据研发场景的,覆盖数据研发的完整链路的数据工作台
    6. 数据中台的核心,是避免数据的重复计算,通过数据服务化,提高数据的共享能力,赋能数据应用
    作者回复

    谢谢,前三篇主要还是从理论上来帮大家对齐概念,精华在实现篇中,有走过的坑,和避坑秘诀,继续看呦~ 欢迎多讨论。

    2020-03-31 19:58:16

  • Stefan

    2020-03-31 10:26:31

    老师,金博尔的建模设计方法的例子里面没有提到商品交易的信息,只有用户余额和库存事实表,这是为什么呢?
    作者回复

    在kimball建模中,只有事实和维度, 交易过程中涉及账户余额和库存,这都属于事实,而维度就是商品。因为从分析的角度,我们只关心事实在不同维度下的结果。而在商品交易中,我们需要分析的交易金额和账户余额,这都呈现在用户账户余额事实表中,只要在这个表中再关联商品的维度,就可以按照商品来分析,一个商品的交易金额。

    比如,我们的余额事实表中,再增加一列代表商品的ID,每一个交易,都占用一行,代表交易完成后,用户余额和交易金额的数据。这样你就能实现从商品维度来分析交易金额的需求了。

    2020-03-31 19:37:28

  • 闻人正卿

    2020-04-01 22:47:55

    郭老师您好,看了您的三篇文章受益匪浅,迫不及待地想看后面的文章。

    我认为数据中台目前能看到的未来趋势有3点:流批统一、可视化建模与SQL建模、上云。
    1)可视化建模与SQL建模,不管是在建设数据中台或者数据平台,这种做法都是一种抽象、流程化的体现,能大大降低数据开发的成本而且清晰。不过这其中的复杂度确实挺高,自己深有体会。
    2)流批一体。降低大数据架构的整体运维成本
    3)上云。节约成本,提高资源利用率

    在这里有几个问题想请教您:
    1.当数据中台发展到一定的程度时,数据中台或者数据平台会不会成为云上的基础服务?对于中小型企业而言,建设一套这样的平台成本太大,但是通过云服务提供平台基础设施与计算能力,企业就能把资源集中于对企业内部数据价值的挖掘上面?
    2.如果上面这个问题说的是对的,那么到时候企业对于数据工程师的能力要求会侧重于哪里?是数据分析与数据挖掘的能力吗?还是说数据平台的建设与维护的能力也是很必要的一个技能?
    3.我认为特征工程、ai都是数据中心比较上层的应用,通过特征工程与ai计算出来的模型,反馈作用于下层的ETL数据处理形成闭环,这样的做法是可行的吗?
    作者回复

    关于几个问题,谈谈我的看法:
    1. 云上数据中台,我认为这一定是个趋势,所以我在数据中台下一站中,特意提到了云上数据中台的建设,目前数据中台是基于Hadoop体系的数据湖构建的,Hadoop是基于Yarn实现资源的调度,这与在线业务系统基于Kubernates实现的云原生是两套,我认为,后续在线和离线会统一,kubernates会成为事实的统一云,然后大数据基于kubernates实现资源调度,事实上,Spark新版本已经实现了。

    但是话又要说回来,到底是公有云还是私有云,我倒是持不同的意见。因为数据中台中的数据,往往很多涉及企业的核心机密,比如一些毛利、营业额、供应商对于企业来说,都是核心资产,企业愿不愿意,敢不敢,把数据放在公有云上,这个在国内还不好说。我见到的很多情况,数据都是要求私有化部署的。


    2. 未来,不管是私有化部署的云,还是公有云,我认为企业都不会关注在数据平台的建设和维护能力上,因为这部分容易被标准化,而且可能后续价格会很低廉,完全没必要企业自己去搞。我觉得后续企业,还是会更强调数据的应用能力,数据如何深入业务,解决业务的问题。

    3. 首先机器学习是数据中台的一个上层应用场景,至于你提到的通过模型反馈于下层的ETL数据处理,这个究竟是怎么方式的反馈?

    如果是从模型设计的角度,肯定是可以的,因为机器学习相当于需求方,数据模型的设计肯定要以满足需求方为目标的。

    但是你说如何基于上层模型,自动构建下层的ETL任务,这个目前还不成熟,比较可行的方式是通过可视化的方式,降低开发的工作量。

    2020-04-04 20:56:52

  • Geek_97e448

    2020-04-28 07:00:01

    请教老师,是否能再解释一下:弱化数据格式,数据被集成到 Hadoop 之后,可以不保留任何数据格式,数据模型与数据存储分离,数据在被使用的时候,可以按照不同的模型读取,满足异构数据灵活分析的需求。
    作者回复

    你好, 我们就拿Hive来举例吧。Hive 可以支持location到一个目录。也就是说,数据可以先存储在HDFS的一个目录下,然后再建立Hive表。这样其实Schema和底层的数据实际是分离的。然后我们在用Hive读这个数据的时候,其实是根据hive中定义的表结构去读的,如果有一部分的数据字段hive中没有定义,那其实是读不出来的。

    通过Hive的例子,你明白了嘛?可以具体再用hive 实践一下。

    感谢你的阅读~

    2020-04-29 18:32:03

  • leslie

    2020-03-31 08:10:50

    还是追溯本源吧:OLAP其实是在OLTP之后出现的,Big Data的概念又是再次之后,中台体现分析时还有共享,hadoop的资源损耗国内DB界一直饱有争议。举个例子:不同类型数据系统之间其实都是明显的有相互学习和继承的影子。
    脑洞不用打开:中台体现的数据的集中、大数据体现的分散且快;那么下一步将是再次的分散。这就如同人的行走:不可能全是之路,曾经看到过一本资料中提出岛与海的概念-它的上一页就是Data laker。
    中台的方式方法正在摸索和打造:不过和老师的DataSystem在中间件存储的选择上会不同;这就仿佛SRE和DevOps都是效率,可是何种是正解;每个企业应当都有自己的答案。为了中台而中台就失去了其原本的意义。
    谢谢分享。
    作者回复

    “为了中台而中台就失去了其原本的意义”

    这句话说的好,数据中台要从解决问题的角度入手,不能解决问题,其实建中台意义不大。

    2020-03-31 20:37:02

  • 吴建中

    2020-04-01 21:35:19

    数据中台下一站,取决于数据中台本身存在什么瓶颈,缺陷,制约了快速响应需求。非常赞同老师的总结:流批统一,云上大数据平台,可视化开发,可视化的AI平台,但是感觉没有质的变化,只是在术上的变化,不像大数据技术出现对数据分析的冲击大。
    作者回复

    不管是实时数据中台还是自动化ETL,都可以说是数据中台的进一步发展。

    但是说到质的变化,我想增强分析和智能元数据管理或许是一个,只是目前的时机还不够成熟。试想一下,如果以后,可以实现智能的分析,你问它,为什么销售额下降了,它可以直接告诉你原因,这个是不是足够牛逼?

    2020-04-01 22:26:36

  • 邢爱明

    2020-03-30 23:33:25

    请教老师一个问题,传统企业是数据容量和类型是比较固定的,以前也有了数据仓库的应用,在什么场景下需要演建设数据中台?
    如果要建,是否必须基于hadoop类的大数据平台?
    作者回复

    数据中台一定是构建在数据湖之上的,这是与传统数据仓库,基于Oracle去构建,有本质的区别的。

    原先数据仓库只能支持一些简单的报表,对数据的加工和处理能力都非常的有限,根本就没有办法支撑大规模的数据应用场景。如果你想实现数字化转型,真正让数据能够走入业务,让我们的业务人员每天看数据工作,那你就要构建数据中台了。

    比如我们有一个零售的客户,他们构建了数据中台,然后在上面做了门店管家,数据应用,现在他们全国2W多家门店,每天都有大量的店员在看,有哪些商品卖的好,哪些卖的不好,哪些商品库存比较大,客户比较偏好买哪些商品,然后就会有针对性的推荐商品,或者调整商品的摆位。大幅度提高了门店的营业收入,这就是一个典型的数据中台的应用。

    2020-03-31 20:23:07

  • 西西弗与卡夫卡

    2020-03-30 19:11:40

    数据中台试图解决数据共享的问题,特别企业内部。再下一步,脑洞一下,我觉得数据要成为能在全社会共享的资源,像水和电那样,无处不在,按需索取。成为一种推动社会发展的信息能源。不妨叫数据能源?
    作者回复

    想法太超前,数据是企业的核心资产,微信可能共享数据给其他企业嘛?

    2020-03-31 20:30:10

  • 王芳

    2020-04-17 22:26:50

    数据中台的下一站是数据应用平价、爆发式的增长。数据中台仿佛是进化版的BI,传统BI采用传统的数仓设计方法,现在中台的数仓设计更加强调快速响应业务变化,数据研发更快速实现,更强调带来业务价值。
    关于数据湖,有个疑问:数据湖与ods层数据具体区别啥啥?
    作者回复

    数据中台的下一站,我认为确实是数据产品的全面爆发。

    至于“数据湖和ODS层数据具体区别?”这个问题,

    数据湖与ODS层数据并没有什么关系,数据湖中,不仅有ODS数据,还有DWD,DWS,DM,ADS数据。数据湖是指数据不管存储格式,都统一存储在一起,然后根据数据格式,读取数据,例如Hadoop你可以看成是一个数据湖的实现。

    至于ODS,它是数据分层的原始数据层,他和其他层数据一样,可以存储在HDFS构建的数据湖中。

    感谢你的阅读,期待与你在留言区再次相遇~

    2020-04-19 22:00:41

  • 子非

    2020-04-11 16:28:42

    数据中台是数据平台的升级版,在数据中台概念提出来以前,很多大型企业建设了,多个大数据平台,数据和资源无法共享,另外就是有些项目陷入了技术的升级迭代、造轮子的怪圈,而不是以支持业务为核心。
    作者回复

    我觉得你总结的很到位,点赞👍

    中台思想的核心在于共享、连接和服务,这是中台思想的根,你可以套用在几乎所有的中台之上。

    感谢你的阅读,期待你在留言区与我再次互动~

    2020-04-12 22:15:07

  • Nan Jiang

    2020-04-02 23:04:10

    未来数据中台的发展方向的一个是批流一体,典型代表是Apache Beam,以一个统一的编程模型运行在Spark、Flink等多个引擎之上。另一个方向是多维度数据管理,典型代表是Apache Kylin,构建星型或雪花数据模型以支持多维度查询操作。Beam关注如何高效把多个数据源数据归一,Kylin关注如何为归一后的数据建模。两者在数据处理流程上是前后关系,不知道我理解的是否正确。
    作者回复

    批流一体构建实时数据中台这个方向我绝对认同。至于Kylin,因为需要预计算,我认为随着多维分析引擎的性能越来越强,有可能会被取代。

    2020-04-04 20:24:07

  • 枕烟客

    2020-04-02 22:22:31

    可能想法稍微有点悲观,假设:OLTP足够强大,计算资源也足够,那么未来的实时分析能够完全实现,是否数据中台这个概念会消失?取之以一种新的概念,就像数仓融进数据中台那样
    作者回复

    我不太认同,HTAP的概念讲了这么久,但是HTAP始终对于大数据量的分析,还是不行的。至于最早提出HTAP的TIDB也实现了列存的副本,用于OLAP的查询。

    2020-04-04 20:26:33

  • 狼迹

    2020-03-30 21:02:29

    十年前学数据仓库,十年后折腾数据中台
    作者回复

    是不是觉得物是人非,又有种似曾相识?

    2020-03-31 19:53:54

  • horsezp

    2020-11-07 23:41:49

    数据中台为什么比数据仓库能够避免重复计算呢 数据中台中,也是需要按照主题划分计算的 ,数仓也能够做到共享,难度只是因为中台包装了服务话这一层吗
  • 没什么大不了

    2020-05-15 09:10:44

    文中提到了传统数仓仓库与数据中台的区别,那基于hive建起来的数据仓库跟数据中台的区分是啥呢?
    作者回复

    你好, 基于hive 建起来的数据仓库,我们成为现代数据仓库,它区别于数据中台,主要在于数据中台凸显OneData和OneService,核心在于One, 即数据的共享和复用。

    用hive搭建的数据仓库,即使是烟囱是的开发模式,每个数据应用都是从原始数据开始深度加工,然后产出数据,它也可以称之为数据仓库,但是显然这种,不能称为数据中台。

    所以在衡量数据中台的模型设计时,我引入了模型复用系数,即一个模型的下游有多少个模型,模型的复用系数越高,代表数仓设计的越合理,数据中台的建设越成功。

    我们之前在一家传统物流行业公司,也尝试,用模型复用来衡量效能、成本的改进。比如每复用一张表,那这个表的相关开发成本,消耗的资源成本, 就可以被复用一次,以此作为数据中台建设的成果之一。我觉得这个指标也能反映出数据中台在数据复用和共享方面带来的提升。

    感谢你的提问~多说了两句,希望对你有所帮助~

    2020-05-25 20:00:20

  • 2020-04-03 11:39:17

    感觉应该是运算中台,阿里之前提到过以计算代替存储这一概念。我在想,随着数据重复化的减少,数据服务的增加,往往不再需要“大”数据来满足业务的需求,数据业务精简化,小型化,碎片化就跟微服务一样,定制的计算模块能够更加快速的应对复杂业务的需要。
    作者回复

    讲的有道理~

    2020-04-04 20:22:14

  • demo123567

    2020-03-30 19:18:38

    数据中台的下一站应该是对数据中台的可视化操作技术。产品经理直接拖拉数据中台中的组件即可以构造出用户满意的产品。这里面包涵的技术还是比较难的。
    作者回复

    虽然你的描述有点超前,但是方向是对的,我称之为自动化代码构建的能力,就是对于一些分析师、运营,我们也可以具备一些数据加工的能力。

    2020-03-31 20:29:19

  • 幸运草

    2020-03-30 18:36:41

    我认为数据中台的下一站是加入深度学习的AI智能推荐和预测。
    作者回复

    机器学习、深度学习,可以作为数据中台的一个应用领域,一般也是先有数据中台,才有机器学习,你这个回答,我认为也没毛病。

    但是就数据这个领域而言,我给出的答案已经在置顶贴中,欢迎讨论~

    2020-03-31 19:56:27

  • Geek_941436

    2021-06-29 17:29:14

    老师,我们想自研实现一个数据集成平台,包括用户行为日志的采集,以及业务数据的同步等等功能。目前公司对于日志采集主要用flume,filebeat,logstash,kafka等组件,业务数据的同步主要是用canal,datax等工具,虽然能够实现数据的接入,但是接入效率不是很高,而且每条链路难以管控。我们该如何在不替换这些基础套件的情况下,通过与数据集成平台的结合,有序地管理起数据集成这块的业务。