02 | 关键抉择: 到底什么样的企业应该建数据中台?

你好,我是郭忆。

在上一节课中,我和你一起回顾了大数据的发展历史,从历史脉络中,我们看到了数据中台凸显的价值,并得出数据中台是大数据下一站的结论。

既然数据中台受到了前所未有的关注,价值如此之大,是不是所有的企业都适合建设数据中台呢?到底什么样的企业应该建数据中台?带着这样的疑问,我们正式进入今天的课程。

我先跟你分享一下,2018年我们在建数据中台前面临的窘境,通过了解我们建数据中台的背景,你也可以对照着看一下自己所在的企业是否存在这样的问题,从而针对“是否需要构建一个数据中台”这个问题形成自己的看法。

建设中台前,我们面临的挑战

对于绝大多数互联网企业来说,2018年绝对是煎熬的一年,因为面临线上流量枯竭,业绩增长乏力,企业成本高筑, 利润飞速下滑的风险。 原先粗放的企业管理模式和经营模式(比如我们在采购商品的时候,凭借经验去做出采购哪个商品的决策)已经没办法继续支撑企业的高速增长,越来越多的企业开始提数字化转型,强调数据是企业增长的新动力,它应该深入企业经营的各个环节。

数据需求的爆发式增长,促进了数据产品的蓬勃发展,在每个业务过程中,都有大量的数据产品辅助运营完成日常工作。例如,在电商的场景中,用户运营、商品运营、市场运营……每个场景下,都有很多的数据产品,每天有大量的运营基于这些产品完成经营决策。

比如在供应链决策协同系统中,我们有一个智能补货的功能,会根据商品的库存、历史销售数据以及商品的舆情,智能计算商品的最佳采购计划,推送给运营审核,然后完成采购下单。

大量数据产品的出现,在不断提高企业运营效率的同时,也暴露出很多尖锐的问题,在我看来,主要有五点。

1.指标口径不一致。 两个数据产品一个包含税,一个不包含税,它们相同的一个指标名称都是销售额,结果却不一样。运营面对这些指标的时候,不知道指标的业务口径,很难去使用这些数据。

2.数据重复建设,需求响应时间长。随着需求的增长,运营和分析师不断抱怨需求的交付时间拉长,面对快速变化的业务,需求响应时间已经无法满足业务对数据的敏捷研发要求。

3.取数效率低。 面对数十万张表,我们的运营和分析师找数据、准确地理解数据非常困难,想找到一个想要的数据,确认这个数据和自己的需求匹配,他们往往需要花费三天以上的时间,对新人来说,这个时间会更长。

除了查找数据效率低,从系统中取数分析对于非技术出身的分析师和运营来说也是一个难题,这就导致大部分的取数工作还是依赖数据开发来完成。数据开发大部分的时间都被临时取数的需求占据,根本无法专注在数仓模型的构建和集市层数据的建设,最终形成了一个恶性循环,一方面是数据不完善,另一方面是数据开发忙于各种临时取数需求。

4.数据质量差。数据经常因为BUG导致计算结果错误,最终导致错误的商业决策。分享一个我们踩过的坑,在大促期间,某类商品搜索转化率增长,于是我们给这个商品分配了更大的流量,可转化率增长的原因是数据计算错误,所以这部分流量也就浪费了,如果分配给其他的商品的话,可以多赚200W的营收。

5.数据成本线性增长。数据成本随着需求的增长而线性增长,2017年的时候,我们一个业务的大数据资源在4000Core,但是2018就已经到达9000Core水平,如果折算成钱的话,已经多了500多万的机器成本。

相信你能在我“惨痛”的经历中,找到自己的影子,这些事儿的确很头疼,好在后来,我们用数据中台解决了这些问题。

为什么数据中台可以解决这些问题?

要想回答这个问题,你需要了解上述问题背后的原因。

指标口径不一致,可能原因包括三种:业务口径不一致、计算逻辑不一致、数据来源不一致。

如果是业务口径不一致,那就要明确区分两个指标不能使用相同的标识,像上面的例子,含税和不含税的两个指标, 不能同时叫销售额。

业务口径的描述往往是一段话,但是对于很多指标,涉及的计算逻辑非常复杂,仅仅一段话是描述不清楚的,此时,两个相同业务口径的指标,恰巧又分别是由两个数据开发去实现的,这样就有可能造成计算逻辑不一致。比如,有一个指标叫做排关单(排关单:把关单的排除;关单:关闭订单)的当天交易额这个指标,A认为关单的定义是未发货前关闭的订单,B认为关单是当天关闭的订单,大家对业务口径理解不一致,这样实现的计算结果也就会不一致。

最后,还可能是两个指标的数据来源不一样,比如一个来自实时数据,一个是来自离线的数据,即使加工逻辑一样,最终结果也可能不相同。

综合看来,要实现一致,就务必确保对同一个指标,只有一个业务口径,只加工一次,数据来源必须相同。

而数据需求响应慢在于烟囱式的开发模式,导致了大量重复逻辑代码的研发,比如同一份原始数据,两个任务都对原始数据进行清洗。如果只有一个任务清洗,产出一张明细表,另外一个任务直接引用这张表,就可以节省一个研发的清洗逻辑的开发。

所以,要解决数据需求响应慢,就必须解决数据复用的问题,要确保相同数据只加工一次,实现数据的共享。

取数效率低,一方面原因是找不到数据,另一方面原因可能是取不到数据。要解决找不到数据的问题,就必须要构建一个全局的企业数据资产目录,实现数据地图的功能,快速找到数据。而非技术人员并不适合用写SQL的方式来取数据,所以要解决取不到数据的问题,就要为他们提供可视化的查询平台,通过勾选一些参数,才更容易使用。

数据质量差的背后其实是数据问题很难被发现。我们经常是等到使用数据的人反馈投诉,才知道数据有问题。而数据的加工链路一般非常长,在我们的业务中,一个指标上游的所有链路加起来有100多个节点,这是很正常的事情。等到运营投诉再知道数据有问题就太迟了,因为要逐个去排查到底哪个任务有问题,然后再重跑这个任务以及所有下游链路上的每个任务,这样往往需要花费半天到一天的时间,最终导致故障恢复的效率很低,时间很长。

所以,要解决数据质量差,就要及时发现然后快速恢复数据问题。

最后一个是大数据的成本问题,它其实与需求响应慢背后的数据重复建设有关,因为重复开发任务的话,这些任务上线肯定会花费双倍的资源。如果我们可以节省一个任务的资源消耗,满足两个数据需求,就可以控制不必要的资源消耗。所以,成本问题背后也是数据重复建设的问题。

正当我们为这些问题苦恼的时候,数据中台的理念给了我们全新的启迪,那么数据中台到底是怎么一回事儿呢?在我看来,数据中台是企业构建的标准的、安全的、统一的、共享的数据组织,通过数据服务化的方式支撑前端数据应用。

数据中台消除了冗余数据,构建了企业级数据资产,提高了数据的共享能力,这与我们需要的能力不谋而合,所以很快,我们开启了数据中台的建设。

数据中台是如何解决这些问题的?

指标是数据加工的结果,要确保数据需求高质量的交付,首先是要管好指标。

原先指标的管理非常分散,没有全局统一的管理,在数据中台中,必须要有一个团队统一负责指标口径的管控。

其次,要实现指标体系化的管理,提高指标管理的效率。在指标系统中,我们会明确每个指标的业务口径,数据来源和计算逻辑,同时会按照类似数仓主题域的方式进行管理。

最后,要确保所有的数据产品、报表都引用指标系统的口径定义。当运营把鼠标Hover到某个指标上时,就可以浮现出该指标的口径定义。

通过对全局指标的梳理,我们实现了100%的数据产品的指标口径统一,消除了数据产品中,指标口径二义性的问题,同时还提供了方便分析师、运营查询的指标管理系统。

那么数据中台是怎么实现所有数据只加工一次的呢?简单来说,就是对于数仓数据,我们要求相同粒度的度量或者指标只加工一次,构建全局一致的公共维表。要实现上述目标,需要两个工具产品:

  • 一个是数仓设计中心,在模型设计阶段,强制相同聚合粒度的模型,度量不能重复。
  • 另外一个是数据地图,方便数据开发能够快速地理解一张表的准确含义。

这样就解决了数据重复加工导致研发效率瓶颈的问题,现在我们把需求的平均交付时间从一周减少到2~3天,大幅提高了数据产能,得到了分析师和运营的认可。

数据中台通过服务化的方式,提高了数据应用接入和管理的效率。原先数仓提供给应用的访问方式是直接提供表,应用开发自己把数据导出到一个查询引擎上,然后去访问查询引擎。在数据中台中,数仓的数据是通过API接口的方式提供给数据应用,数据应用不用关心底层不同的查询引擎访问方式的差异。

对于非技术人员,数据中台提供了可视化的取数平台,你只需要选取指标、通过获取指标系统中每个指标的可分析维度,然后勾选,添加筛选过滤条件,点击查询,就可以获取数据。

同时,数据中台构建了企业数据地图,你可以很方便地检索有哪些数据,它们在哪些表中,又关联了哪些指标和维度。通过自助取数平台和数据地图,公司的非技术人员开始自助完成取数,相比通过提需求给技术人员的方式,取数效率提高了300%。

数据中台由于数据只能加工一次,强调数据的复用性,这就对数据的质量提出了更高的要求。而我们实现了全链路的数据质量稽核监控,对一个指标的产出上游链路中涉及的每个表,都实现了数据一致性、完整性、正确性和及时性的监控,确保在第一时间发现、恢复、通知数据问题。

原先,当技术人员问我们“今天数据有没有问题?” 的时候,我们很难回答,现在我们可以很自信地回答,数据对不对,哪些数据不对,什么时候能恢复了。我个人认为这个能力对我们最终达成99.8% 数据SLA至关重要。

最后一个是成本问题。我们在构建数据中台的时候,研发了一个数据成本治理系统,从应用维度、表维度、任务的维度、文件的维度进行全面的治理。 从应用的维度,如果一个报表30天内没有访问,这个报表的产出价值就是低的,然后结合这个报表产出的所有上游表以及上游表的产出任务,我们可以计算加工这张表的成本,有了价值和成本,我们就能计算ROI,根据ROI就可以实现将低价值的报表下线的功能。通过综合治理,最终我们在一个业务中节省了超过20%的成本,约900W。

通过数据中台,最终我们成功解决了面临的问题,大幅提高了数据研发的效率、质量,降低了数据的成本。那么现在让我们回到课程开始时的问题,到底什么样的企业适合建数据中台? 是不是所有企业都要构建一个数据中台?

什么样的企业适合建数据中台?

不可否认,数据中台的构建需要非常大的投入:一方面数据中台的建设离不开系统支撑,研发系统需要投入大量的人力,而这些系统是否能够匹配中台建设的需求,还需要持续打磨。另外一方面,面对大量的数据需求,要花费额外的人力去做数据模型的重构,也需要下定决心。

所以数据中台的建设,需要结合企业的现状,根据需要进行选择。我认为企业在选择数据中台的时候,应该考虑这样几个因素。

  • 企业是否有大量的数据应用场景: 数据中台本身并不能直接产生业务价值,数据中台的本质是支撑快速地孵化数据应用。所以当你的企业有较多数据应用的场景时(一般有3个以上就可以考虑),就像我在课程开始时提到电商中有各种各样的数据应用场景,此时你要考虑构建一个数据中台。

  • 经过了快速的信息化建设,企业存在较多的业务数据的孤岛,需要整合各个业务系统的数据,进行关联的分析,此时,你需要构建一个数据中台。比如在我们做电商的初期,仓储、供应链、市场运营都是独立的数据仓库,当时数据分析的时候,往往跨了很多数据系统,为了消除这些数据孤岛,就必须要构建一个数据中台。

  • 当你的团队正在面临效率、质量和成本的苦恼时,面对大量的开发,却不知道如何提高效能,数据经常出问题而束手无策,老板还要求你控制数据的成本,这个时候,数据中台可以帮助你。

  • 当你所在的企业面临经营困难,需要通过数据实现精益运营,提高企业的运营效率的时候,你需要构建一个数据中台,同时结合可视化的BI 数据产品,实现数据从应用到中台的完整构建,在我的接触中,这种类型往往出现在传统企业中。

  • 企业规模也是必须要考虑的一个因素,数据中台因为投入大,收益偏长线,所以更适合业务相对稳定的大公司,并不适合初创型的小公司。

如果你的公司有这样几个特征,不要怀疑,把数据中台提上日程吧。

课堂总结

本节课,我结合自己的经历,带你了解了企业数据在日常使用过程中面临的一些难题,通过分析,我们发现,数据中台恰好可以对症下药,解决这些问题。在这个过程中,我想强调这样几个重点:

  • 效率、质量和成本是决定数据能否支撑好业务的关键,构建数据中台的目标就是要实现高效率、高质量、低成本。
  • 数据只加工一次是建设数据中台的核心,本质上是要实现公共计算逻辑的下沉和复用。
  • 如果你的企业拥有3个以上的数据应用场景,数据产品还在不断研发和更新,你必须要认真考虑建设数据中台。

在最后,我想再次强调一下,建设数据中台不能盲目跟风,因为它不一定适合你,我在生活中见到了很多不符合上述特征,却想要建设数据中台的公司,比如一些初创型的小公司,初期投入了大量人力成本建设数据中台,因为业务变化快,缺少深入数据应用场景,结果却是虎头蛇尾,价值无法落地。所以,你最正确的做法是仔细想想我提出的上述5点要素。

因为这节课信息比较密集,我用一个脑图帮你梳理一下知识体系,便于你理解:

思考时间

我同样给留给你一道思考题,一个企业是不是只能建设一个数据中台?

最后,感谢你的阅读,如果这篇文章让你有所收获,也欢迎你将它分享给更多的朋友。

精选留言

  • Max

    2020-03-30 23:38:39

    如果业务场景分散。
    或许一个中台就不太合适了。
    还是应该适配发展第一。
    作者回复

    说到点子上了。

    我就网易来举个例子,大家都知道,网易的业务涉及的领域非常的多,云音乐属于在线娱乐,有道是教育,严选、考拉(已经脱离网易)是电商,新闻属于传媒,我们有没有必要构建一个属于网易的数据中台?

    在我看来,没有这个必要,因为业务之间相差很大,重叠很少,需要跨业务进行分析的场景很少。毕竟跨业务线的中台构建,需要更大的投入和成本,这样收益和投入不成比例,也没这个必要。

    我非常认可这位同学的观点, 不管是组织,还是数据中台,都是为了更好的支撑业务,如果业务线比较独立,那确实会存在多个面向不同业务线的多个数据中台。

    2020-03-31 20:02:22

  • Ant

    2020-04-25 12:17:52

    关于指标口径的一致性,我有一些疑问,想请教一下郭老师
    1. 当实时数据和离线指标数据不一致的时候,应该以哪个数据为准?
    2. 我们的实时大屏依赖实时数据的计算,但报表会依赖离线数据,如何实现相同数据只加工一次呢?
    作者回复

    你好,你这个问题问的很好,其实涉及到批流一体这个话题上了。

    我先来回到你的第一个问题。实时数据因为聚合是基于一定的窗口计算的,所以数据会与离线批跑的数据结果有差异,一般一天前的,我们使用离线数据,当天的使用实时数据,离线数据修正实时数据。

    第二个问题,离线数据和实时数据,如何做到数据只加工一次。

    这就回到lamda和kappa架构之争上来了。Lamda 是批流分开的一种架构,也就是说,批算一遍,流在算一遍,批算的是T+1的,流算的是当日的。这个问题,最大的在于离线和实时的计算逻辑不一致,很容易出现问题。Kappa的架构是用流统一批,但是其实也存在问题,大数据量回跑和补数据,目前flink根本支撑不了,成本太高了。所以,对于绝大多数的企业,目前还是以lamda架构为准。

    但是,最近我们也在探索这方面的东西,我们首先希望以流为主,但是同时流会导一份数据到HDFS上,方便进行回跑和补数据,在ods,dwd都以Kafka来存储,然后dws以 iceberg来存,因为iceberg支持upsert,不需要merge,所以可以直接提供实时的查询能力。

    当然,目前不管是iceberg,还是同类的hudi,delta,都还不成熟,但是相信这个未来是一个趋势。后面如果我们这块有成熟的经验,我也可以分享给你。

    感谢你的阅读,下次留言区再会~

    2020-04-25 23:16:31

  • 追梦

    2020-08-11 16:16:42

    老师,数据中台和数仓的关系是什么呢?
    文章提到 “要实现数据只加工一次的上目标,需要两个工具产品:一个是数仓设计中心,在模型设计阶段,强制相同聚合粒度的模型,度量不能重复。另外一个是数据地图,方便数据开发能够快速地理解一张表的准确含义。”
    数仓负责Onedata ? 中台负责OneService? 有点晕
    作者回复

    你好,不是这么理解数据中台和数仓的关系的。

    首先必须要明确的,你说的数仓,是指传统数据仓库,还是指基于Hadoop(一种数据湖实现)之上构建的数据仓库。

    数据中台,首先是构建于数据湖(例如Hadoop)之上的,数据和Schema是可以分离的,数据不需要按照指定的Schema存储,而是在读取的时候,动态的映射的。这是数据中台跟传统数据仓库的最主要的区别。

    那数据中台和基于Hadoop之上构建的数据仓库有什么区别呢? 主要在于OneData和OneService。 数据仓库,并没有强制数据模型必须是复用的,在数据仓库的定义中,我们并没有发现数据仓库一定是要模型复用,指标口径统一的。此所谓OneData。另外,数据仓库并没有提数据必须通过服务化的方式提供给外部,此所谓OneService。这是数据中台和后者的本质区别。

    不知道你理解了没有。希望我的回到对你有所帮助~

    2020-09-07 19:25:04

  • 忘矢

    2020-04-02 17:13:40

    请问按照置顶的说法,如果业务场景分散,就分为多个中台,那么如果这些业务场景还是有一定程度的交集(比如用户),那么这些交集数据的采集、管理和使用,是否还是每个中台各管各呢?还是说有个更基础的数据中台专门负责这些基础数据?
    作者回复

    如果存在大量交集,业务中经常需要进行关联的分析,那建议还是考虑构建一个统一的中台。

    在网易,云音乐、严选、传媒、有道因为业务相差很大,所以数据分析绝大多数的场景都在业务线内部,每个业务线构建一个数据中台,可以确保业务线内的数据高效运作。只有涉及到用户画像的部分,可能存在业务线之间的数据局部打通,此时,我们的做法是基于“小黑屋”的联邦学习模式,数据在小黑屋内是出不去的,可以确保数据的安全性,同时可以基于对方的数据加工一些标签,这些标签可以应用于本业务。这样在确保业务之间数据的安全前提下,可以基于其他业务的局部数据,加工一些人群标签属性,从而完善本业务的数据。

    2020-04-04 20:32:55

  • 张炜康

    2020-04-02 00:10:23

    请教,我所在公司偏传统企业,没有像互联网公司有那么多数据(客户量、用户量、用户行为数据都远达不到巨大的规模),有一个稳定的、规模较大的核心业务线和其他几条小的或新的业务线,但已经在一些业务系统间产生了数据孤岛,并且核心业务线之前不太依赖数据做决策 现在想开始以数据驱动增长。这种情况数据系统的建设肯定很有必要,但现在到底是不是时候一步到位去启动数据中台的建设呢?
    作者回复

    我觉得,你可能有个误区,就是认为数据中台可能一下就要建的很大,所以既认为数据中台确实很有必要,但是又担心投入太多。

    其实呢,我认为数据中台不见得一下子要搞得很大,可以先从1-2个数据应用场景入手,从需求出发,然后随着接入的数据应用越来越多,中台越来越完善,我反对在脱离应用场景下,单独去构建中台,这样你的模型实际与业务是脱节的。这样既可以保障你是按照一个中台的模式去构建的,又可以避免一下搞得太大,存在比较大的风险,把落地风险降到最低。

    2020-04-04 20:46:51

  • 惜心(伟祺)

    2020-04-09 08:09:56

    变化与相对稳定 怎么抽象相对稳定的东西
    变化的东西先不管
    “大中台 小前台”
    也是传统数仓和数据湖结合
    中台一定程度就是结构化和非结构化的混合态
    把可以结构化的结构化 同时非结构化的在结构化下管理
    需要有比较深和久点数据应用经验 才能抽象出适合自己的中台
    个人觉得公司没有3-5年数据应用经验可以不考虑中台
    作者回复

    我来谈谈我的看法哈。

    说实话,我不是很认可“公司没有3-5年数据应用经验可以不考虑中台” 这个观点,或者说这个观点不是很准确。

    我觉得判断要不要构建一个数据中台,本质上是有没有数据应用的场景,其实中台刚开始不需要构建的很大,但是你只要秉持中台数据共享和复用的理念,像滚雪球式的建设,随着应用不断壮大,中台覆盖的业务数据也越来越完善,所以我觉得不存在说3-5年这样一个数据应用的经验。

    3-5年对很多公司来说,数据建设已经走了很多弯路了。如果直接按照中台的理念和方法论,秉着数据复用的目标去构建数据体系,可以少走很多弯路。在实践篇中,我也会重点来谈谈,如何实现数据中台的落地,欢迎你继续阅读,期待与你在留言区再次交流~

    2020-04-09 23:42:59

  • 狐狸呐

    2020-04-02 16:00:16

    我们正在决策如何建设数据中台。比较困惑的是在这方面的投入对于决策者来说像是个黑盒子。如何判断基于我们现在的业务,对数据中台的投入应该是个具体什么量级呢?以及大概投入什么量级的资源,可以获得什么样的效果呢?
    作者回复

    数据中台不见得一开始就要铺开一个很大的规模,可以像滚雪球式的,从小变大,先从一两个数据应用场景入手,然后数据覆盖更多的业务线,有更多的应用。

    以我的经验,数据中台的投入分为两部分,一部分是人,一部分是系统以及物理机器。

    机器加系统,我觉得在百万左右可以落地,一般开始也就8台机器的规模。人员的话,我认为有1-2个有经验的,再加上2个数据开发,可以完成1-2个数据应用场景的构建。时间周期上,大概半年左右时间。

    获得的效果,从决策者来说,大部分还是从应用的角度,比如刚开始,我们可能会以报表作为切入点,做一些报表,然后能够有效的解决一些业务的问题,提高业务的运营效率。比如在零售行业中,我们可以做一些门店管理的报表,呈现出一些商品、用户相关的数据。哪些商品比较受到客户的青睐,应该推荐客户购买。一般可以看数据被多少人看,有没有解决业务问题作为落地效果。

    对于已经存在大量的数据应用,想解决研发效能、质量和成本问题的企业,这部分企业大部分都已经构建了自己的Hadoop集群,已经有了一些数据应用场景,甚至还很多,主要是当前遇到了实际问题。此时,需要借助中台解决这些问题,这时因为已经有较多的数据和应用,所以往往需要花费几百万的投入。效果的话,以效率、质量和成本来作为考核目标。比如,有的企业,会拿数据复用作为衡量指标,每复用一次,就认为节省了多少研发效能,多少资源。这些都可以作为衡量效果的一些指标。

    2020-04-04 20:42:17

  • Sandflass

    2020-04-04 04:23:40

    老师,您的中台介绍已经很全面了,但是没有提及到数据安全的问题,想问一下数据中台是否在数据安全方面起不到作用呢?
    作者回复

    数据安全我认为是数据中台构建的基础,没有安全做保证,中台的复用无从谈起,所以我会在第10节内容中讲数据安全保障的五大机制:

    - 数据备份与恢复
    - 回收站设计
    - 精细化权限管理
    - 操作审计
    - 生产和测试集群隔离

    到时候呢,你就可以深入了解数据中台数据是如何实现安全保障的啦!感谢你的阅读,欢迎继续交流~

    2020-04-04 20:15:34

  • Limpidzhao

    2020-04-01 13:17:27

    我是一家金融机构统计条线的员工,我们现在就打算开发数据中台,但是我有一个疑问,我们在构建公共维表的过程后,如何通过公共维表更好的搭建中台指标,同时利用什么方式可以对中台指标进行更好的展示?
    作者回复

    指标管理部分,我会在第五节中详细的介绍,我们会有一个供使用数据的人和数据开发查阅的指标系统,可以满足你指标展示的需求。

    维度部分,我会在第六节模型设计中具体介绍。公共维度的设计,可以帮助我们更好的分析指标,建立指标统一的可分析维度,对于拆分派生指标和原子指标有很大的帮助。

    2020-04-01 22:37:51

  • XiangJiawei

    2020-03-31 21:51:23

    老师,想请教如下问题,谢谢:
    1)API的方式保证数据服务的执行效率?会不会导致所有的业务压力全部都压在数据中台上,导致API的返回速度有时候快、有时候慢,影响前前端的体验。
    2)API的返回数据量是否有限制?如果有大批量的数据需要通过API获取是否合适,例如超过100MB甚至更大,这种场景如何处理?
    3)API自身的管控机制和规范是怎样的?如何做好API的管控呢?从哪里下手比较好?
    ----如下是原文-----
    在数据中台中,数仓的数据是通过 API 接口的方式提供给数据应用,数据应用不用关心底层不同的查询引擎访问方式的差异。-
    作者回复

    关于数据服务的具体细节,我们会在第九节中详细讲解。
    1. 数据服务,我们采用的是云原生的设计,首先API 节点会进行弹性的伸缩。其次会不会导致后端数据库受影响,这个要配合限流的功能。
    2. 数据服务主要还是面向在线查询访问的,至于大的文件,我建议还是用数据传输的方式,往外导数据吧。
    3. 这个管控涉及的点很多,比如权限、流控、全链路打通,具体细节,欢迎关注第九节,我们再好好讲。

    2020-04-01 22:49:39

  • 清草

    2020-05-21 11:20:23

    深度好文,就连留言都是精品
    作者回复

    感谢你的肯定,希望对你的日常工作有所帮助~

    欢迎你在 日常实践中有任何问题和心得,在留言区与我们分享~

    祝好~

    2020-05-25 19:31:27

  • winnie

    2020-04-06 15:16:08

    老师你好。 我想问一下所以可视化取数平台也是属于数据中台的一部分吗?就是如果建立了数据中台,也一定要建立可视化取数平台吗?
    作者回复

    严格来说,取数平台属于数据应用,但是数据中台为了让更多的人使用数据,所以往往会提供取数平台这样的工具,配合上数据中台集市层模型的建设,从而使得更多的人,更深度的使用数据。

    至于是不是一定要建取数平台,我觉得这个也是分阶段的,而这个恰恰属于数据应用的高级阶段。

    在我的划分中,一般的企业,是从数据报表开始的,先会有一些涉及到企业核心KPI的报表。

    然后呢,因为数据报表无法与业务系统联动,无法持续监控形成决策建议,所以会出现面向特定业务场景的数据产品。

    最后,数据产品和数据报表都是固化的,此时会涌现出很多探索式取数的需求,比如某个指标出现波动,现有的报表和数据产品都已经无法解释这个异常,所以需要人工进行分析,而分析又涉及到大量的取数,此时才会有取数的需求。

    所以数据应用的建设,我认为,一个比较常见的路径是BI-> 数据产品->自助取数。

    2020-04-06 22:26:40

  • 天草二十六

    2020-04-06 10:28:40

    数据分析的人对业务不熟悉,牵头的人到底是应该业务方?
    作者回复

    首先,分析师对业务不熟悉,这个就不是一个正确的事情。如果说数据开发,可能不熟悉业务,我还觉得情有可原,但是分析师,不熟悉业务,我觉得不应该,那你怎么去产生商业决策建议呢?

    其次,至于牵头人,你说的数据中台的牵头人? 我认为数据中台的团队必须独立于业务线,否则很难构建一个横跨业务线的数据中台。同时数据中台的团队要避免与业务脱节,可以通过设定共同的业务目标,进行KPI捆绑的方式,支撑业务。整体牵头,还是应该有一个独立于业务线的数据中台部门来牵头,但是需要各个业务线来配合。

    2020-04-06 22:37:13

  • 枕烟客

    2020-04-01 20:12:19

    我的答案会有些模棱两可。首先,我觉得如果一个企业产品跨度很大,数据面向的应用交叠很少,一个中台是很难实现所有应用的。其次,如果说中台可以不止一个,那么整个的数据管理过程中,会不会遇到因为这个原因出现的一些其他问题?请各位指教
    作者回复

    这两个说法其实并不矛盾,第一个是应用交叠很少,自然不需要构建一个大一统的中台。如果交叠少,自然也不存在相关联的分析和查询,所以不会遇到效能、质量和成本的问题。

    其实要不要建一个统一的中台,主要还是取决于业务,到底是相关的业务还是完全不相关的业务。对于相关业务,或者潜在相关的业务,中台可以大幅提高效率,让你的数据建设是有积累的,即所谓是资产而不是成本。对于完全无关的业务,也许建一个中台,反而会拖累你的效率。中台组织的绩效目标是要与服务的业务深度绑定的。

    2020-04-01 22:29:55

  • 2020-04-01 01:38:08

    一个好的中台建设需要大量人力,不同团队共同协作,有这个魄力的老板还挺难得
    作者回复

    数据中台建设必须得到老板的支持,所以中台的建设,一般都是自上而下的多,自下而上的比较少。

    2020-04-01 22:45:22

  • Olivia_饶

    2020-05-08 00:41:46

    老师,您好,学习了好几遍,收获很多,感谢有这么好的实战经验共享,想请教您几个问题:
    1.数据资产的范围和定义是什么?比如我们目前公司的现状是有一个数仓团队,但是由于人数和历史背景的关系,多个团队建设统一租户下不同主题数据,但是非数仓建设的公共主题数据放在集市层了,那么我们在数据地图的时候,开放给用户哪些层级的数据(公共明细汇总层,公共集市层还是所有层级内数据含及时层的个性化数据是否要开放给用户,o d s原则上不开放用户?)
    2.关于数据标准如何落地,比如对于字段的命名这块,我们现在是通过调度和ide 去建表,那么建表的规范就无法保证,表命名/字段,所以我们用了页面建表和词根翻译的功能,但是其实这类功能相对影响开放效率,所以我们如何保障字段/表命名规范,或者说我们要不要管集市层的个性化项目的数据根据规范建表?
    谢谢您的时间.
    作者回复

    你好,首先感谢你对课程内容的认可,我来回到一下你提到的几个问题。

    1. 数据资产的范围和定义,是指数据中台能够开放给外部用户使用的数据,一般ODS 层数据是不开放的,明细数据层也要收好权限,dws、dm和ads是比较常见的开放的数据。这些数据必须是数据中台维护的数据。

    2. 对于表的命名规范,首先要管好的是数据中台的表的命名规范。对于集市层,公共集市层数据,也是要管的。对于业务内部非通用的集市数据,一般不采取强管理模式,通过定期的统计,去督促表命名进行规范。数据中台内部的建表,都是要经过审批的,在模型设计中心,都会记录不规范的表的数量,对数据中台有规范性的指标的衡量,所以数据中台的数据规范,才能落地。

    感谢你的提问~祝好~

    2020-05-13 20:34:16

  • roger

    2020-04-01 19:03:45

    请教一下数据中台和业务中台的异同,老师怎么理解的?
    作者回复

    我觉得数据中台是业务中台的一种,除此之外,还有搜索中台、内容中台、零售中台这些都是特定形式的业务中台。

    中台最本质的目标还是提效、降本。各种类型虽有差异,但是本质都是业务中台,服务于业务。

    2020-04-01 22:33:00

  • Miles

    2020-04-01 13:58:35

    感觉跟传统模式的数仓没太多区别,主要在数据应用层面会更加丰富吧
    作者回复

    数据中台跟传统数据仓库有很大的差别:
    其一,数据中台强调数据只加工一次,数据通过接口的方式实现数据服务化,强调共享和复用。

    其二,数据中台构建于数据湖之上,它具备海量数据和异构数据的处理能力。

    其三,数据中台之上,可以有丰富的数据应用场景,包括数据产品、报表、风控、推荐等等。

    2020-04-01 22:35:03

  • 2020-03-31 18:56:57

    数据中台是在做产品,传统方式是做一个个数据流和报表
    作者回复

    这个观点不太准确,数据中台强调数据、接口的复用,实现数据的共享,从而提高效率、质量,节省成本,可以更好的支撑数据应用。

    至于是产品还是报表, 数据中台之上,既有数据产品,也有BI报表。

    2020-03-31 20:05:16

  • donothing

    2020-05-27 22:24:42

    这个主要取决于公司业务,正常中小型企业业务单一或者主要发展核心业务,各个模块数据均有相关性,一个数据中台就够了,倘若企业多栖发展,并且不同业务之间没有强关联,其实是可以建立对个数据中台,针对不同业务,依据数据做出相应决策,当然也可以通过一个中台做好合理的界限划分,结合资源成本,人力成本考虑,选择适合自己的才是正确的
    作者回复

    说的挺好的~

    2020-06-15 20:40:02