结束语 | 数据中台从哪里来,要到哪里去?

你好,我是郭忆。

一晃一个多月过去了,咱们也要说再见了,虽然课程更新得比较顺利,但这个课从敲定、到打磨、再到上线,中间还是蛮坎坷的。虽然网易数据中台的建设有了一些规模和一些阶段性的成果,但成果需要巩固和扩大,在这个过程中,还要解决出现的一些新的问题。而我自己也在带团队,所以忙得脚打后脑勺。

后来,开始准备咱们的课之后,我都是晚上9点多到家,看一眼孩子就开始写稿,写到凌晨是常有的事儿。中间有一段时间,孩子总闹脾气说我不陪她,那个时候,我心里很酸,真的想放弃算了,但是现在回想起来,很庆幸自己坚持下来了。

因为这门课对我来说,意义真的很大,一方面让我在晚上安静的时候,认真总结和思考了自己在数据中台建设中的工作,沉淀这些工作背后的方法论和知识体系,让我对数据中台的理解上升到一个新的台阶,另一方面,我把这些沉淀的知识分享给了你们,还收获了很多的认可和鼓励,也得到了新的启发,这对我后续的工作有很大的帮助。

除此之外,在课程的留言区,我也收获了很多的感动。记得有一位同学(@Geek_albert)在留言区说,自己在睡觉前刷视频,无意间刷到了我在开课时,直播的视频,一口气看完,睡意全无。因为我说的这些痛点全都命中了他目前的工作,他也非常认可我关于这些问题的分析,并迅速加入到学习的队伍中来,获得了很多的收获和成长。我记得自己看到这个留言的时候,真的真的很开心,也很感动,还发了朋友圈。

类似的留言还有很多,我非常开心能帮你解决当前遇到的问题。这也让我看到,数据中台要解决的问题,其实是一个普遍存在的问题,也让我更加坚信,数据中台并不是一阵风,而是企业数据建设发展到一定阶段,必然的选择!

在这里,我要向所有坚持学习的同学说一声感谢,在你们身上,我看到了数据中台在企业落地过程中遇到的各种各样的问题,尤其是传统行业的企业。这让我有了一些新的想法,特别要感谢@aof @吴科 ,我看到每次内容一更新,他们总是第一时间在留言区和我交流目前遇到的问题和思考。

就要说再见了,之前我一直在想,在课程结束的时候跟你们说点儿啥,后来我发现,有很多同学都在提业务和数据中台的关系,所以今天,我就想跟你聊聊,“数据中台从哪里来,到哪里去”,希望能对业务和数据中台的关系有一个深入的探讨。

数据中台从哪里来?

还记得在03讲数据中台建设的三板斧中,关于组织关系,我曾经说过,数据中台的团队必须独立于业务部门,同时又不能脱离业务。

独立于业务,是因为数据中台要实现多个业务之间数据的共享,如果在业务部门内部,单个业务部门没有动力去做这个事情。

那为什么不能脱离业务呢? 这就与今天的话题密切相关了。

因为数据中台必须要解决业务的问题,我记得之前在和严选数据部门负责人交流时,他有一句话让我印象深刻,他说:“数据中台各项指标建设得再好,都比不上业务部门老大在管委会上,说一句数据有用,什么数据帮他们解决了什么问题。”我觉得,这其实反应了一个根本问题,那就是业务部门的口碑,是数据部门的生命线,如果没办法获得业务的认可,数据做得再多,也是无用功。

那么要解决业务的问题,得先搞清楚业务存在哪些问题。我把这些问题归结为两类:

  • 第一类是数据用的好不好的问题;
  • 第二类是怎么让数据帮助业务解决更多的问题。

据我所知,很多企业已经拥有了大数据研发的基础,也有了不少数据应用的场景,但是数据到底用的好不好,这是他们面临的最大的问题。

从业务的视角看,需求响应速度慢、取数效率低、指标口径不一致、数据经常无法按时产出,违反常识,甚至是高昂的大数据成本,种种原因让很多想用数据,但是对成本比较敏感的业务望而却步。这些问题最终导致数据在业务部门用的并不好。

我清楚记得,在数据中台构建前,一个业务部门的负责人向我反馈说:“别看现在有3000多张报表,其实能用的不超过10张,因为指标口径都不一致,根本无法用,不知道相信谁。“这个时候,数据中台要解决的核心问题就是效率、质量和成本的问题。只有解决好这些问题,才能让数据用的好,业务部门用的爽,真正实现让更多的人使用数据的目的。

第二类问题,是如何让数据帮业务解决更多的问题。对一些企业来说,尤其是传统企业,如果连数据应用场景都还没有,你去跟他谈效率、质量和成本,他们根本就不会关心,因为他们还没有到达这个阶段。

所以,对他们来说,数据到底能解决什么业务问题才是最重要的,因为他们还没尝到数据的甜头。比如,某项业务指标出现下降,你能基于数据,帮他找到下降的原因,并解决,那业务就会很认可数据的价值。

我建议你基于1~2数据应用场景作为切入,比如对于零售行业,我就先选择滞销、缺货商品监控作为起始场景,构建数据中台。然后随着应用场景的增多,数据中台的数据越来越丰富和完善。这种滚雪球的建设方式对于企业来说风险最小,前期不需要大量的投入,在建设过程中可以看到阶段性成果,是比较容易落地的一条数据中台建设途径。

数据中台到哪里去?

当然,数据中台的价值最终是要回到业务价值上来的。对数据部门的负责人来说,最尴尬的地方,就是数据中台并不能直接产生业务价值,他们需要前台(也就是数据应用)来接触业务,所以数据中台的价值,最终还是要通过数据应用来体现。

对应于前面两类业务问题,我认为数据中台的价值,最终也是体现在数据用的好不好和数据解决了什么业务问题上。

数据用的好不好,主要看这样几点:

  • 数据需求的交付时间到底有没有缩短;
  • 还存不存在指标业务口径不一致的问题;
  • 数据质量是否有显著的提升;数据成本是否增长变慢了。

而最终应用到业务身上的,就是数据使用的成本到底有没有降低,只有真正降低了,才能让更多的人用。

第二个就是数据解决了什么业务问题,这个主要还是要通过一些业务场景来体现,比如:

  • 帮助零售行业解决了库存周转慢的问题;
  • 帮助物流行业提前发现了快递延迟的风险;
  • ……

而这些都需要结合具体的案例说明。只要有这些活生生的案例,再加上业务部门老大的认可,那我相信,你的工作成果一定可以被老板认可。

别看我絮絮叨叨讲了这么多,其实我主要是想让你明白一个基本的道理:数据中台和业务的关系,就是鱼和水的关系,谁也离不开谁,不能把它们完全分开来看。业务想要获得更大的增长,就必须依赖数据中台,数据中台想要存活下去,就必须依赖业务的口碑和认可。这也是我这十多年来,数据建设过程中最重要的一条经验了。

好了,咱们的课程到此就告一段落了。但课程的结束,并不意味着我们交流结束,我会时刻关注留言,与你继续互动,咱们就把留言区当作沟通的桥梁吧,记得多提问,说实话,其实我已经养成了每天睡觉前,看留言的习惯了!

在文章的结尾,我为你准备了一份调查问卷,题目不多,希望你能抽出两三分钟填写一下。我非常希望听听你对这个课程的意见和建议,期待你的反馈!

最后的最后,我想用一句话回答一下我们今天的问题,那就是“数据中台一定要从业务问题中来,到业务价值中去!” 这也是我建设数据中台的初衷。我希望你能够时刻保持这个初衷,这样才不会在建设数据中台中迷失了方向。

精选留言

  • crossbell

    2020-05-11 09:42:16

    赞赞赞,唯一一个刷了4-5遍 专栏
    作者回复

    感谢你的认可,希望对你有所帮助!

    2020-05-11 22:54:59

  • Weehua

    2020-05-27 14:37:47

    这门课真的太棒了,让我对2年带团队做数据的工作经验教训有了新的认识和感受。我自己都听了N边,也推荐给了下面小伙伴,而且还专门组织一起学习,非常棒!
    作者回复

    非常感谢你的认可,真的有点小感动了,希望对你的工作和团队有所帮助,有时间可以来杭州喝茶~祝好~

    2020-06-15 20:07:15

  • 北野豪横

    2020-05-22 20:24:45

    老师整套课程。,可以说在我的项目建设中帮了最大的忙,目前已经开始跟数据产品经理和领导层交流我的想法,限于商业没办法说太多,但是老师的这整套课可以说给了我一个大海中的灯塔,让我知道应该做什么,怎么做,多谢老师 ,多谢
    作者回复

    你好,感谢你的认可,也非常高兴,自己的一些经验可以帮助到你,让你有所收获。

    数据中台是企业数据应用发展到一定阶段必然的选择,在数据中台建设中,建议采用渐进式的建设方法,结合数据应用场景,以1~2个场景作为出发点,关键是建立规范化的数据建设流程,让数据能够真正在业务场景中用起来。

    我把一般企业数据建设和应用划分为4个阶段,第一个阶段,是BI 报表阶段,这个时候数据以可视化展现为主要目标。第二个阶段,是大数据平台阶段,主要是面临各种异构数据源系统,需要对数据进行清洗加工,ETL。第三个阶段,企业数据应用场景深化,需要结合具体业务场景,研发一些具备从数据展现,持续监控,发现问题,诊断问题,给出决策建议,到一键执行的完整闭环的数据产品,构建产品矩阵,此时就会涉及到数据中台的建设,强调数据和接口的共享和复用。最后数据应用会向实时化和智能化迈进,实时数据中台和AI中台的建设由此开展。

    不过最近,我在思考,可能在第一个阶段和第二个阶段之间,还存在一个轻量化数仓的阶段,本身企业的数据量还不需要引入Hadoop这么重的分布式架构,需要轻量化的ETL解决方案,例如kettle,所以可能有1.5阶段轻量化数仓。

    看到你的留言,一激动,多说了两句,把最近的一些想法也简单聊了两句,欢迎你有任何新的想法和经验,也可以在留言区与我们分享~

    再会~祝好~

    2020-05-24 20:30:50

  • leslie

    2020-05-11 00:37:41

    记得最近和同行沟通中有句很经典的话:中台其实就是在还之前的技术债。
    我们最初在设计系统时都是点,可是点多了就要串联,数据不产生关联就没有价值;一大堆数据放在那里又需要各种维护成本甚至我们还不知道是否将来会用,当量变到某个值是就要去重精简。
    中台其实有时就像我们自己学习到最后的学习笔记,这本笔记看似记录在某本书,可是真正关联的就那些,某些书籍之间本来就有交叉的其实就已经被我处理了。我觉得这个例子可能比较合适来解释中台。
    谢谢老师的分享,期待将来有机会交流;愿未来一切更好。
    作者回复

    领悟很深刻!赞!

    2020-05-12 22:10:58

  • YuChEn-2020

    2020-06-03 14:40:27

    郭老师能说说业务使用数据中台的流程及评测、评定标准及方式吗?
    作者回复

    你好~

    很多朋友都会说,我怎么知道我现在建设的是一个中台,还是一个基于Hadoop之上构建的数据仓库呢?

    这还要从中台的内涵来讲,中台的核心,包括两部分,其一是OneData,其二是OneService。检验第一个,你是不是OneData,我们就要看,你的数据模型复用度如何? 是否存在跨层引用,数据是否符合规范? 详细的这部分内容可以参考我在模型设计章节提出的如何度量数据中台的模型设计。其二,就是OneService,核心是数据服务化,就是你的数据,是不是通过API服务的方式实现对外的解耦,能不能实现接口的复用。

    我觉得这是评估你建设的是不是一个真的数据中台的两个比较基本的判断方法~

    2020-06-15 20:01:25

  • Jie

    2020-05-11 00:17:09

    再次谢谢老师,跟着学习受益匪浅。要实际使用到工作中去还有很长很长的路要走。专栏的内容现阶段对我来说还是杀鸡用的牛刀,正像结束语里说的,从业务中找切入点才是当务之急。
    作者回复

    对的,抓住业务痛点,用数据中台的方法论帮助业务解决当下的问题,才能凸显数据中台的价值。数据中台是数据建设发展到一定阶段的必然选择,所以不要急,如果现在没遇到这些问题,说明规模或者深度还不到,不过迟早一天会遇到,可以先按正确的方法去建设,到时候就不会出现“先污染,后治理”的问题啦!

    也感谢你的阅读,祝好!

    2020-05-11 23:14:51

  • 你好

    2020-05-11 09:21:19

    这么快就结篇了,最近落了好几节课,老师可以抽空回来看看我们的疑问吗?每看一遍都有新的收货,还会向您问问题的。
    作者回复

    嗯嗯,不好意思,最近回复的慢了一点,因为有好几个问题,问的都挺好的,我想组织一下,稍微花点时间详细回复一下。我这两天就会回复完的哈~

    感谢你的认可,也希望我们这些经验能帮助到你的日常工作~

    2020-05-11 10:10:21

  • 云峰

    2022-05-25 10:39:47

    内容不错,受益良多,第一次比较清晰的了解了大公司整个数据中台落地的全貌。中小公司想落地整套数据中台门槛较高,但也有很强的借鉴和指导意义,为老师点赞!
  • Geek_76e38b

    2021-09-08 18:29:06

    真不错,我从头到尾做了一遍笔记,真好
  • 杨逸林

    2021-08-26 15:37:17

    老师,我发现你这个和《数据仓库》这本黑皮书讲得差不多啊,数据中台 = 数据仓库?还是数据中台包含数据仓库?
  • 芳芳

    2021-07-15 22:43:05

    郭老师,听了你的课真的收获非常大,都是实战经验……以前也有听很多课,但是都偏方法论,听完还是不知道怎么落地,你的课就相对详实很多,感觉听完意犹未尽,还是有很多问题想要交流,我们做对公客户的,也在做数据中台,目前业务应用的场景没摸透,感觉中台的价值很难发挥,所以现在有些困惑,希望郭老师能指导一下
  • oasis

    2021-07-14 11:13:04

    感谢老师,通过这个系列文章基本上把数据中台的一系列流程理清楚了,其中的细节问题还值得多看几遍文章,谢谢
  • 独孤九剑

    2021-07-08 18:24:22

    一句顶一万句
  • Derek D Huang

    2020-09-12 08:40:59

    郭老师,您好。反复听了很多次,收获满满,有两个问题请教:
    1)开源hadoop平台维护是个大问题,请问网易是如何做好的?
    2)调度平台没有分享啊?感觉调度才是大问题,开源的都没有可以直接拿来就用的。
    作者回复

    你好,这门课程,主要介绍的是数据中台的落地实践,数据中台的核心在于OneData和OneService,所以并没有写Hadoop和调度平台,前者属于大数据的计算、存储引擎,后者属于大数据开发平台的范畴。

    开源Hadoop的运维确实复杂度很高,但是网易从09年就开始搭建Hadoop集群,还有一直Hadoop的内核开发团队,针对Hadoop做了很多功能增强,比如垃圾回收站机制,另外,我们还自己研发了一套easyops的自动化安装、运维的系统,可以监测任务的大规模异常,通过工具化的方式,提高的运维的效率。

    调度平台,我们是基于azkaban二次开发的,其他的oozie、airflow其他企业也有用。调度功能相对还是非常复杂的,尤其是大规模故障恢复的时候,尤为重要。

    感谢你提问,祝好~

    2020-09-29 19:46:29

  • Jerry Tan

    2020-05-11 22:27:12

    老师牛B,🐮
    作者回复

    你好,希望对你有所帮助,有什么问题可以在留言区与我互动。

    2020-05-11 22:54:37

  • 小广

    2022-02-17 09:12:05

    感谢老师分享,真的获益良多啊😄
  • 芳芳

    2021-07-15 22:46:00

    希望郭老师能继续出更加详细的课程,意犹未尽!或者有什么渠道可以请教指导的?
  • 行轩

    2021-03-13 16:53:50

    onemodel onedata oneservice 中台建设方法论
    onemodel 和 onedata 是一个概念嘛?
  • 曹云

    2020-07-21 12:21:32

    直击痛点,看得停不下来,最快看完的专栏,干货满满~

    期望能展开讲讲,测试部门如何测试数据质量的话题
    作者回复

    嗯嗯,感谢你的认可。

    最近,也在跟编辑沟通,希望增加一些新的章节,比如大数据的CI/CD Pipleline应该怎么做。 网易从去年到今年,在这块做了一些新的实践探索。我们所有的任务在提交的时候,是有一个Pipleline的,这个Pipleline其实包括了一些CheckList:

    1. CodeReview,我们会提供一些版本的differ功能能,方便reivew的人去check代码的改动。

    2. 数据测试相关报告,主要包括数据的形态探查分布,数据的比对(主要涉及一些模型重构的场景),SQL Scan。

    3. 配置检查,比如调度时间是否设置合理,报警是否漏配,任务依赖是否有缺失?

    4. 该任务的下游影响范围。


    结合上述信息,其他人就可以比较容易的审核任务的发布上线流程。

    但是这套流程,是非常重的,对于敏捷开发来说,并不适用,所以要结合数据资产等级来落地。对于涉及下游对数据质量要求非常高的(例如电商场景里面资损相关的表),就必须要严格执行流程,但是对于一般的,则可以轻量化一点,比如不需要 Code Review,只需要第二步的SQL Scan和第三步的配置检查即可发布上线。

    所以,数据质量,我们不仅在事后要做到早发现、早恢复,在事前,我们还要构建大数据的CI/CD Pipleline流程,将质量管控从事后推到事前。

    希望我的回答对你做数据质量的管控,有所助益。

    2020-09-29 20:12:08

  • Yukiii🐋

    2020-07-09 10:34:30

    老师,有几个问题想问一下,数据中台到底是不是能够产品化?到底有没有跨行业跨公司的通用解决方案?现在已有的数据中台好像都还是以项目的方式在做,不同行业的方案差异好像还是蛮大的。那如果将来想要实现DaaS层的产品化需要解决什么技术上的问题吗?未来数据中台的迭代方向是什么?
    作者回复

    你好,首先我先回答下第一个问题。

    数据中台,不能产品化, 但是数据中台的构建工具可以产品化,我们网易现在也提供了整个数据中台构建的完整工具链,但是我们没法卖一个数据中台,因为数据中台是带数据的,而且是根据每个企业的业务过程构建的,不能完全复制照搬,但是中台中的模型、数据分析门户,在行业内相似业务过程之间,是可以被复制的。

    第一个问题回答以后,第二个问题,也就明朗了,没有跨行业、跨公司的数据中台通用解决方案,但是可以有跨行业、跨公司的数据中台构建工具,方法论,这些是通用的,而且是构建数据中台必须的。行业内,不同企业之间,模型具备一定的复用性。

    我觉得数据中台,不可能提供SaaS化的服务,如果对这个问题感到困惑,说明还没有真正理解数据中台的内涵。但是数据中台的支撑工具,比如指标系统、DQC、数据资产中心、数据地图,完全是可以产品化的。

    最后一个问题,未来数据中台的迭代方向:我觉得有几个:

    第一个实时化。目前的数据中台方案,大部分是基于离线的hive表实现的,实时数据中台,构建于实时数据湖之上,能够实现批流一体。

    第二个方向,是智能化,比如DQC,添加稽核规则,具体添加什么规则,规则的阈值怎么设定,最好产品层面,可以根据历史数据,进行推荐。

    第三个方向,是容器化。数据中台构建于hadoop之上,spark on k8s技术日趋成熟,后续在线和离线统一,是趋势。

    感谢你的提问~祝好~

    最近我们在由网易举办的数字+大会上发布了网易数据生产力,即数据中台+数据产品工具栈解决方案,欢迎了解~

    2020-07-20 20:37:40