开篇词 | 数据中台,是陷阱?还是金钥匙?

你好, 我是郭忆,网易大数据平台的负责人,你叫我老郭就可以了。最近我响应国家号召,添了二宝,成了“超级奶爸”,再加上咱们课程上线,生活比较忙碌。不过忙归忙,一想到能和你在这里相遇,心里多多少少有些紧张和激动。

为了加深彼此的了解,我先简单介绍一下自己。我在网易主要负责大数据平台团队,对内服务于网易各个业务线(包括网易云音乐、严选、有道、新闻,以及已经离开网易大家庭的考拉),主要是为业务提供大数据建设需要的产品和技术;对外呢,主要帮传统企业实现数字化转型,提高运营效率,我们的客户涉及零售、教育、农业、金融、物流等多个行业。

前段时间,我带着团队,在网易完成了多个业务线的数据中台项目落地,有了一些量化的成果,也获得了业务方的高度认可。除此之外,我还总结了一套数据中台建设的方法论,以及经过实践验证的数据中台支撑技术体系,再加上自己在数据领域积累了十多年的经验,所以我觉得自己可以在这个时间点跟你聊一聊,到底什么是数据中台?如何来建设数据中台?数据中台有哪些应用价值?

说到数据中台,你肯定不陌生,从2018年末开始,它突然在大数据圈儿走红。大家聊天如果不提中台,好像就落伍了。也正是因为数据中台,大数据受到了前所未有的关注。作为一个数据人,我非常高兴,也感到责任重大,因为大家对数据中台寄予了很大的期望,把它当作企业数字化转型的金钥匙,投入了上百万,甚至是千万,希望解决企业经营效率的问题。

但是我们也看到一些企业未能达到预期的结果,比如说,指标口径不一致造成数据不可信;数据经常无法按时产出,影响工作效率;敏感数据泄露,引发安全危机。最终的结果就是数据不好用,无法发挥应有的价值。所以有人泼冷水说:数据中台就是一个充满诱惑的陷阱,看上去很美好,但是根本不可能落地成功。那数据中台到底是陷阱?还是金钥匙呢? 为什么这些项目很难成功呢?

在我看来,这里面既有客观原因,又有主观原因:

  • 客观上讲,数据中台的建设是一项系统性工程,从组织架构、支撑技术到流程规范,既要有宏观的顶层设计,又要有强有力的落地执行,所以对整个团队的要求会比较高;

  • 从主观上讲,这些企业本身数据建设经验不足,或者还处于比较初级的阶段,不知道数据建设中有哪些痛点,更不知道用什么样的技术手段和管理机制去解决这些问题。

两方面的原因最终造成数据中台项目往往虎头蛇尾,开始的时候规划得很大,实际却草草收场。而我希望通过这门课程,帮你少走一些弯路。

如果你是一名数据开发,每天累死累活地做需求、排查问题,还天天被人怼,嫌质量差、嫌速度慢;如果你是一个企业的数据负责人,正在为如何建设数据中台而犯愁,不知道如何向你的老板描述数据中台的价值;如果你是一个企业的老板,觉得目前企业的经营太过粗暴,决策完全凭经验,拍脑袋决定,需要实现数字化转型,提高企业经营效率。

那么我相信这门课会对你有一定的启发和帮助,这也是我写这个专栏的初衷。

当然了,在你打开这个专栏之前,也许看到过很多“洗脑”的文章,比如《数据中台,企业数字化转型的利器》《迷信中台是一种病,得治》。值得肯定的是,这些文章很好地宣传了数据中台的理念,让数据中台一跃成为网红。

可如果你认真分析这些文章,就会发现它们太过抽象,很难有可以执行落地的方案,也缺少实践的案例,对应用价值的描述缺少量化的成果,更像是一些项目感悟。比如,赋能业务是这些文章反复提到的点,但具体如何赋能?赋能得怎么样?业务得到了哪些改变?这些却很少提及。

总的来说,这些文章与实际数据中台建设的距离比较远,可供学习和参考的内容非常有限。我相信,对你来讲,最想知道的是大量的实践案例,从概念到实现,如何来搭建一个数据中台,让数据好用。 我举个例子,很多文章会提及避免烟囱式的开发模式,可具体怎么做呢?如果你已经是烟囱式的开发模式,实际存在了很多分散的小数仓,那怎么样才能让它变成一个数据中台呢?我想这才是你最关心的问题。

这也是我写这个专栏最大的不同,那就是结合网易数据中台的实践经验,给你大量一线的案例。结合这些案例,你能由浅及深地了解数据中台如何在企业落地,而不仅仅浮于概念的表面。此外,在每篇文章结束前,我还为你准备一个思维脑图,帮你梳理每篇文章的知识点,让你形成知识体系,帮你融会贯通。

如果用一句话概括我的讲解方式,那就是从原理到实现,最后到实践。你从中既可以看到数据中台支撑技术的全貌,又不会错过每一个实现细节。配合大量的实践案例,你可以深入掌握数据中台的落地过程。

为此,我把内容划分了原理篇、实现篇。

在原理篇中,我会告诉你数据中台的来龙去脉,数据仓库、数据湖、大数据平台以及数据中台的区别,以及它们有什么样的内在联系,然后会跟你讨论什么样的企业适合建数据中台。最后,我会从全局的视角出发,讲解数据中台如何在企业落地。

通过原理篇的介绍,我希望可以回答你三个问题:什么是数据中台,数据中台解决了什么问题,如何来规划数据中台的建设。

实现篇是我讲解的重点,我会基于数据中台支撑技术的整体架构,逐一讲解每个模块的具体实现。

在这部分内容讲解中,我会遵循从问题入手,然后给出解决方案,接着评估解决的效果,最后问题解决不是一次性的工作,为了使得问题得到长久化的解决,需要借助产品化的实现方式,所以最后我会讲如何将管理方法沉淀成产品。

接着我会讲解数据服务化相关内容,比如告诉你为什么要实现数据服务化,如何设计一个数据服务。数据安全也是数据中台的核心内容,尤其是随着最近删库跑路的热点事件,安全问题也被企业越来越重视,那么我们将讨论如何实现精细化的权限管理,如何做好企业数据的备份。

最后,我会讲一下基于数据中台之上的通用数据应用(包括自助取数、可视化分析等)。在这个过程中,我会以电商场景为例,通过大量的案例,帮助你理解这些问题以及问题的解决过程。

通过实现篇的学习,你可以了解企业在数据建设中到底存在哪些痛点,如何解决这些痛点,这些经验和案例可以立即应用到你目前的工作中,帮助你解决当前遇到的问题(例如指标口径不一致、数据无法按时产出……)。

除此之外,我会以网易电商的数据中台为例,从项目立项、推进到成果汇报,详细地描述数据中台在网易电商的落地过程。同时我还会对数据中台未来的方向进行展望,包括实时数据中台、跨云数据中台、自动化代码生成能力、智能元数据管理和增强分析等热门技术方向的探讨。

总的来说,通过这个专栏,你将获得这样几点:

  • 一线互联网公司数据中台的实践经验
  • 大量实践案例讲解如何躲过数据中台建设的那些坑
  • 可落地执行的数据中台建设方法
  • 经过实践的数据中台支撑技术体系

最后,我想跟你说点儿掏心窝子的话,数据中台到底是陷阱还是金钥匙?我想这主要取决于你有多懂数据中台,把它用好了,绝对是企业打开数字化转型的金钥匙,用不好,那就是一个充满诱惑的陷阱。

因为我也曾和你一样,刚开始面对数据中台的时候,一点儿经验都没有,后来我一边探索,一边总结,不断反思和复盘,最终总结出自己的一套数据中台建设经验,我希望将这些经验分享给你,让你少走一点儿弯路,相信你只要肯下功夫学习,一定能够让数据中台成功在企业落地。

随时欢迎你在留言区与我互动,我们一起切磋!

精选留言

  • 德布罗意

    2020-04-01 07:39:51

    不管是数据中台还是业务中台,归根结底都是业务驱动第一性原理,中台技术是方法工具,做任何系统之前,我们要深刻反思业务的来源、现状,未来,我们业务的核心价值观是什么?希望在郭老师的课程里除了学到数据中台技术,也能学到对数据业务的方法论😁
    作者回复

    数据业务最重要的是要驱动业务的发展,能够辅助业务去进行经营决策。这里面会有几个阶段,首先是要把数据展示出来,让人能够看到数据,然后是要实现基于数据,能够让人形成一些action,在你的这个数据产品上完成一些决策和闭环,这就涉及到与业务系统的打通和联动。第三个是数据业务化,我们可以打造一些数据产品,通过数据产品可以作为一种业务。

    我觉得大部分公司可能现在要做的只是第一步,现在很多数据都还没展示出来,也没多少人看。数据意识很重要,要培养,但是培养的前提是数据的效率、质量和成本要跟得上,所以数据中台是前提。试想一下,你的数据天天违反常识,有多少人愿意看?

    我觉得能做到第二步的,大部分还是互联网公司,有丰富的数据产品,但是我见过德邦一些传统物流公司,也非常强调数据产品的建设,意识比较靠前。

    能做到最后一步的,真是凤毛麟角。说实话,能有数据的公司是不多的,把数据变成一种业务的,更是不多的。比如阿里的生意参谋,可以说是数据业务化,提供数据给卖家,帮助卖家卖货,可以说把数据作为一种业务,可以挣钱。但是就我看来,这也只有一些头部公司,有海量数据,同时有对口的应用场景,可以做的到。

    2020-04-01 22:44:42

  • Esun

    2020-03-30 19:41:01

    以我现在的理解,数据中台就是一个基于数仓又高于数仓的系统。它就是把以往搭建一个数仓所要做做的,数据同步,清洗,建模,分析等工作自动化。你只需要有少量的数据经验,就可以通过数据中台快速搭建自己的数仓。当然,因为数据得以集中,也可以产生更大的数据价值,更少的数据接口,更快的数据服务。讲起来简单,落地非常困难~~~~一个盯着dataphin看了一个月的数据小白总结
    作者回复

    你好,我来点评一下哈。

    首先,关于数据中台是自动化完成数据同步、建模、分析,这个其实不太准确。原先大数据平台,应该说就能够支撑数据研发链路的覆盖。数据中台更加关注在数据研发的效率、质量和成本三个方面。

    其次,数据其中,产生更大的价值,更少的接口,更快的数据服务。

    这个观点是正确的,数据的复用,提高了数据研发的效率。数据通过接口化的方式,提高了数据的接入效率和接入后数据的管理效率。

    2020-03-31 20:34:53

  • 木匠

    2020-07-16 13:26:35

    外部业务系统和数据中台的关系是什么?我的理解是:数据中台抽取各业务系统的数据,经过加工后,形成统一的数据指标、模型,通过数据服务提供给业务使用。数据中台只对业务系统提供数据获取,业务不能对数据中台写数据。各个业务系统收集的数据,计算的中间结果数据,处理后的业务数据,存储在业务系统自身的数据库或数据仓库中。业务系统的存储和数据中台的存储相互独立,业务系统的数据在数据中台中有一份副本。
    作者回复

    你的理解并没有问题,但是我想延申一下,业务系统、数据中台以及我想介绍的数据产品之间的关系。

    首先,我们做数据中台为了什么?

    我想先谈谈我们做数据中台的初衷。很多企业,做数据中台,本质上他们期望解决的是业务问题。什么是业务问题? 某个商品缺货了,我该补多少货? 每个养猪的养户,要分配多少猪苗? 某个商品打折了,我该把这个打折信息通过短信推送给谁?

    数据中台,本质上是没有办法直接解决这些业务问题的,所以很多企业建了数据中台之后,发现并不能直接解决他们的业务问题,感到很失望,那我觉得,这个是对数据中台的定位没搞清楚。

    数据中台只能提供高质量、高效率、低成本的数据,这些数据当然是产生业务价值必须的,但是这些数据还必须转化为决策,才能应用于业务。这个时候,我就要提到数据产品了。

    我们认为,企业只有通过数据产品,才能实现从数据到业务的打通,数据产品要实现的是从数据,到决策的转化,然后将决策推送给业务系统,由业务系统来执行。比如,数据产品,根据数据,预测出某个商品要补多少货,然后通过API的方式,调用采购系统的API,发起补货流程。

    业务系统的数据,由通过数据中台的数据传输工具,数据汇聚到数据中台,数据中台把各个业务系统的数据汇聚,加工,通过服务化的方式最终提供给数据产品。

    所以数据产品、业务系统和数据中台,是这样一个三角关系,数据产品+数据中台,我们称之为数据生产力,他们的目的,就是让业务更智能,运行的效率更高!

    顺着你的话题,我多讲了几句我们在多个业务中实践,感谢你的阅读,祝好~

    2020-07-20 20:26:10

  • 唐永军

    2020-04-25 11:54:31

    郭老师,我理解数据中台是这样的,您看对不对啊。
    就是把不同系统的数据,全部汇总到一个大的数据仓库。然后在数据仓库里各种数据的清洗 转化 装载 集成等工作,最后数据建模,把业务数据可视化的展现出来。
    老师您看哪里理解的不对或有遗漏。
    作者回复

    你好~

    你说的这个过程,在我看来,只能叫数据仓库。

    数据中台的核心并不是要建数据仓库,他的核心在于“OneData”数据的复用和共享,所以强调数据只加工一次,这样才能高效的支撑前台的需求。这才是数据中台的精髓。

    别急,你可以接着往后看,尤其是看看第一讲,我会详细的介绍数据中台、数据平台、数据仓库的区别,你就会明白了。至于“OneData”,你可以看第3讲,我会展开详细的介绍,包括方法论、支撑技术以及组织架构上的支持。

    感谢你的阅读,我们下一次留言区见~

    2020-04-25 23:19:39

  • 吴建中

    2020-04-01 19:17:24

    我理解的数据中台,一定是基于大数据体系的,内在是数据仓库,底座应该是大数据计算平台,数据中台建设的目的就是为了让数据持续的用起来,赋能业务,提高响应能力和洞察能力,有管理也有技术,驱动业务数据化,数据资产化,资产服务化,服务业务化的循环。数据中台就是要让数据这种资产价值最大化,成为企业的重要基础设施,重要的生产资料。
    作者回复

    没毛病~

    2020-04-01 22:30:34

  • leslie

    2020-03-30 22:38:57

    王健老师的《说透中台》去年学过:大数据接触不多,数据系统/中间件存储打了多年的交道,接触过敏捷、DevOps、SRE,中台其实只要用合适的中间件架构就好,目的还是为了数据公用-减少重复建设。
  • iMARS

    2020-04-01 22:05:15

    我之前理解数据中台是将不同系统的数据进行标准化建模,然后对外提供统一的API,建模和对外API都是基于企业实际业务应用场景,以便企业进行决策参考。
    作者回复

    没毛病~

    2020-04-04 20:57:31

  • solzs

    2020-03-30 23:54:39

    现在在公司也正在做数据中台的建设的工作,所以很期待!!!
    作者回复

    感谢, 希望我的经验可以帮助你建好中台,用好中台。

    2020-03-31 20:15:20

  • Geek_albert

    2020-04-07 00:21:04

    睡觉前在B站刷到郭老师的数据中台live《为你剖析数据中台的现状及未来》,一口气看完睡意没了。我现任某创业公司数据团队负责人,在经历了两年粗放式的数据工作后,目前正在负责公司数据中台建设。郭老师在live中提到的数据工作中出现的痛点与问题,完全与我在工作中发现的痛点以及问题一致,我也高度认同郭老师对问题原因以及背后深层次原因的分析。因此,毫不犹豫的被引流到这里😂。希望能跟着郭老师交流学习,学习学习郭老师在这方面的深刻认识。
    作者回复

    说实话,看到你的留言,非常感动,更加感到自己责任重大。

    我写的这些问题,都是我们在做数据中台建设过程中遇到的问题,我们也认真的思考过,并想出了各种方案,解决这些问题,最终我们取得了不错的成果。

    希望通过我的经验,分享给你,让你少走一些弯路,对你有所帮助。也欢迎你在留言区继续跟我交流~

    2020-04-07 22:59:04

  • 草裡菌

    2020-04-02 13:35:48

    目前被任命负责数据中台建设,但是完全没有经验,看完了《说透中台》专栏还是有些懵,希望在此能有更多的收获。
    作者回复

    这节课,其实是专门针对数据中台开设的,尤其是注重实践经验的传递,希望这些实际经验可以帮助你,也欢迎你继续与我交流~

    2020-04-04 20:43:19

  • Sandflass

    2020-04-01 22:11:04

    老师你好,我想问一下,数据中台建设的过程,是不是相当于把N多个不同部门不同应用的数仓进行融合的过程,特别是越在上游的数据融合度会越高,比如ODS层,大家基本只能共用一个库?
    作者回复

    对的。

    2020-04-04 20:57:14

  • AT

    2020-04-09 07:45:45

    对于多租的2B的云上产品,例如 钉钉,一方面要提供数据服务供内部的运营,营销;另外一方面要提供数据服务或公开数据Api供B端企业直接消费。其中涉及数据隐私,SLA各种要求的不一致,如何做到onedata 数据只治理一次?oneservice 统一的数据服务? 更复杂的是他们还有可能做线下部署,数据服务如何下沉?
    作者回复

    这个问题很好,我来谈谈我的看法。

    数据中台要实现的是公共计算逻辑的下沉,很多企业中,数据中台只会覆盖到明细数据和轻度汇总数据,当然对于一些可以复用的集市层和应用层数据也是数据中台范畴内的。对于面向特定场景,对数据内容因为隐私或者SLA 有区分的,无法复用的,每个部门可以基于数据中台的公共数据加工自己的集市层或者应用层模型。我觉得这个没有问题。

    我觉得要再强调一个点,就是数据中台实现的是公共计算逻辑的下沉,要注意公共两个字。

    至于数据服务,也是一样的,尽可能实现接口的复用,对于云上、云下,不同的环境造成的接口无法复用,那就有独立存在的必要了。

    感谢你的阅读,欢迎你继续与我在留言区深入交流~

    2020-04-09 23:51:02

  • Geek_kevin

    2020-04-01 00:03:45

    我想知道数据中台跟mdm主数据管理有什么区别?通常的主数据管理系统也会对外提供数据服务
    作者回复

    主数据对应的是数据中台中的一致性维表。

    2020-04-01 22:55:57

  • 技术修行者

    2020-05-16 18:12:17

    最近在整理项目中的不同的数据源产生的数据,对于结构化数据和非结构化数据需要有统一的处理方式,希望这门课程能带来一些启发。
    作者回复

    希望我的这些经验对你有所帮助~ 如果有任何问题,欢迎在留言区与我交流~

    2020-05-25 20:47:30

  • 2020-05-09 16:44:08

    老师,我们公司想做一个报表平台,收集各个业务系统的数据,然后报表平台进行数据加工,统计;但是公司肯定是还没有想做数据中台的计划;请问老师对于实现这种需求,有没有推荐的系统架构,比如如何从各个业务系统采集数据(基本都是Java),如何聚合各个业务系统的数据......
    作者回复

    你好,从需求的角度,你们当然目前用不上数据中台,你们当前的需求是具备大数据的加工和处理能力,本质上是数据平台的需求,甚至还要看你们的数据量,可能是一个比较轻量化的数据平台的需求。

    数据平台,包括数据集成、离线/实时任务开发、数据测试、任务发布上线以及任务运维功能。一般基于Hadoop生态构建的数据平台最为常见。

    再说数据集成,如果是关系数据库到HDFS,开源的产品可以使用Sqoop,但是Sqoop支持的数据源范围比较少,同时在源端数据分布不均匀的情况下,存在数据倾斜的问题。

    2020-05-13 19:30:46

  • 2020-04-03 10:47:01

    正好要负责公司新的数据中台,这个课程太及时了!
    作者回复

    感谢你的阅读,希望对你有帮助,欢迎继续交流~

    2020-04-04 20:22:37

  • 小熊

    2020-03-31 00:46:16

    今年公司进行数字化转型,一直在关注数据中台的课,极客时间上线课程就果断订阅了,希望能有所收获
    作者回复

    感谢订阅,希望你能够学有所获,真正把数据中台建好,用好,赋能业务。

    2020-03-31 20:14:27

  • 枕烟客

    2020-03-30 21:52:33

    对于数据中台了解还不够多,但是已经对于数据仓库和数据中台产生疑问了。
    从老郭的介绍来看,在加一些我的拙见,数据仓库应该是数据中台的一部分,或许是更位于底层的部分,用来实现数据的统一聚集,进行分层。
    工作中也经常是各种小数仓,每个部门各自有自己的数据,对于应用场景不一,经常的指标不一致,有了这个统一的数仓,再要实现上层的数据需求,是十分方便的
    作者回复

    “数据仓库应该是数据中台的一部分,或许是更位于底层的部分”

    这个观点其实不准确,应该说数据中台继承了数据仓库维度建模的设计方法。

    2020-03-31 20:35:51

  • 西西弗与卡夫卡

    2020-03-30 18:48:30

    开张了,十分期待
    作者回复


    欢迎多交流~

    2020-03-31 19:56:46

  • 东曦既上

    2024-08-26 13:30:50

    老师好,制造业企业数据中台如何建设呢,最近在做这个事情,感觉在甲方来说数据团队初期没有那么多,主要靠乙方,乙方又有项目成本,这个适合如何更好的建设数据中台