12 | 数据的台子搭完了,但你还得想好戏该怎么唱

你好,我是郭忆。

从第4节元数据管理开始,到第10节数据安全,我已经详细讲了如何建成快、准、省和安全的数据中台。现在,数据中台的台子已经全部搭完了,接下来,好戏就可以上演了,也就是说,我们要在数据中台的基础上,构建企业数据应用体系,用好数据中台的数据。

对企业来说,用好数据非常关键,从我多年的数据建设经验来看,我把数据在企业的应用划分成三个阶段。

  • 初级阶段。一般企业的数据应用都是从数据报表开始的,分析师会为业务部门的负责人、运营制作一些BI报表,把数据通过可视化的方式呈现出来,这是数据应用的初始阶段。

  • 发展阶段。只是可视化的展现数据已经不能满足业务的需求,业务需要根据数据持续监控业务过程,发现问题、诊断分析,并给出决策建议,最后需要一键执行,形成完成的业务过程闭环,这个时候就要借助数据产品来实现,网易也是在2018年才开始大规模构建数据产品体系。

  • 高级阶段。无论是数据报表、还是数据产品,它们呈现的都是固化的分析思路,只能解决知道的业务问题,但是日常工作还有很多未知的业务问题,比如销售额指标突然下降了,需要基于数据进行探索分析。这个时候,如果都依赖分析师,肯定不现实,那么就要实现自助取数,让每个人都能基于数据去做分析和决策,实现普惠大数据。我认为这是数据应用的最高级阶段,网易在2019年开始开放越来越多的中台数据,让更多的非技术人员去使用数据。

那么今天这节课,我们就从这三个阶段,谈一谈如何用好数据中台的数据。

数据中台该如何赋能BI 工具

很多人对数据的了解,都是从BI工具做的报表开始的。关于BI 工具的产品本身,不是我想说的重点,我主要想和你讨论的是数据中台时代,如何让数据中台帮助BI工具更强大。

我会从四个方面带你了解这部分内容。

第一,统一报表指标业务口径。

数据报表上会存在指标口径不一致的问题,相同指标名称,两个报表里的数据却相差很大,这会让数据使用者对数据失去信任。

而数据中台的所有的指标都是由指标系统统一管理的,如果能在数据报表上直接看到指标系统中,指标的口径定义,就可以让看报表的人准确理解数据的含义,也可以避免不同报表之间指标口径不一致的问题。

同时,如果我们在指标系统上修改了指标的口径定义,也可以同步到所有的呈现该指标的数据报表中。

第二,掌握任务影响了哪些数据报表。

当某个任务异常,影响了下游多个任务时,我们往往要根据任务的影响范围,决定任务恢复的优先级。如果任务影响了老板每天看的一张报表,而你却不知道,没有优先修复它,那你就等着被批吧。

那我们要怎么知道一个 任务影响了哪些数据报表呢?

在网易,数据报表在保存时,BI工具可以把报表和数据的链路关系,推送给数据中台的元数据中心。当数据中台的任何一个任务出现异常,我们通过数据血缘,就可以快速找到这个任务影响了哪些数据报表,尤其是在故障恢复的时候,根据报表的优先级,我们可以优先恢复高优先级的报表。

第三,治理低价值的数据报表。

根据数据中台的全链路数据血缘,我们可以计算每一个报表上游所有的数据加工成本,然后得到这个报表的成本。然后根据报表的访问量和访问人群,我们可以计算报表的ROI(投入产出比),下线低价值的数据报表。

第四,全维度钻取。

在制作报表时,分析师只能依靠经验去判断一个指标有哪些可分析维度。如果BI工具能根据元数据中心提供的所有指标可分析维度,自动根据指标在各个维度下的取值,找出指标波动的原因,那这就是全维度钻取了,它是目前业界最为热门的研究领域,增强分析的一个方向。

比如,有一个单车租赁公司,发现8月份的营业额下降了,系统通过根据各个维度的数据对比和分析发现,8月份营业额下降,是因为那个月雨天的天数增多导致的。如果分析师不知道用天气的维度去分析营业额,很可能就不知道原因。但是全维度钻取,可以基于数据中台营业额的所有可分析维度,包括天气,自动计算出雨天的销售额相比晴天的销售额低,同时进行交叉分析,发现8月份的雨天数量比其他月份多,最后找到问题的原因。

你看,数据中台是不是很大程度上增强了BI工具的产品能力? 在BI 工具的基础上制作数据报表,这才是数据应用的初级阶段,接下来,咱们继续看一下,基于数据中台,我们能做出什么数据产品,提升业务的运营效率。

打造零售行业精益数据运营体系

零售行业是目前我见过的所有行业中,对数据使用程度最深的行业,所以我会以零售行业为例,带你了解如何借助数据实现精益运营。

假如你是“贾天真连锁奶茶店”的老板,你的目标是把更多的奶茶卖给更多的人,赚更多的钱。那你要时刻谨记零售行业一个很经典的理论,那就是:人、货、场,在正确的地点,把正确的商品,卖给正确的人。

让更多的人,买更多的奶茶

为了让更多的人,买更多的奶茶,你必须要解决客户拉新和促活的问题。那如何拉新呢?

获得新用户的方式,一般就是做广告,但是做广告也有很多渠道:

  • 微信公众号;
  • 抖音;
  • 快手短视频;
  • 小区电梯;
  • ……

可这么多的广告渠道,到底哪个渠道的广告效果最好,性价比最高呢?数据说了算!

我们一般用新消用户数、单个新消用户的平均消费金额(新消ARPU)、新消单客成本来衡量各个渠道的广告投放效果。你可以参考这几点,选择最优的广告投放渠道。例如,微信公众号相比快手短视频,每日新消用户数更多、单个新消的平均消费金额更多、新消客成本更低,那你就应该果断选择微信公众号。

当然,广告中选择的奶茶种类也会在很大程度上影响广告拉新效果。比如高档小区投放广告时,应该选择价格高、健康的饮品;普通小区的话,更加亲民的奶茶才能吸引更多的客户。那如何来选择奶茶的种类呢?还是数据说了算!

除了根据数据选择奶茶种类之外,广告的投放也要讲究策略,就拿微信公众号这个渠道来说,年纪大的客户群体,注重健康饮品;年轻的客户群体注重价格亲民、口感、样式。所以,必须要基于人群画像(年龄、地区、学历等),决定推送哪些人哪些商品。至于人群画像,需要基于日常的顾客交易数据计算而来。

不过,光拉新用户,但是如果留不住用户也不行。那么如何让老用户,增加消费奶茶的频率呢?

我相信你肯定也见过一些套路,比如经常收到一些短信、App站内消息、小程序、微信公众号推送的打折信息,然后没忍住,就“剁手”了。那你有没有想过,这些商家是怎么抓住你的,怎么就知道你喜欢这一款?

我曾经做过2年的推荐算法,这个算法有一个很经典的论述:大数据可以做到让机器比你自己更了解自己。所以,如果你曾经购买过奶茶,那系统就可以交易行为数据计算出你喜欢的奶茶口味、品类,你平时喜欢在哪家店购买,然后定向把这些店对应的奶茶优惠信息推送给你,这样你大概率会中招!

你可以看到,店家总是有各种各样的套路促进你消费。

店家在数据的基础上,一方面可以让新客源源不断,另一方面可以增加老客复购的频率,这时整个奶茶生意的销售额就实现了最大化。

保障奶茶不要断货

作为老板的你,要让更多的奶茶,卖给更多的人,那前提必须要保障奶茶的充足供应,这就涉及到供应链管理的问题。

因为奶茶本质上属于生鲜品,如果门店囤货太多,鲜果就会烂掉。但如果缺货,又会影响门店的销售,所以如何在保证不缺货的前提下,尽量减少门店的囤货,这是你必须要解决的问题。

而供应链涉及到销售、补货、到货和库存四个环节。如果有一款数据产品,可以根据奶茶的实际销售情况和销售计划、结合门店库存的安全水位、采购时间周期,自动计算需要补货的原材料,然后推送给采购系统进行补货,那你是不是会觉得很省心?

实现门店的利润最大化

当然了,奶茶卖得多不多,还和门店有很大的关系。如果你的店员,可以根据数据,及时发现滞销的奶茶,然后在客户结账的时候,主动推荐这些奶茶,那你就可以获得更高的门店收益。我们一般使用“坪效(每天每平米门店的营业额)”来衡量单个门店的经营状况。

通过这几点,其实你可以看到,零售行业有很多赚钱的窍门。接下来,我带你了解一下如何基于数据产品,轻松地使用这些窍门。

构建数据产品,实现数据驱动下的精益运营

数据产品与BI报表最大的不同,在于它们不仅可以实现数据的可视化展示,更为重要的是,可以基于数据,对业务过程进行持续的监控,及时发现问题,进行诊断,并形成决策建议,付诸执行。

数据产品,首先要实现对业务目标的量化。对于卖奶茶来说,你要关注的重点是研发出更多的网红款的奶茶,确保圈住更多的“奶茶粉儿”,同时降低库存周转的压力,因为有越多的滞销奶茶,就会导致积压更多的货物,产生更多的成本。

为了实现这个目标,你可以用动销率来评估目标的达成。

动销率:销售商品的品类数量占库存的商品品类数量的比例。

为了提高动销率,数据产品必须对每个奶茶品类进行销售的跟踪,及时发现零动销的奶茶。

所以,你可能会经常收到“xxx款奶茶零动销”“xxx款奶茶慢动销”的预警信息,然后接下来你就要对这款奶茶出现零动销进行分析了:数据产品会通过不同季节横向对比这款奶茶的销售情况,也会通过顾客消费问卷去分析这款奶茶的口感,最终找到这款奶茶滞销的原因。

接下来,你就要根据原因产生决策建议了。比如如果是因为奶茶口感的因素,应该及时下架这款奶茶,否则会影响口碑。数据产品可以推送给运营进行审核,然后运营确认后,一键下线商品,此后各个奶茶店的菜单中,不会再出现该款奶茶。

当然了,我只是拿零售行业举了个例子,因为很多问题都是共通的,用奶茶店,我总结了一些方法论,你可以结合自己所在的行业去应用:

  • 找到业务问题、量化业务目标,比如,我们找到提高奶茶周转的关键,在于及时发现滞销奶茶品类,那么我们用动销率来衡量业务目标;
  • 然后要对业务目标持续监控,及时发现问题,比如,我们监控各个品类奶茶的销售情况,及时发现零动销奶茶;
  • 紧接着,要对问题进行诊断,比如,我们要发现奶茶滞销是因为口感太差;
  • 当然,还要根据原因形成决策,比如下线这款奶茶;
  • 最后付诸执行,比如通过一键,在所有门店菜单中去掉了该品类奶茶。

你看,数据产品实现了从监控问题、发现问题、解决问题的完整闭环。可数据产品毕竟还是按照固化的分析思路进行分析和产生决策建议,在日常运营中,还会有很多数据产品或者数据报表无法解释的问题,这个时候就必须要依赖探索式的数据分析来解决,而探索分析的门槛主要在于获取数据,接下来,咱们就来聊聊自助取数的问题。

让技术人员不再是数据的搬运工,释放取数效能

对于传统行业来说,BI部门一般有两项职责,一个是做报表,一个是取数。而取数的工作量远远多于报表的工作量。

一年中做的报表可能就几百张,但是取数,一年可能要取几千次,或者上万次。而大部分传统企业的取数会依赖技术人员,因为他们离数据更近,取数还涉及写代码,所以,如果你是非技术人员,根本不可能基于数据去做探索式的分析。

所以,大量的取数工作就落在了懂技术的数据开发的头上。

靠别人取数,会存在大量的沟通和协作的成本,同时因为公共集市层数据不完善,导致无法基于现有的数据,直接完成取数,需要数据开发加工新的数据,所以耗时会非常的长,一般需要一周时间。高昂的取数成本,压制了取数的需求,也导致探索式的数据分析,根本不可能大规模的使用。

对于数据开发来说,他们更希望自己的工作重心放在建设公共集市层的数据上,因为公共集市层越完善,取数的成本就越低,不需要额外的开发。但是他们忙于临时的取数需求,根本就没有时间和精力去做这些工作。最后就形成了不良循环,越是集市层数据不完善,取数的工作量就会越大(要开发新的模型),越多的时间去临时取数,集市层越没人建设。

这个问题该如何破解呢? 我们研发了一个自助取数平台,叫EasyFetch(意为简单取数)。

这个平台主要有这样几个优点:

  • 用图形化的方式,替代了写SQL的方式;
  • 提供了对业务人员比较友好的业务过程、指标、维度的概念,替换了表、字段;
  • 每个指标的业务口径都能够直接显示;
  • 用户通过选取一些指标和维度,添加一些筛选值,就可以完成取数过程;
  • 界面非常简洁,使用门槛非常低。

在实现层面,我们在数据中台里,加工了多个面向不同业务过程的集市层的表,取数平台会自动根据用户选择的度量和维度,去对应的表中关联多张表进行查询,SQL会自动根据查询进行优化,避免非技术人员调试SQL以及写的SQL 质量非常差的问题。

通过自助取数平台,原先我们数据开发50%的时间都在临时取数,而现在只有10%的时间,在自助取数平台无法满足(需要加工集市层模型)的情况下,帮助用户取数。

同时,这部分的工作也会对集市层模型的不断优化产生促进作用。对于取数效率来说,原先10个数据开发,一周做100个取数需求,已经是濒临极限。而现在,我们一周有1000多次有效取数的需求在自助取数平台完成,取数效率提升了10倍以上。

还有一个有趣的现象,我也想分享给你,就是我们发现,在周末,也有很多人在使用取数平台,经过调研,我们发现很多人在基于数据写周报,这是之前完全无法想象的事情。

最后,我建议你在设计取数平台时,一定要注重简洁、对用户的引导、降低用户的使用门槛。因为我们面临的是非技术人员,我们要拿出做C端产品的姿态去做取数产品。

课堂小结

这就是今天我要讲的全部内容了,你可以看到,数据中台之上,可以有这么多的数据应用场景,数据可以帮助我们实现这么多原先不可能做到的事情。在课程的最后,我想再强调几个重点:

  • 数据中台对BI 赋能体现在指标口径的一致、任务影响分析、数据报表的成本以及基于数据中台的元数据之上的全维度钻取;
  • 数据产品实现了从目标量化,持续跟踪,异常诊断,决策建议,最后到执行的完整数据驱动业务目标达成的闭环;
  • 通过实现面向非技术人员友好的自助取数平台,让数据开发专注于集市模型的构建,可以释放取数的效能,大幅度促进数据的应用范围和深度。

思考时间

今天我主要介绍的都是零售行业数据应用的场景,在其他的行业,比如农业、物流、金融、教育、制造业等等,来谈谈你所在的行业有哪些数据应用的场景,如何来实现业务目标的数据驱动?欢迎在留言区与我互动。

最后,感谢你的阅读,如果这节课让你有所收获,也欢迎你将它分享给更多的朋友。

精选留言

  • 大熊喵

    2020-04-30 10:31:17

    老师,弱弱的问一句,可不可以搭建一个可以给我们学习者使用的中台系统给大家玩玩。
    我感觉很多东西讲得很好,但是我们很难把他们串起来,如果有一个东西给我们使用以下,
    我觉得进步飞速,哈哈哈
    作者回复

    你好,我们在公有云上,有一套对外的体验Demo系统,百度搜索网易大数据,猛犸,可以找到。

    这里面有我文中提到的工具,可以试用体验,不妨去试试看~

    2020-05-13 20:04:47

  • Geek_a96ba2

    2021-09-23 10:54:24

    老师,数据中台公有云体验地址方便发一下链接吗?百度只搜索到了官网需要申请
  • 吴科🍀

    2020-04-29 08:48:16

    我们在互金行业分为,新客运营负责拉新,老客运营促进优质用户复贷,贷后运营对不同阶段的逾期用户进行分析。
    报表分离线报表与实时报表两大块,业务的发展越来越多实时的需求,除了报表展现还有实时指标计算,供贷前中后的决策引擎使用。但是实时计算目前还是依赖技术开发来做,研发成本较高。
    自助取数平台,我们是分析人员自己写SQL去拉数据,优点灵活性好。但由于SQL可控性比较差,经常出现拉数据逻辑复杂或者量大导致卡死的问题,界面化操作应该可以规避这类问题。
    期待,老师后面的课程。
    作者回复

    你好,吴科。

    实时报表这块,我们是基于kafka数据写kudu,然后在kudu上架impala来查询的,因为kudu可更新,所以不存在Merge的过程。BI 基于impala查询实时数据。

    自助取数平台你可以实验一下,对于非技术人员,或者不懂SQL的取数,还是有很大的帮助的,也可以避免SQL比较差的问题。

    2020-04-29 18:42:19

  • 新新

    2020-07-09 08:12:06

    一路听下来,能感觉到郭老师真的是很用心的,每节课的内容都很充实,都有两三节课的量,良心课程,必须多刷几遍,点赞
    作者回复

    感谢、感谢~ 希望对你的工作有所帮助~

    2020-07-20 20:39:11

  • zhuxueyu

    2020-05-30 00:08:04

    老师,你好😊
    其实,我个人会觉得数据应用的四个阶段:
    初级阶段 — BI报表,此阶段就像您说的是为用户提供最基本的可视化固化分析报表;
    中级阶段 — 自主分析,可以灵活进行自助多维度分析系统/工具,获取更多分析结果的可能性。老师提到的自助分析工具便是,诸如powerBI、tableau等都属于此范畴;
    高级阶段 — 智能决策,到了这一阶段,不再需要人工分析决策,智能决策系统会通过后台分析建模,直接将决策的运营内容推送给目标人群(比如智能营销);
    顶级阶段 — 智能预测,前面三个阶段都是用已知数据做出分析决策,而这个阶段却是用已知数据对未来的态势、计划等进行预测。

    个人浅识,抱着多多交流多多学习的心态来的
    作者回复

    说的挺好的,但是其实,一般自助分析,这种产品,不太可能作为第二阶段,往往是数据产品,包括携带一些智能决策功能的数据产品,也就是你所指的第三个阶段,会更在前面,因为只要专业的人(分析师)把这个东西做好,然后给业务人员用就好,业务人员其实并不具备自助分析的能力。而要让每个业务人员都能做到自助分析,那要到第三个阶段。这是我看到的在实际企业落地的过程。

    如果你指的自助分析,是tableau,其实他是BI的范畴,属于第一个阶段。

    2020-06-15 20:06:38

  • leslie

    2020-05-02 09:05:17

    图形实现这方式其实挺不错的,简化了操作;同时降低了风险,勾选后面的操作能做到哪层其实更加不清楚-这就避免了直接对数据库或系统的强行操作导致重大安全隐患。
    互联网行业的场景其实最复杂最细化,严格的权限管理图形化操作其实是避免了一些致命的删除和修改产生巨大隐患。
    作者回复

    对的,图形化的取数,可以降低取数的门槛,同时也可以避免一些比较差的SQL 消耗大量的查询引擎资源,在取数平台层,把SQL优化好。

    感谢你的阅读~

    2020-05-09 17:06:55

  • 西南偏北

    2020-05-02 20:45:15

    数据产品 里面要想实现对所有维度指标的监控分析,感觉还是挺有难度的。就像老师文章里面讲的因为天气原因导致的单车使用量下降的例子,因为这个原因在之前是没有遇到过没有考虑到过的,那在实际的分析设计当中,就要做全维度的分析对比,可能还需要加一些自动化的东西在里面吧?
    希望老师可以分享下具体的实现方式
    作者回复

    你好,aof,

    全维度钻取的前提,必须是数据中台的指标有这个对应的分析维度,但是一个指标的可分析维度是非常多的,对于一个有经验的分析师,他可以快速知道,但是对于一个新人,他其实并不清楚数据中台中,某个指标有哪些可分析的维度,全维度钻取,可以充分利用数据中台的能力。

    但是如果数据中台中,都没有这个指标对应的维度,那肯定是不行的。

    全维度钻取,要解决的问题是,数据中台的分析维度很多,单个分析师,针对某个指标,维度知道的不全,导致可能遗漏了某些关键信息。

    2020-05-09 16:39:24

  • hxb

    2020-05-01 00:03:45

    老师,您好,我想问下自助取数如何和指标系统结合呢?
    还有自主取数的模型是不是需要先设计然后再olap分析?
    作者回复

    HI, 你好

    自助取数,用户是根据指标(度量)、维度去完成取数的。一个很典型的场景,就是用户根据指标,筛选一些维度,比如消费额大于50的会员,会员是维度,消费额是指标。自助取数为了方便取数的人,能够理解指标的计算口径,必须要展示指标系统中指标的口径定义。

    自助取数的模型,当然要现在模型设计中心中完成集市层模型的建模,然后才能配置在自助取数系统中。

    感谢你的提问,祝好~

    2020-05-13 19:44:50

  • nope

    2020-04-29 16:14:48

    老师好,有没有关于数据治理相关的内容分享呢?感觉数据质量很重要,但是从源头上治理就需要业务系统配合,成本巨大也没有经济成效,所以还得依赖于数仓的etl进行数据清洗,但是如何为了长远的企业数据质量来进行合适的治理工作推进呢?
    作者回复

    你好,你也感受到了数据质量问题的重要性了。

    其实,我在前面的留言中,也讲了我们解决业务系统数据库变更导致的数据中台数据质量问题,这个可以通过增加一个协作流程解决,在第12讲中,我会介绍数据中台的协作流程。在源系统数据库变更工单提交的时候,根据其影响的下游表,通知到对应表的负责人,由负责人确认后,才能完成变更。

    感谢你的阅读。

    2020-04-29 19:39:05

  • skybird

    2023-04-05 12:19:06

    太接地气了,实战出真知。
  • 雷小鸿

    2022-07-01 08:41:10

    我们也在做取数平台 分析平台 有指标和参数 但是我们开始当工具在做 对你的观点把取数产品当c端产品做深有感触 各业务用的好 用的顺 代替bi 让非技术人员使用 减少分析人员分析 直接让业务自助分析是我们现在的目标。
  • IvanLeung

    2021-11-06 09:08:48

    数据中台各种好,但是中小企业,从0开始,既要顾及快速产出,又要兼顾中台构建,因为企业不可能等数据开发弄个一年半载之后再提数据需求,老师有没有好的方法做到同时兼顾
  • knightray

    2021-01-23 15:30:40

    请问如果BI报表的实现手段是各种BI工具,比如powerBI、tableau等,数据产品的实现手段只能是通过定制开发来完成吗?是否也可以通过BI工具来完成对业务过程的监控、预警、诊断和决策建议的闭环呢?
  • gd

    2020-04-29 16:55:14

    可视化的图形查询界面怎么做的呀,是否可以多分享一些
    作者回复

    你好,你指的是EasyFetch 自助取数的可视化查询页面么,我在内容中有贴一个图,其实单纯界面来看,并不复杂,用户主要是通过勾选一些指标和维度,做查询。你可以具体参考一下文章中的图片。

    感谢你的阅读~

    2020-04-29 18:26:57