05 | 如何统一管理纷繁杂乱的数据指标?

你好,我是郭忆。

上一节课,我讲到了各种类型的元数据,这些元数据有什么用?跟我们的数据中台又有什么关系呢? 其实,元数据在指标管理、模型设计、数据质量和成本治理四个领域都发挥着作用,而这些领域构成了数据中台OneData 数据体系。从今天开始,我将带你逐一了解元数据在上述领域的应用,首先是指标管理。

指标是一种特定类型的元数据,公司的运营会围绕它进行工作,可以说,它是业务和数据的交汇点。指标数据能不能用,会影响他们的日常工作。来看一件我身边发生的事儿。

在电商业务中,新用户销售额是考核市场活动拉新效果的重要指标。马漂亮(化名)是市场部门的数据分析师,某一天,她要给CEO提供一份数据报告,报告中有一项指标是“新用户销售额”。孙美丽(化名)是会员中心的运营,她每天都会给CEO提供每日的新用户销售额数据。

结果有一天,CEO看了这两份报告后发现,同一日的新用户销售额数值相差很大,他判断数据出了问题,责令两个部门的负责人进行排查。排查后发现,市场部门对新用户口径的定义和会员中心不一样:

  • 市场部门认定新用户是首次下单并完成支付的用户;
  • 会员中心认定新用户是当日新注册用户。

也就是说,市场部门认定的新用户中,可能有之前注册但是没有下过单的客户;而会员中心只包括当日注册并完成下单支付的用户。其实,在日常工作中还有很多类似的问题。

造成上述问题的根源是因为指标口径不一致,而你要构建全局一致的指标口径,输出企业的指标字典。

指标混乱现状

从2018年年末开始,网易电商数据中台团队对电商业务的核心指标进行了全面的盘点和梳理,为的就是解决指标口径不一致的问题。原先800个指标,最终梳理完成427个指标,在梳理过程中,我总结了7个常见的指标问题,希望你能对照着看一下,自己是否也存在类似的情况。

你可以编个口诀记忆一下,比如:

同名不同径,同径不同名。
口径不清晰,口径有错误。
命名难理解,计算不易懂。
来源不清晰,同部不同径。

第一,相同指标名称,口径定义不同。

我开篇说的就是这个问题,不同的部门对相同的“新用户销售额”,因为口径定义的差别,导致指标数值的不一致。而这种情况是指标管理中最容易出现的情况。口径不一致,数据也就没办法横向对比,失去了数据辅助商业决策的意义。

第二,相同口径,指标名称不一样。

这种情况与上面相反,比如发放优惠券是电商常见的促销手段,现在你有两个数据产品:

  • 一个是经营大脑,主要展示的是企业日常经营活动健康度的核心指标,它有一个指标叫“优惠券抵扣金额”;
  • 一个是市场360,主要是展示市场活动效果衡量的指标,它也有一个指标叫“优惠券消耗金额”。

其实,两者的口径定义并没有区别,但是指标名称不同,这会让使用指标的人疑惑,是不是同一个指标,计算逻辑是否一致?数据是否可以横向对比?

第三,不同限定词,描述相同事实过程的两个指标,相同事实部分口径不一致。

这个问题该如何理解呢? 来看一个例子。

黑卡会员购买用户和非会员购买用户数,它们描述的都是用户下单购买商品的相同业务过程,记录的都是购买商品的事实,只是一个限定词是黑卡会员,一个限定词是非会员。

按照一致性原则,虽然是两个指标,但是对于购买用户数这个相同的事实部分,业务口径、计算逻辑应该是一致的,但是现实情况却可能不是这样:

  • “黑卡会员购买用户数”的口径定义是计算周期内去重的(重复购买的用户只算一个),下单并且支付成功的用户数量;
  • “ 非会员的购买用户数”的口径定义是计算周期内去重的,下单并且支付成功,排除关单(“关单”是指在用户在下单购买成功后,取消订单)的用户数量。

你能看到,对于购买用户数,这两个指标的口径是不一致的,一个包含关单,一个不包含关单。

第四,指标口径描述不清晰。

在梳理过程中,我们还发现,有些报表上的指标口径描述的比较笼统。比如“关单金额”,口径描述“关闭订单的金额”。不同人的理解可能不一样,有的人会认为是支付成功后关闭订单;也有可能是支付完成前,取消订单。描述不清晰,就会让人们对数据的理解产生歧义。

第五,指标口径描述错误。

在流量分析数据产品中,有“7日uv”这个指标,口径的定义是7日内日均uv。根据口径描述的计算逻辑,应该是最近7日,每日uv相加除以7取平均值。显然,这个定义在业务场景中是有问题的,正确的7日uv的口径定义应该是7日内有登录过,去重的用户数。

第六,指标命名难于理解。

我们在梳理促销业务过程的指标时,有一个数据产品的指标名称是“ROI”,口径定义优惠券销售额/优惠券成本。ROI其实是投资回报率的简称,在电商业务场景中,除了优惠劵,商品降价促销都可以计算ROI,所以比较好的命名应该是(商品|类目|通用)优惠劵ROI。所以,指标命名不规范的话,从指标名称中很难看出指标描述的业务过程。

最后,指标数据来源和计算逻辑不清晰。

如果指标数据来源不清楚,一旦这个指标数据异常,就很难去做溯源。另外,有些指标的计算逻辑比较复杂,仅仅凭借业务口径一段描述,使用指标的人还是无法理解这个指标的计算逻辑,这个时候就需要有一些伪码或者SQL描述。

如何规范化定义指标

那么如果你面临这些问题,该如何规范化定义指标呢?我提供给你一些经验,希望你能从中学习到如何高效、规范化的管理指标。

首先,面向主题域管理。

为了提高指标管理的效率,你需要按照业务线、主题域和业务过程三级目录方式管理指标(业务线是顶级目录)。

在网易,电商、游戏、音乐、传媒、教育都是不同的业务线。在业务线之下,是主题域,指标中的主题域与数仓中的概念是一致的,划分标准最好是跟数仓保持一致(数仓主题域的划分,我会在06讲详细讲述)。在主题域下面还有细分的业务过程,比如对于交易域,细分的业务过程有加入购物车、下单、支付。

其次,拆分原子指标和派生指标。

为了解决前面提到的,“黑卡购买用户数”和“非会员购买用户数”,这两个指标对购买用户数口径定义不一致的问题,我们需要引入原子指标和派生指标的管理方式。那么什么是原子指标,什么是派生指标呢?

统计周期、统计粒度、业务限定、原子指标,组成派生指标,所以原子指标可以定义为不能够按照上述规则进一步拆分的指标。

在例子中,你可以这样理解:

  • 购买用户数是原子指标,原子指标的口径定义是“计算周期内去重的,下单并且支付成功的用户数量,包括关单”;
  • 黑卡会员和非会员都可以认定为业务限定词;
  • 统计粒度是商品粒度的;
  • 统计周期是30天。

这样30天内,商品维度的黑卡会员购买用户数和30天内商品维度的非会员购买用户数就作为两个派生指标存在,但是他们继承自同一个原子指标。

除此之外,还需要指标命名规范。

指标命名规范要遵循两个基本的原则:

  • 易懂,就是看到指标的名称,就可以基本判断这个指标归属于哪个业务过程;
  • 统一,就是要确保派生指标和它继承的原子指标命名是一致的。

除此之外,指标应该有指标名称和指标标识(或者叫英文名)。

对于原子指标,指标名称适合用“动作+度量”的命名方式(比如注册用户数、购买用户数),标识的命名用英文简写或者汉语拼音缩写比较好。

对于派生指标,指标名称应该严格遵循“时间周期+统计粒度+修饰词+原子指标”的命名方式,标识命名要用“修饰词_原子指标_时间周期”的方式。

第四,关联的应用和可分析维度。

对于使用指标的人(运营、分析师)了解了这个指标的口径定义之后,下一步就是要看指标的数值。所以,在全局的指标字典中,还应该有指标被哪些应用使用,这样方便去对应的数据产品或者报表上查看指标的数值。除此之外,还应该有指标的可分析维度,方便分析师从不同的维度分析指标的变化趋势。

最后一个是分等级管理。

那这么多指标,数据中台管的过来么?是的,确实管不过来,因为不仅仅是数据中台会产出一些公共核心指标,业务部门也会创建一些专属业务部门内的指标。那面对这么多指标,如何管理呢?以我的经验,你可以按照以下原则区分等级,来管理指标。

  • 一级指标:数据中台直接产出,核心指标(提供给公司高层看的)、原子指标以及跨部门的派生指标。
  • 二级指标:基于中台提供的原子指标,业务部门创建的派生指标。

不同等级的指标意味着管理方式不同:

  • 一级指标,要确保指标按时、保证质量产出,指标创建由中台负责;
  • 二级指标,允许业务方自己创建,中台不承诺指标的产出时间和质量。

现在你了解如何管理指标了吗? 我建议你在学完这部分知识以后,结合自己所在的业务,找一些指标,试着按照上面的方法实践一下,这样掌握得会加更深刻。

指标系统

在了解如何管理指标之后,我们还需要一款好用的工具,帮助我们落实管理方法。我观察到,很多公司喜欢用Excel管理指标,觉得Excel 上手容易,编辑比较方便。在我看来,Excel并不是一个适合指标管理的工具,有这样几个原因:

  • 难于共享;
  • 缺少权限控制;
  • 无法动态更新;
  • 指标无法跟数仓的模型动态关联。

所以,我们需要一个面向指标的管理系统。

指标系统是基于元数据中心构建的一个指标管理工具,它从元数据中心自动同步数仓的主题域和业务过程,按照规范化定义创建指标。

新创建的指标同时会以特定类型的标签,下沉到元数据中心对应的表和字段上,这样在数据地图上就可以搜索到表关联的指标。

指标系统还提供了按照指标名称、标识、业务口径的检索功能。

既然指标系统能够实现指标的规范化定义,帮你解决“如何系统化、规范化定义指标”的问题,那接下来我们的重点就是如何基于指标系统构建全局的指标字典,因为这是指标治理的最终结果。

基于指标系统构建全局的指标字典

指标治理的最终结果,就是要形成一个全局业务口径一致的指标字典。让使用指标的人,可以通过指标字典,快速了解指标的业务含义和计算过程,不会对指标口径产生歧义。

数据中台团队必须要有一个专门负责指标管理的人或者小组(一般不超过3个人),最好是数据产品经理来负责,如果你的公司没有这个职位,也可以让分析师承担(前提是分析师必须属于中台团队)。

构建全局的指标字典分为两个场景:

  • 一个是面对一个新的指标需求,如何基于指标系统完成指标开发流程;
  • 另外一个是面对已经存在的,混乱的指标现状,如何进行全局梳理。

先来看第一个场景。

这个图详细地描述了新建指标的流程,流程中参与的各个角色。我在这里想强调几点:

  • 指标需求评审,需要需求方、数据开发、应用开发都参加。评审首先要确认这是不是一个新的指标,并明确它是原子指标还是派生指标。评审的目的就是要大家达成一致。

  • 评审的结果一种是不需要开发,是一个已经存在的指标,直接可以通过设计逻辑模型(具体我会在数据服务章节讲),发布接口,获取数据。第二种就是需要开发。前者交付时间短,后者需要排期,交付时间长。

  • 上面我提到指标有一级和二级之分,这个流程适用于一级指标,对于二级指标,可以不需要评审,当然开发也是由业务方开发和发布上线。

接下来,我们来看第二个场景。

除了新建指标的流程,对于很多公司,已经有一定的大数据业务,但是还不能算是一个中台,那这部分公司该如何进行一次全局的指标梳理呢?我认为应该有以下几个步骤:

  1. 成立以数据产品或者分析师为核心的1~3人的工作小组,专门负责指标的全局梳理;
  2. 制定指标梳理计划,明确指标梳理目标,覆盖多少个业务线,与业务方共同制定时间计划;
  3. 对于每一个业务线,需要对还在使用的数据报表、数据产品进行盘点,这里顺便可以把没用的报表和数据产品应该下线;
  4. 对于每一个报表和数据产品中涉及的指标,按照以下格式进行收集;

  1. 对于收集的指标,明确业务口径,对于口径相同的,应该去除重复,关联的应用应该合并,此时以我的经验,可以过滤掉相当一部分;
  2. 根据指标业务口径,明确指标所属的主题域、业务过程;
  3. 区分指标类型,对于派生指标,要明确指标的统计粒度、修饰词、时间周期以及关联的原子指标;
  4. 按照指标系统对指标的规范化定义,把整理好的指标录入指标系统。

通过全局的梳理和新建指标流程的管控,你就可以构建一个全局一致的指标字典了。

课堂总结

本节课,我带你了解了如何构建全局一致的指标字典,通过系统+规范的方法,帮你解决了数据中台指标一致性管理的难题,我想再强调几个点:

  • 数据中台直接产出的核心指标必须实施强管理,由数据中台团队的专人或者小组负责,最好是数据产品经理的角色。
  • 指标的管理必须结合系统+规范的治理方法,明确每个角色的职责,通过系统化的方法实现。
  • 不同的两个指标描述的相同业务过程中的相同事实部分口径不一致,是指标梳理过程中最常见的问题,需要通过拆分原子指标和派生指标的方式解决。

思考时间

在课程的最后,还是留给你一个思考题。在一个企业的指标字典中,你觉得应该原子指标多,还是派生指标多?原因是什么呢?欢迎在留言区留言。

最后,感谢你的阅读,如果这篇文章让你有所收获,也欢迎你将它分享给更多的朋友。

精选留言

  • Geek_e1bb7a

    2020-04-15 16:50:24

    郭老师,我想问一个有关原子指标的问题,基金公司的基金规模 这个算不算原子指标?因为他每天都在变,你不加上限定的日期根本不行
    作者回复

    基金规模,这个应该是一个原子指标。

    我想跟你强调一个点,你听了就明白了。你有没有想过,为什么要区分原子指标和派生指标呢? 全当原子指标,不就好了,这样能确保每个指标的业务口径都在指标系统里面强管理。

    但是这样的后果,是指标的管理工作量太大了,而且整个数据分析的瓶颈会压在指标的管理上。所以就想出来一个方法,能不能把原子指标中,不涉及口径的指标,可以拆出来,而这些就是派生指标。

    派生指标和原子指标有明确的区分,派生指标是时间周期+统计粒度+修饰词+原子指标。 时间周期和统计粒度并不涉及指标的口径。

    所以关键就在了修饰词这个上面,到底哪些修饰词是带口径的,哪些是不带口径的,我觉得难度就在这个上面。比如新用户销售额,这个是原子还是派生,很多人会误把他作为派生,其实新本身这个词是带口径的,新的定义大家可能是不一致的,而且也没有新对应的维度,所以我们会把新用户销售额作为原子指标。

    那什么修饰词是不带口径的呢? 比较常见的就是一个维度属性值组成的修饰词,比如黑卡会员销售额、母婴销售额这种,他们本身对应的维表的,所以大家对维度的理解是一致的。

    针对你的这个Case,基金规模,这个属于原子指标。加上日期,比如最近一天基金规模,那这个属于派生指标。派生指标一定是要根据某个原子指标来派生的,所以要先有原子指标基金规模的口径定义。

    感谢你的阅读,期待与你在留言区再次相遇~

    2020-04-16 10:20:50

  • 许长贵

    2020-05-05 00:21:57

    我认真的读完了这一篇的内容,感觉受益颇多,我看了一下下面的一些留言,很多是关于原子指标和派生指标的划分不是很明确,我斗胆说一下我的理解,指标定义里面需要区分口径的,并且没有其他任何和口径相关的修饰词,那么就可以作为原子口径,有原子口径,并且有任何和口径无关的的修饰词的指标就是派生指标
    作者回复

    你好,长贵,关于指标管理,尤其是原子指标和派生指标拆分这部分的内容,其实确实理解起来比较有难度。

    关于你的理解,我认为是对的。但是在具体实施过程中,有没有口径,跟口径相不相关,这部分其实比较难判断。
    我结合自己的经验,有一个比较容易判断的标准,就是如果修饰词有对应的维表,那就可以作为派生指标,如果修饰词没有对应的维表,那就作为原子指标管理。

    举个例子来说吧,新会员消费额,新没有对应的维表,就不能作为派生指标。黑卡会员消费金额,有黑卡对应的会员类型维度,所以黑卡会员消费金额是派生指标。这样就比较容易落地了。

    感谢你的阅读~期待与你再留言区再次相遇~

    2020-05-09 16:32:05

  • richard

    2020-06-02 08:45:44

    老师,请教下,关于指标的在系统中的唯一性是怎么实现的,看文章说是新建一个指标需要人工评审,唯一性是在评审的时候人工去确认吗,还是说走什么系统的方法进行检验,谢谢😜
    作者回复

    这个问题问的蛮好的,如何帮助指标管理者快速的发现这是一个重复的指标,对于提高指标系统的管理效率很关键。

    我们提供了一个文本相似性检测的功能,基于word2vector实现,可以把相似指标定义,业务口径的指标找出来,然后由人来判断是否是重复的。

    2020-06-15 20:29:22

  • 麻婆豆腐

    2020-04-14 08:49:49

    请教下郭老师,“指标管理必须跟元数据中心关联起来,从元数据中心自动同步数仓的主题域和业务过程,同时会以特定的类型标签下沉到元数据中心对应的表和字段上,可以应用到数据地图上关联了表和指标“ 这段话看起来应该是跟数仓动态关联的,但是我看后面指标录入的时候又是手动录入的,不是很明白是手动维护呢?还是自动同步的?如果是跟数仓动态关联的话是怎么关联的呢?
    作者回复

    指标业务口径的录入,是指标管理人员在指标系统内完成的,然后指标和数据模型,也就是表的关联,是在模型设计中心完成的。

    指标与表关联后,指标会作为标签,落到元数据中心中,然后在数据地图上,查一张表的时候,就可以看到这个表上哪些字段对应的是哪些指标啦。

    感谢你的阅读,为了让你更全面的了解整个过程,我在第12讲中,会从研发的角度,把整个各个环节串联起来,带你走一遍整个流程。

    2020-04-16 11:00:29

  • 没什么大不了

    2020-06-10 08:37:45

    有一个业务场景:收件量,对应两种口径:结算口径和操作口径,结算口径和操作口径来源同一个dwd表,那么这个收件量作为原子指标,结算口径和操作口径作为派生指标吗?还是说结算口径和操作口径都做为原子指标呢?
    作者回复

    派生指标是基于原子指标之上,通过构建派生词+时间周期,构建出来的。 派生词,我们一定以维表的属性值作为派生词,比如结算口径收件量和操作口径收件量,我们要先确定,是否有结算口径和操作口径对应的维表。一般来说,没有结算口径和操作口径的维表,所以会将结算口径收件量和操作口径收件量作为两个原子指标来处理。

    这里也类同,前台毛利率、后台毛利率,虽然都有毛利率这样的字眼,但是他们两个都是原子指标。

    2020-06-15 19:54:44

  • shen

    2020-09-13 02:46:50

    老师你好,衍生指标 支持嵌套么,有些xxx率的指标 组成非常复杂,是5+ 指标嵌套而成,在这样的情况下有什么好的建议么
    作者回复

    xxx率的指标,可以定义为复合指标,即由多个原子指标,按照一定的计算规则,组成。复合指标,最重要的是确保原子指标的口径是一致的。

    2020-09-29 19:48:46

  • 沙漠里的骆驼

    2020-06-17 13:14:03

    原子指标是不是一般无法产出具体的指标数据,而仅仅是一个定义?
    作者回复

    对的

    2020-07-20 20:47:09

  • ningkun

    2020-04-23 21:39:17

    标签与指标有什么区别?对于一些营销类的数据应用会基于客户的各种标签进行组合出客群,那么这些标签在数据中台的来源是指标吗?是基于dw层的数据模型单独搞一套客户粒度的标签层吗?
    作者回复

    你好,我来回到一下这个问题。

    从问题中来看,你说的标签,是业务层面的标签,比如中年女性,消费金额大于100的人,这些标签都对应了一个数据集。

    业务标签不是指标。业务标签是具体的数值,对应的是一个确定的数据集。

    文章中指标作为一类标签,这个标签不是你描述的业务标签,而是元数据的标签,它描述的是数据的属性,并不对应一个确定的数据集。你比如,黑卡会员消费金额,这个不对应一个固定的数据集合。

    标签数据一般都是根据一些指标筛选出来的维度,一个标签一般对应的是一条SQL或者一个固定的表中的数据。一般不存在独立的标签层,可以直接放到集市层中。

    感谢你的阅读~

    2020-04-29 18:50:34

  • 西南偏北

    2020-04-13 23:42:43

    呆在一个被不懂大数据又装懂而且瞎指挥的公司里,苦不堪言😭
    作者回复

    积极布道,积极洗脑,引导公司不断改进。

    2020-04-16 10:24:02

  • 蘇上方

    2020-08-31 02:00:45

    假设派生指标是直接基于两个表的数据计算出来的,并没有落盘,那这个指标是怎么打在这个表上呢
    作者回复

    这个问题问的挺好的, 有一些指标,其实并没有实际落盘,而是间接计算而来的,这种情况,我们有一种间接关联指标,会把相关联的表字段跟这个指标关联起来,并且关联方式为间接关联。这种也能够通过这个指标找到对应的表,根据表也可以知道影响了哪些指标。

    2020-09-07 19:09:53

  • Geek_f071bc

    2020-04-17 18:04:11

    统计周期、统计粒度、修饰词、原子指标,组成派生指标。如何区分是统计粒度和修饰词的区别?
    拿这个例子来说:“30 天内,商品维度的黑卡会员购买用户数“,商品维度是统计粒度,是不是也可以理解成修饰词呢?因为商品可以对应一个维度。
    作者回复

    不是啊,统计粒度是指按照什么粒度聚合的,一般是指表的主键,对应的SQL里面的Group by。修饰词,你可以理解为是某个维度属性值。对应的是SQL里面的where。

    感谢你的阅读,期待与你再次相遇~

    2020-04-19 22:06:15

  • leslie

    2020-04-13 03:57:11

    原子指标?这大概源自不可分割性吧,我们在数据系统设计时会去强调的原子性。其实老师在提出源自指标多还是派生指标多的时候可以去反向思考一下另外一个问题,我们在数据系统设计时是复合索引多还是单值索引多?
    哪个多少并不重要重要的是如何合理去定义与规范?定位的规范性和合理性这才是痛点。
    谢谢老师今天的分享,期待后续课程。
    作者回复

    感谢你的留言,也感谢你的认可。

    我来谈谈我的想法哈。其实你说的是对的,哪个多少并不重要,关键是合理和规范。

    我之所以提这个问题,其实这个东西可以作为一个粗略的看看,你当前的指标管理是否规范。因为我看到很多指标管理过程中,基本都是原子指标,导致指标管理成为瓶颈。所以我提这个问题,是想让大家,拿这个可以看看自己当前指标管理中,原子指标的比例,如果很高,说明指标管理是有问题的。

    感谢你的阅读,期待与你再次相遇~

    2020-04-19 22:48:07

  • 风轻云淡

    2020-07-12 23:43:49

    老师,你好。指标是单独存在某一个或多个表里吗?如果存的话是放在数仓的那一层?
    作者回复

    你好~ 指标不是单独存在一个表,每个表中都可以有指标。指标一般出现在汇总层、集市层和应用层中~

    感谢你的提问~祝好~

    2020-07-20 20:28:37

  • Geek_dde3ac

    2020-06-11 15:10:37

    郭老师,是否有开源的指标管理系统呢?
    作者回复

    你好~目前没有看到哦。指标系统的核心是指标管理的方法论,方法论最重要的在于落地,也就是说,指标系统向上,要能够跟BI 打通,数据报表能够直接引用指标系统的指标口径,向下,指标系统要能够和模型建立关联关系,所以指标系统并不仅仅只是一个孤立的登记系统,指标系统承载的业务数据需求,也是业务看数据的主要对象。

    2020-06-15 19:47:34

  • 小庄

    2020-04-30 18:02:57

    请教下郭老师,“指标管理必须跟元数据中心关联起来....同时会以特定的类型标签下沉到元数据中心对应的表和字段,”当派生指标下沉到对应的模型中的表和字段时,那必然需要对应到具体的事实、维度表。然而常见的情况是一些指标的维度实际上是来自某些计算出来的事实,而他的度量事实又可能来源一张维度表,这种情况在跟元数据中心关联时是如何处理的?或者在元数据中心中是如何管理事实表和维度表的?目前的想法是事实与维度信息在两张表维护,在维护时根据其在指标统计时的角色放进对应的表中,如dw命名开头的事实表,如果在某些指标计算是作为维度存在,依然将他维护到维度信息管理表中,作为某个维度的拓展信息表,这种方式是否有什么问题?
    作者回复

    你好,其实对于元数据中心,并没有区分事实表还是维度表,因为这是模型设计中心里面的概念。对于派生指标,会直接作为一个标签,打在事实表的某个字段上,并不会根据派生指标包含的内容进一步拆分。

    在元数据中心中,不管是事实表,还是维度表,都是表。

    我们把标签打在表上,主要目的,是当表的产出数据有问题,我们可以知道影响了哪个指标,同时我们也可以快速找到这个指标存在哪些表中。

    2020-05-13 19:42:08

  • hxb

    2020-05-01 00:09:47

    老师,您好,想问下指标系统等指标如何对外服务呢?第二就是如果是派生指标如何生成呢?是先生成然后固化成物理表?还是直接通过原始表实时计算?
    作者回复

    HI,你好,
    指标系统,对外提供服务,主要有两种,第一种是方便想快速了解指标体系的分析师、运营可以在指标系统中查阅指标,这种数量比较少。更常见的是一种,是在BI报表或者数据产品中,直接引用指标系统的口径定义,用户hover到某个指标上的时候,可以直接展示指标系统的口径定义。

    派生指标,是先在指标系统登记,然后在模型设计中心中,在模型设计过程中,与表进行关联,然后模型开发完成后上线,指标就加工出来了。派生指标一般存在与汇总层数据,一般是根据明细层度量数据,结合维度计算而来的。

    感谢你的留言,祝好~

    2020-05-13 19:47:51

  • Geek_497bbf

    2021-06-24 16:33:27

    老师,您好。请问您课程中提到的网易的指标管理系统,是否可以给我们提供一个demo账号,让我们可以深入了解一下呢?
  • Weehua

    2020-07-14 14:41:51

    看到网易的系统上有3种类型的指标:原子指标,派生指标,复合指标。这个复合指标怎么理解?比如一个指标XXX率,是两个派生指标相除,这个指标是复合指标?
    作者回复

    对,两个或者多个指标,通过一定规则,计算出来的,即为复合指标~

    感谢你的提问,祝好~

    2020-07-20 20:29:23

  • 2020-05-26 07:28:16

    比如购买用户数,统计粒度是商品,那么统计粒度是不是可以多个,比如增加地区维度,那么地区如果全面按省市县三级,全国有几万个县,那派生指标是不是就是几万个呢?
    作者回复

    不是具体的县市,统计粒度是指的县粒度的统计,市级别的粒度统计。

    2020-06-15 20:21:44

  • 电光火石

    2020-05-21 16:17:23

    老师好,这两节看了之后有一些疑问:
    1. 数仓一般有ods、dwd、dws、ads层(有些可能更多层),那我们的元数据是所有层都需要覆盖到吗?
    2. 指标是在ads层吗,还是可能通过的dwd、dws或者ads层再计算出来的?如果是在ads层,那么可能会跟元数据有overlap
    3. 指标在划分的时候,先按照业务线,再按照主题、业务过程,那么有些指标可能会夸业务线,这一类的怎么处理?放一类跨业务线,还是类似于打标签,同时打上多个业务线的标签吗?
    谢谢了!
    作者回复

    你好,我来回答一下你的几个问题:
    1. 分层通常是以标签的形式,打在表上的,对应的是每个表对应的分层,所有的分层都必须要管理起来。

    2. 指标dwd,dws,ads ,dm都有可能涉及到,一般原子指标在dwd,派生指标在dwd,ads和dm中。

    3. 如果涉及到跨业务线,一种处理方案,是两个业务线都有这个指标,还有一种方案,就是单独搞一个公共的指标域。这两种处理方式我都见过,通常来说,两个业务线都有这个指标会更利于指标的检索。

    感谢你的提问~希望我的回答能够打消你的疑问~祝好~

    2020-05-25 20:16:10