03 | 数据中台建设三板斧:方法论、组织和技术

你好,我是郭忆。

在上一讲中,我带你了解了什么样的企业适合建数据中台,可能有的同学会说:你可真的戳中我了,我们现在就面临这个问题,可是知道要转型,要建设数据中台,却不知道要咋做,怎么办呢?

现在有很多讲“如何建设数据中台”的文章,大家的观点各不相同:

  • 有的观点说,数据中台是一种数据建设的方法论,按照数据中台设计方法和规范实施就可以建成数据中台了;
  • 也有观点认为,数据中台的背后是数据部门组织架构的变更,把原先分散的组织架构形成一个统一的中台部门,就建成了数据中台;
  • 除此之外,你可能还听到过一些大数据公司说,他们可以卖支撑数据中台建设的产品技术。

那数据中台到底如何建设呢?咱们先不着急回答这个问题,而是看一个例子。

你肯定见过盖房子,盖房子之前,是不是先得有设计图纸,知道如何去盖这个房子?然后还必须要有一个好用的工具(比如水泥搅拌机、钢筋切割机)帮你盖好这个房子。当然了,盖房子离不开一个靠谱的施工队伍,这里面涉及很多角色(泥瓦工、木工、水电工等等),这些人必须高效协作,最终才能盖出一个好的房子。

如果我们把建数据中台比作是盖房子,那么设计图纸就是数据中台建设的方法论;工具是数据中台的支撑技术;施工队伍就是数据中台的组织架构。这三者缺一不可。

这一讲我就以全局的视角,让你从宏观上了解如何建设一个企业级的数据中台。

数据中台建设方法论

早在2016年,阿里巴巴就提出了数据中台建设的核心方法论:OneData和OneService。经过这么多年,很多公司都进行了实践,但你很难找出一个准确的定义去描述这些方法论,而我结合自己在网易数据中台建设的经验,对方法论进行了系统化的定义,你可以借鉴参考一下。

OneData

用一句话定义OneData的话,就是所有数据只加工一次。 这个概念具体是啥意思呢?我们来看一个例子。

电商业务建设数据中台之前,每个部门内部都会有一些小的数仓去完成本部门的数据分析需求。

有一天,供应链团队接到一个数据需求,那就是计算“商品库存”指标,供应链的运营需要根据每个商品的库存制订商品采购计划,部门的数据开发从业务系统同步数据,进行数据清洗、聚合、深度加工,最终,产出这个指标花了1周的时间。

而恰逢全年最重要的大促节日,市场部门也需要根据每个商品的库存,制订商品的促销计划。该数据开发接到这个紧急的需求(与供应链团队类似)从需求开发到上线,也足足花费了1周的时间。同部门的运营会抱怨说,为什么数据需求开发这么慢,根本无法满足大促期间高频的市场运营决策。而对公司而言,等待1周意味着遭受巨大损失,该促销的商品没有促销,不该促销的却低价卖了。

如果你是这个公司的老板, 肯定会问,既然供应链团队已经计算出来了商品库存的数据,为什么市场部门不直接用,还要从头再计算一遍呢?这个看似很傻的行为,却处处出现在我们日常的数据建设中。

而数据中台就是要在整个电商业务形成一个公共数据层,消灭这些跨部门的小数仓,实现数据的复用,所以强调数据只加工一次,不会因为不同的应用场景,不同的部门数据重复加工。

那具体来说,如何去做才能实现数据只加工一次呢?有这样五点:

试想一下,现在你构建了数据中台,但存在几万张表,同时又有几十个数据开发维护这些表,如何来确保这些表的管理效率? 我建议你选择划主题域。

我们可以将这几万张表划到不同的主题域中,比如在电商业务中,商品、交易、流量、用户、售后、配送、供应链都可以作为主题域。好的主题域划分,是相对稳定,尽可能地覆盖绝大多数的表。

除此之外,还要对表的命名进行规范化统一, 表的名称中最好能够携带表的主题域、业务过程、分层以及分区信息。比如,对于仓储域下的一张入库明细表,规则命名可以这样:

接着你还必须构建全局的指标字典,确保所有表中相同指标的口径必须一致(这部分内容我会在06讲细说)。

另外,为了实现模型的复用,数据中台适合采用分层的设计方式,常见的分层包括:ODS 原始数据层,DWD 明细数据层,DWS 轻度汇总数据层,ADS/DM 应用数据层/数据集市层。最后,数据中台的数据必须尽可能的覆盖所有的业务过程,数据中台中每一层的数据也要尽可能完善,让数据使用者尽可能的使用汇总后的数据。

OneData 体系的目标是构建统一的数据规范标准,让数据成为一种资产,而不是成本。资产和成本的差别在于资产是可以沉淀的,是可以被复用的。成本是消耗性质的、是临时的、无法被复用的。

OneService

OneService,数据即服务,强调数据中台中的数据应该是通过API接口的方式被访问。

这里我想提个问题:为什么数据一定要通过API 接口的方式被访问,不通过API 接口,直接提供数据表给用户又存在哪些问题呢?

如果你是数据应用开发,当你要开发一个数据产品时,首先要把数据导出到不同的查询引擎上:

  • 数据量小的使用MySQL;
  • 大的可能用到HBase;
  • 需要多维分析的可能需要Greenplum;
  • 实时性要求高的需要用到Redis;

总的来说,不同的查询引擎,应用开发需要定制不同的访问接口。

如果你是一个数据开发,当某个任务无法按时产出,发生异常时,想要了解这个表可能会影响到下游的哪些应用或者报表,但是却发现单纯依赖表与表的血缘无法触及应用,根本无法知道最后的这些表被哪些应用访问。与此同时,当你想下线一张表时,因为不知道谁访问了这张表,无法实施,最终造成了“上线容易,下线难”的窘境。

而API 接口一方面对应用开发屏蔽了底层数据存储,使用统一标准的API接口查询数据,提高了数据接入的速度。另一方面,对于数据开发,提高了数据应用的管理效率,建立了表到应用的链路关系。

那如何来实现数据服务化呢?

屏蔽异构数据源:数据服务必须要能够支撑类型丰富的查询引擎,满足不同场景下数据的查询需求,常见的有MySQL、HBase、Greenplum、Redis、Elasticsearch等。

数据网关:要实现包括权限、监控、流控、日志在内的一系列管控能力,哪个应用的哪个页面访问了哪个模型,要做到实时跟踪,如果有一些模型长时间没有被访问,应该予以下线。使用数据的每个应用都应该通过accesskey和secretkey实现身份认证和接口权限的管理。另外,访问日志可以方便在访问出现问题时,加快排查速度。

逻辑模型:从用户的视角出发,屏蔽底层的模型设计的实现,面向用户提供逻辑模型。什么是逻辑模型呢?熟悉数据库的同学应该知道,数据库中有一个视图的概念,视图本身并没有真实的数据,一个视图可以关联一张或者多张表,每次在查询的时候,动态地将不同表的查询结果聚合成视图的查询结果。逻辑模型可以类比视图,它可以帮助应用开发者屏蔽底层的数据物理实现,实现相同粒度的数据构造一个逻辑模型,简化了数据接入的复杂度。

性能和稳定性:由于数据服务侵入到用户的访问链路,所以对服务的可用性和性能都有很高的要求,数据服务必须是无状态的,可以做到横向扩展。

OneService 体系的目标是提高数据的共享能力,让数据可以被用得好,用得爽。

数据中台支撑技术

讲完方法论,我们接着要来讲数据中台的支撑技术,因为一个好用的工具,可以让你的数据中台建设事半功倍。

这个图完整地描述了数据中台支撑技术体系,它的底层是以Hadoop为代表的大数据计算、存储基础设施,提供了大数据运行所必须的计算、存储资源。

以HDFS为代表的分布式文件系统,以Yarn/Kubernates为代表的资源调度系统,以Hive、Spark、Fink为代表的分布式计算引擎,都属于基础设施范畴。如果把数据中台比作是一个数据工厂,那可以把它们比作是这个工厂的水、电。

在Hadoop之上,浅绿色的部分是原有大数据平台范畴内的工具产品,覆盖了从数据集成、数据开发、数据测试到任务运维的整套工具链产品。同时还包括基础的监控运维系统、权限访问控制系统和项目用户的管理系统。由于涉及多人协作,所以还有一个流程协作与通知中心。

灰色的部分,是数据中台的核心组成部分:数据治理模块。它对应的方法论就是OneData 体系。以元数据中心为基础,在统一了企业所有数据源的元数据基础上,提供了包括数据地图、数仓设计、数据质量、成本优化以及指标管理在内的5个产品,分别对应的就是数据发现、模型、质量、成本和指标的治理。

深绿色的部分是数据服务,它是数据中台的门户,对外提供了统一的数据服务,对应的方法论就是OneService。数据服务向下提供了应用和表的访问关系,使数据血缘可以延申到数据应用,向上支撑了各种数据应用和服务,所有的系统通过统一的API接口获取数据。

在数据服务之上,是面向不同场景的数据产品和应用,包括面向非技术人员的自助取数系统;面向数据开发、分析师的自助分析系统;面向敏捷数据分析场景的BI产品;活动直播场景下的大屏系统;以及用户画像相关的标签工厂。

这套产品技术支撑体系,覆盖了数据中台建设的整个过程,配合规范化实施,你就可以搭建出一个数据中台,关于具体的细节我会在实现篇中逐一分析讲解,这里你只需要知道这个框架就可以了。

组织架构

我在开篇提到,在网易电商数据中台建设之前,各个部门都会存在一些小的数仓,那么你有没有想过,为什么会存在这些分散的小数仓? 归根结底是因为建设这些数仓的人分散在各个业务部门。所以,如果你要建设数据中台,单纯有方法论和支撑技术还不够,还必须要有一个独立于业务部门的中台团队。

数据中台提供的是一个跨业务部门共享的公共数据能力,所以,承担数据中台建设职责的部门一定是一个独立于业务线的部门。这个部门的负责人应该直接向公司的CTO汇报工作,当然这个也要取决于数据中台建设的层次,例如在网易内,有云音乐、严选等多个产品线,数据中台的建设层次是在产品级别的,也就是说,云音乐有一个数据中台,严选有一个数据中台,所以严选的数据中台应该向严选的CTO汇报。

而独立部门的最大风险是与业务脱节,所以我们对数据中台的组织定位是:懂业务,能够深入业务,扎根业务。数据中台要管理所有的指标,而每个业务线之间的指标既有差异,也有交叉,要理解指标的口径定义,就必须要了解业务的过程。同时,当我们要制定一些新的指标时,必须要了解各个业务线新的业务目标,指标的本质还是为业务目标服务的。

综合来讲,什么样的组织架构是适合数据中台建设的呢?

  • 数据产品部门:负责数据中台、数据产品的体系规划、产品设计、规范制定、应用效果跟进,指标口径的定义和维护(有的部门是由分析师管理)。
  • 数据平台部门:负责研发支撑数据中台构建的产品,例如指标系统、元数据中心、数据地图等。
  • 数据开发团队:负责维护数据中台的公共数据层,满足数据产品制定的数据需求。
  • 应用开发团队:负责开发数据应用产品,比如报表系统、电商中的供应链系统、高层看板、经营分析。

而且,中台组织的绩效目标一定是要与业务落地价值绑定的,比如在电商中,我们提供了供应链决策系统,有智能补货的功能,会根据商品的库存,各个地区的历史销售情况,生产加工周期,自动生成补货决策,由人工审核以后,直接推送给采购系统。那我们评估价值时,我们会拿由系统自动生成的采购计划占整体采购计划的比例来衡量数据的应用价值。

最后,数据中台的组织架构改革涉及原有各个部门的利益,所以这个是数据中台构建最难又不得不做的地方,必须要取得高层领导的支持和重视。

课堂小结

这节课,我以自己建设数据中台的经历,带领你了解了数据中台建设的三板斧:方法论、支撑技术和组织架构。在课程的最后,我想再强调几个点。

  • 适合数据中台的组织架构是建设数据中台的第一步,数据中台组织一定是独立的部门,同时要避免与业务脱节,深入业务,要与业务目标绑定。

  • 数据中台支撑技术大规模落地,需要有成熟的系统工具作为支撑,同时要注意这些系统工具之间的联动和打通。

  • 数据中台的方法论可以借鉴,但是不能完全照搬,每个公司的数据应用水平和当前遇到的问题都不相同,可以针对这些问题,分阶段制定数据中台的建设计划,选择性的应用一些技术,例如当前最主要的问题是数据质量问题,那就应该优先落地数据质量中心,提升质量。

最后,让我们回到开篇的那个问题,如何建设数据中台?在我看来,方法论、支撑技术和组织架构,对于建设数据中台,三者缺一不可。而且我想再强调一下,数据中台的建设绝对不是为了建中台而建中台,数据中台的建设一定要结合落地场景,可以先从从一些小的场景开始,但是规划一定是要有顶层设计的。关于具体的操作细节,我会在第二部分,用8讲的篇幅来讲给你听。

思考时间

在课程最后,我希望你能够思考一下,哪些数据中台建设的方法论和支撑技术是适合你当前的公司的,如果你们要做数据中台,你所在的组织架构要做哪些变动。

最后,感谢你的阅读,如果这篇文章让你有所收获,也欢迎你将它分享给更多的朋友。

精选留言

  • Kery

    2020-04-06 09:08:02

    在传统企业落地数据中台,面临一个很大的挑战是:领导有强烈诉求要做数字化转型,但是具体的执行业务部门基本没有什么数据运营思维,提不出有价值的业务数据问题?像这种情况如何开始数据中台建设?建设好好初步数据中台产品以后,如何运营数据中台业务价值,如何让数据价值落地传统企业?不知老郭后续如何看待这些问题?是否有相关经验分享。谢谢!
    作者回复

    我来谈谈我的看法。

    依靠业务部门去提数据需求,我觉得你还是想多了,也不太现实,就像你说的,他们根本都没有数据运营的思维,又怎么能给你提数据问题呢?

    这让我想起了我们做数据产品时候的做法, 首先我们的数据产品要深入业务,与业务部门的老大对齐目标。例如在电商业务中,我们跟业务部门的BU老大,对齐,今年的目标主要是两个,一个是要提高爆品产出,一方面降低库存,一方面可以吸粉。另外一个就是要控制毛利。

    了解了这个目标以后,我们首先就是要让这个目标可以量化,比如对于爆品的产出,我们需要基于动销率去分析,然后就是持续的跟踪,哪些商品品类动销率比较差,需要提高,哪些商品是0动销,对于0动销的商品,数据产品要进一步分析原因,比如是价格的因素?还是因为商品质量有问题?还是因为商品季节性因素? 然后给出决策建议,比如下架商品,对商品曝光进行限流,调整商品的价格策略等等,最后,数据产品会自动把这些决策建议推送给业务系统进行执行。

    从上面这个案例中,你看到,业务部门不可能给你明确的他们要什么数据,他能给你的是他的业务目标是什么。而数据应用团队,要做的就是对业务目标进行量化,持续跟踪,对于异常要进行诊断分析,给出优化建议,最后一键执行。这个过程最终以数据产品的方式呈现给业务,帮助业务实现数据驱动目标。

    在第11节中,我会详细介绍数据应用,相信会对你有帮助。

    感谢你的阅读,欢迎你继续跟我交流~

    2020-04-06 22:46:00

  • Terry郑💫

    2020-04-07 11:47:47

    老师您好,我司在探索数据中台的道路上遇到一个问题,就是数据质量不高的问题。
    数据质量不高的情况下,很难在数据中挖掘有利价值做数据决策。
    在提高数据校验规则以后,各个干系方会想办法做斗争。道高一尺的感觉。
    请问如何去从一个角度对数据质量进行切入呢?
    作者回复

    我们保证数据问题,做到早发现,早恢复,是依赖数据血缘+稽核监控实现的全链路监控机制,话句话说,如果你加的稽核规则不够多,就可能发现不了问题。那如何来保证稽核规则的完备性的呢?

    首先,对于数据中台核心表,数据架构师、主题域的负责人以及对应表的负责人会逐个review 每个表的稽核规则是否完备。

    其次,表负责人是表数据质量的第一责任人,我们会对表的数据质量问题进行持续监控,尤其是对下游产生问题的事故进行定责,所以作为第一责任人,他们有动力去完善表的稽核规则。

    最后, 稽核规则不可能做到100%的覆盖,只能保证,翻过的错误不要再犯就,所以对于每次事故,我们都会组织复盘,其中重要的一项内容就是补充相关的稽核规则。

    通过上述三项措施,可以大幅降低数据质量产生的事故,我可以负责任的说,数据质量不可能说做到100%不出问题,但是可以做到问题不断收敛,犯过的错误不要再犯,这对数据质量来说,已经是极大的改善了。

    2020-04-07 22:57:30

  • Sandflass

    2020-05-27 14:12:18

    老师,课程学完了,我想请问一下业务中台、技术中台、AI中台、财务中台这些概念为什么会被独立提出来呢?他们跟数据中台有什么区别跟关联呢?是数据中台的各个小模块还是独立的中台?他们相互之间的架构又是怎样的呢?各个中台的方法论是通用的吗?非常希望老师能答疑解惑,谢谢。
    作者回复

    中台思想的核心,就是复用和共享,目的是提效,打通孤岛。所以我总结的中台,要包括三个内涵,共享、服务和连接。你可以去观察一下,基本上xxx中台,都是满足这三个条件的,这是中台的核。

    至于他们之间的区别,他们是在某个领域下,某种共性能力的抽象。数据中台,是数据能力的复用,AI中台,是算法能力的复用,业务中台,是某个服务模块的复用。

    他们之间的联系,一般来说,AI中台是建立在数据中台之上的,因为AI离不开数据中台提供的数据服务。

    2020-06-15 20:36:00

  • CayChan

    2020-04-09 22:30:29

    老师您好,我们公司目前打算搭建一个订单数据仓储,收集诉求时,应用方希望数据仓储能够尽量实时并且与在线数据一致,能够产出准确的财务数据,甚至可以从离线仓储中拉数据到hive中(目前从在线MySQL中拉数据)。请问这种需求是否合理?怎么做才能让离线仓储中的数据实时且准确?
    作者回复

    你好,你的场景可以通过构建实时数据中台来解决这个问题。

    在实时数据中台中,数据会以kafka流的方式存在,计算引擎使用flink。实时数据中台建设的方法论与离线数据中台并没有区别,也是要按照主题域、分层的建设。实时数据中台中的数据,在dwd层会归档一份到hdfs,在hdfs上的数据,可以通过hive进行批量的分析。 kafka中的实时数据,也可以写到kudu中,然后上层接Impala进行实时的olap查询。当然,汇总层kudu中的数据,也可以导出到DB,然后对接数据产品,进行在线数据的查询。

    感谢你的留言,期待与你在留言区下次互动~

    2020-04-10 18:36:42

  • iMARS

    2020-04-08 13:34:34

    请请教一下老师,之前的BI系统和现在谈的大数据中台有何联系和区别?两者都是为了经营决策提供数据支撑的产品。是不是BI发展的下一阶段就是数据中台?另外数据中台感觉很难做成一个产品放之四海而皆准,反而是要by项目或客户的方式进行,才能正确落地。
    作者回复

    BI 是数据应用,位于数据中台之上,数据中台构建的目的之一,就是支撑好BI场景。当然还有风控、推荐等其他的场景。

    我觉得BI 和数据中台不在同一个层次,所以说数据中台是BI的下一站,不是很准确。数据中台不能说是一个产品,他是企业构建的统一、标准、共享、安全的数据服务,它包含了企业的数据,当然它的支撑技术和方法论是可以通过产品来承载的,但是数据中台本身,不能说是产品。

    2020-04-08 23:33:09

  • Samlam

    2020-04-06 17:31:44

    老师你好。请问用户主题域应该如何设计呢?如何整合不同业务来源的用户数据呢?
    作者回复

    你这里面有两个问题。

    对于第一个问题,主题域的设计,其实与你所在的企业从事的业务过程密切相关的,你可以理解为它就是业务过程的一个抽象。比如,在物流行业中,会有门店、中转、车队等等,在电商行业中,交易、用户、商品、售后等等,在云音乐中,互动、内容、交易、市场、风控等等。要梳理主题域,你可以先把业务过程中,按照行为事件的方式梳理一下,看看包括哪些业务过程。另外也可以参考一下业务相近的行业对于主题域的划分。还要再说明一下,主题域划分并没有对错,尽可能的覆盖更多表,是主题域划分的一个目标。

    如何整合不同业务来源的用户数据。用户在业务中,一般是以维度的方式存在,对于单个业务,需要构建一个统一的用户维表。但是如果涉及多个业务,多个业务用户数据的整合,其实核心技术是id-mapping。

    ID-Mapping要解决的核心问题是把相同的用户,在不同应用系统上登录识别成同一个实体,即使是在同一个应用内,同一个人也可能有多重身份,比如未登录和登陆后,可能是两个标识。如何整合这些数据呢,我们把账号和设备的关联关系作为基础,每一个账号在某个设备登录一次,就算一个联系,然后对数据按照权重进行聚类,这个权重就是登录次数,时间等。然后就可以把同一个设备不同应用,不同设备的相同账号关联起来,识别为同一个实体,这样就实现了不同业务来源数据的整合。

    2020-04-06 22:15:57

  • Geek_0168a2

    2020-09-12 10:57:24

    老师您好, 我从2018年开始从事数据中台的数据服务研发工作,尤其是数据多维分析这里,我们提供统一的指标和维度,业务人员可以自助选择,查询报表数据。目前遇见的最大的问题是数据决策时间长,查询引擎慢,数据缓存命中率低。业务数据查询经常遇到加载慢,同时业务大量查询有造成了生产集群压力大,干扰了正常数据生产。 不知道网易 哪里 在数据服务层面,如何做的呢? 我们的查询引擎是Presto, clickHouse。
    作者回复

    你好,你说的问题,可能是日常数据平台遇到最多的问题之一,经常用户自己搞了一个大查询,然后把队列堵死了,然后影响了其他的任务或者人,一堆人在群里喊。

    我的建议:
    第一个,尽量避免查询明细数据,要通过分析用户的日常查询,倒逼公共集市层的建设,尽量把查询往汇总层赶。

    第二个,当然,有一些查询,确实就要查明细数据,那其实我们可以根据元数据,先预估一下这个查询的成本,如果查询的扫描记录数,消耗内存,大于某个阈值,是需要经过审批流程才能查询的,同时要区分一下大查询和普通查询的队列,避免大查询杜塞普通查询。当然线上任务和查询本身也要分队列,不可能在同一个队列里面。

    第三个, MPP 的队列只能隔离计算资源,内存资源,但是很多时候,存储也会存在相互干扰的情况,所以如果IO 负载很高,导致调度任务和adhoc查询相互影响的话,建议存储也独立。

    我们的MPP查询引擎走的impala,但是原理上也差不多的。

    2020-09-29 19:42:24

  • 王芳

    2020-05-10 01:22:05

    第3讲我反复在2周内看了3遍,结合已有的数据中台建设经历感觉郭老师所说的3要素缺一不可(尤其是组织结构是基础和前提)总结的非常精准。如果上层领导看似支持中台建设,但在组织层面又没有相应的调整支持,该怎么获取上层支持比较好呢?另外,我个人觉得中台建设是一个长期利益和短期利益平衡的问题,当下市场、内部业务需求变化快,相关数据应用部门更专注于自己的应用产品建设,目前就是项目制的建设,怎样才能做到数据中台的建设不脱离业务、并逐步深入业务呢?
    作者回复

    HI,王芳,你好,如果上层领导看似支持中台,但在组织层面又没有相应的调整,这样负责推进中台的部门就会比较费力,但是并不是说完全不行。我们在网易构建电商数据中台时,也不是说,直接把业务部门的数据开发和分析师全部归入中台,而是通过调整职责和建立共同KPI的方式,引导他们,大家一起完成数据中台的建设。

    比如,数据中台要接管ODS层的贴源数据,同时要跟业务部门制订数据中台建设的KPI,要确保业务部门使用数据中台产出的公共数据进行加工。

    你提的第二个问题,我觉得特别好,确实,这是一个平衡的问题,首先,我们不可能停下来,把中台建设好,然后再建应用,所以一定会存在业务需求和中台建设的平衡问题,这也确实是一个短期利益和长期利益平衡的问题。我觉得,中台建设,要深入业务,就得跟业务的KPI绑定,能够更快的响应业务的需求,把业务的痛点当成自己的KPI来解决,KPI 对齐是很重要的,所以我在第13讲中也重点讲了数据中台的KPI构成问题。

    感谢你的提问,我们一起努力把德邦的数据中台做好!

    2020-05-12 19:33:57

  • 牧海

    2020-05-26 09:07:43

    老师好,可以阐述再具体一点吗?数据中台的组织架构里都有哪些角色?比如大数据研发工程师之类的
    作者回复

    数据中台的组织架构中,包括数据产品PD,数据开发(也就是你所指的大数据开发工程师),平台开发(Java服务端开发),分析师,四类角色。

    数据产品PD,主要职责是负责做数据产品。分析师主要职责是基于数据,帮助业务实现业绩目标,在数据中台建设中,分析师一般会负责指标口径制订。数据开发,主要是做ETL任务。平台开发,主要职责有两个,一个是大数据相关的工具开发,一个是数据应用的开发。

    2020-06-15 20:20:31

  • 技术修行者

    2020-05-17 10:22:06

    问题:如果不考虑业务需求,单纯从技术角度出发,去管理多个异构的数据源,包括结构化数据以及非结构化数据,并按照统一的API接口对外提供数据访问服务(增删改查以及事务处理),有什么推荐的技术实现吗?
    作者回复

    结构化的数据源,比如DB,非结构化的数据源,比如Redis,HBase,最好的实现方案,就是对非结构化的数据源也需要定义Schema,然后基于数据服务,在数据服务上对外提供Restful API,然后对内访问各种异构的数据源。

    当然,如果涉及到不同数据源之间的关联,会有一些限制,比如对于HBase,只能基于rowkey去做关联。

    感谢你的提问~

    2020-05-25 20:49:36

  • leslie

    2020-04-06 10:33:11

    个人觉得:设计与开发、维护和优化、整合与平台,这样其实同时作为初期的架构中台架构体系。这块其实目前一直在探索,企业的不同阶段我们应当如何去建立对应的体系设计?
    谢谢分享:期待后续的课程。
    作者回复

    我觉得,企业不同阶段,数据应用的水平是有差异的,对数据中台的诉求也有不同。

    我认为数据应用一般先是从BI 开始的,然后经历数据产品,最后到自助取数。

    对于数据中台来说,指标口径一致性问题,数据质量问题,可能是最先面临的问题,然后接下来是效率方面的问题,最后等规模大了,成本问题会更加突出。

    所以不同阶段,中台建设的方向优先级是有差异的,以解决当前问题优先。

    2020-04-06 22:34:10

  • Weehua

    2020-10-21 17:52:21

    有个问题请教一下:数据开发团队,我理解的就是做ETL和数仓建设的团队,他们除了数仓建设以外,也会做上层的报表应用吗?数据分析师也会做一些数据报表。那数据开发和数据分析师怎么划清职责边界呢?请郭老师介绍一下网易那边的情况,多谢。
  • 王芳

    2020-05-10 01:23:18

    希望郭老师能推荐一些数据湖、数仓设计、建模相关的入门学习资料^ _ ^
    作者回复

    其实,我比较推荐《阿里大数据实践之路》这本书,这本书已经比较老了,但是方法论层面,依然有很多可以学习的地方,另外你作为产品,有一本邓中华写的偏产品的云上数据中台的书,也可以看看。

    2020-05-12 19:36:44

  • 简单不代表没内容

    2020-04-08 13:39:54

    老师您好,学习数据中台同时,我也有一个其他的疑问想请教一下您,就是对于大数据平台容器化的请教,比如利用K8S和Docker,将大数据组件部署在容器中这会是一个趋势吗?目前有没有成熟的开源的将大数据组件容器化的软件,这些问题还望您能给一些指导性建议。谢谢老师!
    作者回复

    我觉得,目前在线微服务化,已经条件成熟了。很多业务基于微服务化,构建在kubernates之上,基于docker 实现容器化部署,基于istio实现servier mesh。

    对于离线部分,我认为趋势上来说,肯定也是在线离线统一的。鉴于Hadoop长久以来都是基于Yarn实现资源调度和资源隔离的,与基于kubernates的在线微服务完全两套体系,但是为了最大化利用资源,实现在线离线的混部,未来的趋势一定是向kubernates靠拢,事实上,我认为Kubernates已经形成了底层资源调度的标准,最新版本的spark已经能够运行在kubernates之上。

    2020-04-08 23:26:05

  • 吴建中

    2020-04-11 22:12:10

    数据中台从短期看价值被高估了,从长期看价值被低估了。在数据服务共享中,老师说的是API共享,我之前给用户做个规划,API服务是最细粒度的,在这之上还提供组合的视图即服务、报表即服务、分析主题即服务,就是对外提供的服务形式多样化。当然这只是规划,还没有落地,不知道这样做会有什么问题。
    作者回复

    你好,其实你说的组合视图,我理解是数据服务中的逻辑模型的概念,API 服务对应的不仅仅是一张物理表,它还可以对接逻辑模型,逻辑模型的概念类似数据库中的视图的概念,可以支持几个物理模型按照业务视角组成一个逻辑视图,从而实现更加轻量化的服务发布。

    我会在第9节中详细的介绍数据服务的相关内容,欢迎你继续阅读,并在留言区与我互动~

    2020-04-12 21:59:03

  • 2020-04-08 13:13:10

    目前处于创业公司阶段,大企业的中台模式肯定不能照搬,因为公司对接的业务比较固定,所以打算线从“小中台”模式入手,也就是郭老师所提到的,从一些小的场景开始,但是规划一定是要有顶层设计的,Onedata和Oneservice思想,比如数据规范化,模型服用,我觉得都是可以纳入到这个小中台的考量范围内的,然后随着企业的成长,小中台也可以成长为一个完整的中台。
    作者回复

    你学到了精华~

    在后面的实践篇中,我会为你带来从指标管理、模型设计、数据质量、成本控制、数据安全等一系列落地方法和实践案例,欢迎你继续阅读,也期待你再次与我在留言区交流~

    2020-04-08 23:36:09

  • 小熊

    2020-04-07 23:49:26

    很有收获,期待继续更新
    作者回复

    感谢你的支持,希望我的经验对你有所帮助。期待在后续的课程中能够在留言区与你继续交流。

    2020-04-08 09:52:39

  • newTime

    2024-10-15 15:36:45

    老师,您好,我想请教下关于指标的定义。 只有被程序计算出来的数据才算是一个指标,主体本身的属性也算是一个指标。
    比如:关于人员的信息
    人每年的收入汇总: 这个算一个指标。
    人名: 这个算不算是一个指标。
  • 朱时

    2020-05-06 17:38:13

    人员分工这块,数据平台和和应用开发为啥要分2个团队,看起来技术栈差不多,另外数据开发包括离线和实时大数据计算的工作吗,那和前台数据组的分工又如何做呢
    作者回复

    你好,数据平台,其实主要是专注于数据中台构建工具的开发,数据应用,主要是开发数据产品,数据报表。

    从技术栈角度,基本是相同的,所以有的小团队,这两个团队是由一个团队来承担的。但是其实业务方向的不一样,导致两个团队的领域知识是有差异的,比如平台团队,需要有大数据基础设施的知识基础,而应用开发,更关注微服务化的应用系统构建。所以成熟的中台团队,一般是拆分的。


    数据开发,同时会承担离线和实时的开发。你所谓的前台数据组职能是什么? 业务系统的数据统计分析需求,都是通过数据中台提供的服务接口获取的。

    2020-05-09 17:10:13

  • zhanwei

    2020-04-22 22:40:49

    你好,我在政府部门,一个大数据中心做数据架构工作,想引入互联网的数据中台方法论和技术,但是政府部门走的都是项目制,没有自己的开发团队,项目承建单位也没有深入业务的动力。不知道郭老师有遇到政务部门引入数据中台的情况吗?如果有,怎么解决以上问题呢?
    作者回复

    你好,有的呢,我们也做过一些政府的项目。

    其实不光是政府的项目,对于一些传统企业,也存在这个问题,他们没有数据团队,依赖外包的数据团队。

    这种情况,一个是要制定好业务目标,根据效果来考核外包团队的成果,设立好奖励。另外,可能需要建立长久的合作机制,不可能频繁的更换实施团队。

    另外,有一个点你也可以参考一下。就是安全这块,这种模式下,政府或者企业不希望外包人员可以查看生产环境的数据,这个时候,需要生产、测试集群完全隔离,我在第10讲数据安全中,有提到适合这种模式下的生产、测试集群完全物理隔离的部署方案,你可以参考一下~

    2020-04-29 19:01:29