课程简介
随着5G时代来临,大数据以及AI驱动效益越来越大,企业数据化管理变革要求越来越高,数据中台概念迅速普及,越来越多的企业选择对企业中的数据进行管理,整合,希望通过数据驱动业务增长,寻求更多元化的增长方式。但数据化管理变革通常是一个解决数据历史债务的过程,一方面大家相信大数据必然产生价值,另一方面在面临各种数据建设问题时工作爆发式增长,容易迷失方向,不知道工作从哪儿切入,需要有成熟的经验案例可参考,如果你的企业在数据化管理变革中遇到以下问题的话,那么这个课程将会是你的最佳选择:
1.数据规模大,异构分布在各个系统,不能对数据进行有序、有结构地分类组织和存储,数据犹如垃圾堆积,带来高额维护成本
2.数据链路长,数据间的生产链路依赖错综复杂,上下游生产线数据质量问题多,难以做到事前,事中,事后监测,导致长期使用错误的数据进行关键决策
3.大数据生态组件多,数据架构选型混乱,使用门槛高,缺乏平台工具整合,导致无法大规模开展高效的数据分析,挖掘工作
4.无法根据企业的业务现状,人员组织特点,找到显著有效的数据驱动场景,缺乏科学的数据驱动方法论,无法将数据用“活”,发挥数据的最大价值
目标收益
1、获知互联网企业大数据体系建设的完整形态,和技术选型标准,加深对企业数据化变革的认知
2、了解数据中台工具的功能架构,数据中台赋能的思路方法论及其技术架构
3、用户行为分析平台的埋点上报,传输,管理,验证,基础数仓建设的功能技术架构
4、掌握爆炸式数据增长下的数据管理,治理体系,了解科学的数据建设管理方法论,在实际生产中有序落地,避免数据重复建设,避免数据安全隐患
5、在数据生产建设过程中,通过事前生产规范管理,事中值班响应,事后巡检监控,全方位保障数据质量
6、掌握ABTest实验的原理,重叠实验框架的架构以及实验决策的方法论案例,学会如何科学的使用AB测试做数据驱动决策
培训对象
适用于大数据应用开发,大数据基础架构开发,数据产品,数据仓库的软件架构师、软件设计师、程序员、数据产品
要求:至少要有1-2年工作经验,学习过Hadoop,Hive以及Java语言
课程大纲
引子 | 从我们5G时代说起。指出未来企业数据化变革将越来越重要。对于数据驱动以及数据建设的方法论要求更高。 |
第一单元 企业大数据建设概览 |
该单元介绍大型互联网公司的大数据生态技术演进概览 ,大数据应用,中台,平台架构,让大家对大数据架构的技术和大数据平台建设有一个全局的了解。 1、大数据生态技术概览 (1)大数据生态组件的分布 (2)Hadoop,Hive,Spark,Flink,Kylin等各生态组件的定位和使用场景 2、数据应用架构 (1)数据应用产品矩阵 (2)数据面板,用户行为分析系统,用户增长投放系统等产品 3、数据中台架构 (1)数据中台总体概览 (2)数据中台工具体系 (3)基础数据建设概览 4、数据平台架构 (1)离线平台架构概览 (2)实时平台架构概览 (3)统一查询平台概览 |
第二单元 数据中台工具 |
该单元介绍数据中台工具的功能架构,技术架构,从中台工具建设思路,灌输一些科学的数据生产方法论。 1、数据集成模块:如何开发和使用数据集成模块对异构数据进行端到端落地传输 2、数据开发模块:结合底层作业调度系统,在事前,事中,事后加入相关模块,完成复杂的DAG作业开发与运维 3、运维中心模块:快速监控,诊断复杂的数据链路问题,以及科学高效的修复方法 4、数据管理模块:元数据系统的技术架构方案,需要综合管制的业务,生产,运维元数据 5、数据安全模块:数据安全的底层架构和流程管制 6、数据质量模块:通过基线管理,DQC功能在数据生产中及时发现数据及时性,完整性,一致性问题 7、报表平台模块:报表平台的功能定位以及市面选型方案 |
第三单元 用户行为分析平台 |
该单元介绍企业网站和APP产品的用户行为分析场景下,埋点,上报,数仓建模,可视化产品的解决方案和技术架构。 1、埋点概览 (1)埋点事件模型 (2)埋点准入与治理 (3)埋点数据质量保证 2、百亿日志处理架构 (1) SDK采集上报设计 (2)实时传输架构设计 3、用户行为数仓模型 (1)离线数仓设计 (2)实时数仓设计 4、可视化分析产品 (1)事件分析 (2) 漏斗分析 (3)留存分析 |
第四单元 数据治理体系 |
该单元介绍企业在面临爆炸式数据增长时,如何通过OneData数据整合治理方法,对数据进行有序,有结构的管理;对海量的数据生产链路进行治理;有效的提高数据一致性,数据质量,减少成本。 1、规范管理:什么样的数据生产规范更利于日后的数据管理 2、任务治理:海量数据生产任务中,我们应该如何对任务进行监控以及值班响应 3、DQC治理:如何配置DQC规则,更精准更快速发现数据准确性问题,减少误报 4、成本管理:从数据的价值,可恢复性,数据类型的不同等维度。衡量配置数据TTL和冷备管理 5、元数据管理:如何与业务进行合作,结合数据中台工具,对业务元数据进行打标 6、数据生产问题的处理及经验,规范指导,如何有效组织开展数据相关SRE工作 |
第五单元 ABTest实验平台 |
该单元介绍企业进行数据驱动的关键方法,AB测试的原理,工具,技术架构和案例实践。 1、为什么要做实验,如何做实验,实验的统计学原理,基本概念,如何确认实验的科学性 2、重叠实验框架的关键技术架构 3、实验案例实践,将会有1~2个 |
第六单元 典型数据应用业务场景 |
该单元介绍企业的用户增长业务场景,描述用户增长所需要的所有数据架构支撑。 1、用户增长的实现目标与拆解 2、OCPX的接入与数据架构 3、RTA流量筛选与数据架构 4、素材管理与承接一体的数据架构 5、人群圈选工具的使用与数据架构 |
引子 从我们5G时代说起。指出未来企业数据化变革将越来越重要。对于数据驱动以及数据建设的方法论要求更高。 |
第一单元 企业大数据建设概览 该单元介绍大型互联网公司的大数据生态技术演进概览 ,大数据应用,中台,平台架构,让大家对大数据架构的技术和大数据平台建设有一个全局的了解。 1、大数据生态技术概览 (1)大数据生态组件的分布 (2)Hadoop,Hive,Spark,Flink,Kylin等各生态组件的定位和使用场景 2、数据应用架构 (1)数据应用产品矩阵 (2)数据面板,用户行为分析系统,用户增长投放系统等产品 3、数据中台架构 (1)数据中台总体概览 (2)数据中台工具体系 (3)基础数据建设概览 4、数据平台架构 (1)离线平台架构概览 (2)实时平台架构概览 (3)统一查询平台概览 |
第二单元 数据中台工具 该单元介绍数据中台工具的功能架构,技术架构,从中台工具建设思路,灌输一些科学的数据生产方法论。 1、数据集成模块:如何开发和使用数据集成模块对异构数据进行端到端落地传输 2、数据开发模块:结合底层作业调度系统,在事前,事中,事后加入相关模块,完成复杂的DAG作业开发与运维 3、运维中心模块:快速监控,诊断复杂的数据链路问题,以及科学高效的修复方法 4、数据管理模块:元数据系统的技术架构方案,需要综合管制的业务,生产,运维元数据 5、数据安全模块:数据安全的底层架构和流程管制 6、数据质量模块:通过基线管理,DQC功能在数据生产中及时发现数据及时性,完整性,一致性问题 7、报表平台模块:报表平台的功能定位以及市面选型方案 |
第三单元 用户行为分析平台 该单元介绍企业网站和APP产品的用户行为分析场景下,埋点,上报,数仓建模,可视化产品的解决方案和技术架构。 1、埋点概览 (1)埋点事件模型 (2)埋点准入与治理 (3)埋点数据质量保证 2、百亿日志处理架构 (1) SDK采集上报设计 (2)实时传输架构设计 3、用户行为数仓模型 (1)离线数仓设计 (2)实时数仓设计 4、可视化分析产品 (1)事件分析 (2) 漏斗分析 (3)留存分析 |
第四单元 数据治理体系 该单元介绍企业在面临爆炸式数据增长时,如何通过OneData数据整合治理方法,对数据进行有序,有结构的管理;对海量的数据生产链路进行治理;有效的提高数据一致性,数据质量,减少成本。 1、规范管理:什么样的数据生产规范更利于日后的数据管理 2、任务治理:海量数据生产任务中,我们应该如何对任务进行监控以及值班响应 3、DQC治理:如何配置DQC规则,更精准更快速发现数据准确性问题,减少误报 4、成本管理:从数据的价值,可恢复性,数据类型的不同等维度。衡量配置数据TTL和冷备管理 5、元数据管理:如何与业务进行合作,结合数据中台工具,对业务元数据进行打标 6、数据生产问题的处理及经验,规范指导,如何有效组织开展数据相关SRE工作 |
第五单元 ABTest实验平台 该单元介绍企业进行数据驱动的关键方法,AB测试的原理,工具,技术架构和案例实践。 1、为什么要做实验,如何做实验,实验的统计学原理,基本概念,如何确认实验的科学性 2、重叠实验框架的关键技术架构 3、实验案例实践,将会有1~2个 |
第六单元 典型数据应用业务场景 该单元介绍企业的用户增长业务场景,描述用户增长所需要的所有数据架构支撑。 1、用户增长的实现目标与拆解 2、OCPX的接入与数据架构 3、RTA流量筛选与数据架构 4、素材管理与承接一体的数据架构 5、人群圈选工具的使用与数据架构 |