课程简介
随着大数据技术的使用越来越广泛,企业面临数据整合、数据分层、数据管理、数据使用、数据湖等问题尤为的重要。使得基于大数据平台的数据仓库和数据湖建设非常的必要。本次大数据数据仓库的培训理论和实践相结合,通过一些企业级的真实案例实现基于大数据平台数仓、数据湖的建设。
本次课程包含3NF模型和维度模型的使用经验分享,金融行业的10大主题域模型等。
目标收益
1. 数据仓库和数据湖的概念和架构
2. 数据建模的技术、流程和注意点
3. 数据整合、处理和展示的流程
4. 基于大数据平台实现数据仓库、数据湖的技术和案例分享
5. 电信和银行等传统行业大数据平台数据仓库、数据湖的落地案例和经验分享
6. 关系模型和维度模型的应用场景
培训对象
1. 数据架构师
2. 数据分析和挖掘人员
3. 模型师
4. 大数据架构师
5. ETL开发工程师
6. 业务人员
学员基础:
1. 对大数据技术了解
2. 对业务了解
课程大纲
第一章:数据分析技术介绍和比较(SQL on Hadoop) |
M-OLAP分析应用场景介绍 1. Kylin实现M-OALP介绍 2. R-OLAP应用分析场景介绍 3. SparkSQL应用场景介绍 4. Impala应用场景介绍 5. Presto应用场景介绍 6. sparkSQL、Impala和Presto之间的比较 7. Elasticsearch应用场景介绍 8. ELK应用案例介绍和分享 |
第二章:数据建模方法介绍(范式模型) |
1. 关系建模概念 2. 为什么要关系数据建模 3. 关系建模的方法介绍 4. 概念模型 5. 逻辑模型 6. 物理模型 7. Teradata 金融十大模型主题域介绍 8. 关系建模的应用场景 |
第三章:数据建模方法介绍(维度模型) |
1. 维度建模概念 2. 为什么要维度建模 3. 维度表介绍 4. 维度种类 5. 缓慢变化维处理 6. 快速变化维处理 7. 代理键 8. 维度的三种模型介绍:星型模型、雪花模型、多维模型 9. 事实表的类型 10. 基于维度模型数据仓库的基本概念 11. 维度模型建设步骤 |
第四章:范式建模和维度建模的比较 |
1. 企业级数据仓库范式建模和维度建模的引用场景 2. 范式建模解决的问题领域 3. 维度建模解决的问题领域 4. 关系建模和维度建模的比较 |
第五章:数据仓库设计架构 |
1. 数据仓库典型架构介绍:、ODS层、DW层、DM层 2. 数据安全控制 3. ETL任务调度 4. 元数据管理 |
第六章:数据湖设计架构 |
1. 数据湖概念介绍 2. 数据湖分区介绍:着落区、处理区、表达去、探索区 3. 数据湖实现的技术介绍 4. 数据湖与数据仓库之间的关系 |
第七章:大数据平台的数据架构 |
1.数据接入大数据平台 —离线数据接入 —实时的数据接入 2.数据处理过程 —数据的ETL —数据分层(ODS、DW和DM等) —数据建模 —数据校验 3.数据应用 —数据离线应用 —数据实时应用 —数据实验室 —数据展示工具(BI工具) |
第八章:HIVE数据仓库集群的多维分析建模应用实践 |
1. 基于Hadoop的大型分布式数据仓库在行业中的数据仓库应用案例 2. Hive数据仓库集群的平台体系结构、核心技术剖析 3. Hive Server的工作原理、机制与应用 4. Hive数据仓库集群的安装部署与配置优化 5. Hive应用开发技巧 6. Hive SQL剖析与应用实践 7. Hive数据仓库表与表分区、表操作、数据导入导出 8. Hive数据仓库报表设计 9. Hive数据仓库表的文件格式介绍 10. 基于Hive的数据分层实现 (ODS、DW、DWS/B、DM、ST) 11. 公共纬度的设计 12. 杂项纬度的设计 13. 纬度退化的设计 14. 周期快照的设计 15. 拉链表的设计 |
第九章:数据抽取、采集和整合 |
1. RDBMS导入导出到hadoop数据仓库 2. Sqoop工具介绍和使用 3. DataX工具介绍 4. CDC工具介绍(Oracle OGG和Mysql Binlog) 5. Hadoop数据导出到RDBMS介绍和注意点 6. 实时非结构化数据的采集 7. 从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库 8. 基于Hadoop数据仓库的数据分层(ODS、DW、DWS/B、DM、ST) 9. 数据仓库不同层之间的数据交互和ETL |
第十章:维度模型实时案例分享 |
1. 维度模型设计步骤 2. 业务主体划分 3. 维度的一致性与一致性维度 4. 客户维度模型 5. 合约维度模型 6. 账户维度模型 7. 机构维度模型 |
第十一章:基于大数据平台数据仓库案例分析 |
1. 互联网基于大数据的数据仓库建设介绍 2. 金融基于大数据平台建设数据仓库案例分享 |
第一章:数据分析技术介绍和比较(SQL on Hadoop) M-OLAP分析应用场景介绍 1. Kylin实现M-OALP介绍 2. R-OLAP应用分析场景介绍 3. SparkSQL应用场景介绍 4. Impala应用场景介绍 5. Presto应用场景介绍 6. sparkSQL、Impala和Presto之间的比较 7. Elasticsearch应用场景介绍 8. ELK应用案例介绍和分享 |
第二章:数据建模方法介绍(范式模型) 1. 关系建模概念 2. 为什么要关系数据建模 3. 关系建模的方法介绍 4. 概念模型 5. 逻辑模型 6. 物理模型 7. Teradata 金融十大模型主题域介绍 8. 关系建模的应用场景 |
第三章:数据建模方法介绍(维度模型) 1. 维度建模概念 2. 为什么要维度建模 3. 维度表介绍 4. 维度种类 5. 缓慢变化维处理 6. 快速变化维处理 7. 代理键 8. 维度的三种模型介绍:星型模型、雪花模型、多维模型 9. 事实表的类型 10. 基于维度模型数据仓库的基本概念 11. 维度模型建设步骤 |
第四章:范式建模和维度建模的比较 1. 企业级数据仓库范式建模和维度建模的引用场景 2. 范式建模解决的问题领域 3. 维度建模解决的问题领域 4. 关系建模和维度建模的比较 |
第五章:数据仓库设计架构 1. 数据仓库典型架构介绍:、ODS层、DW层、DM层 2. 数据安全控制 3. ETL任务调度 4. 元数据管理 |
第六章:数据湖设计架构 1. 数据湖概念介绍 2. 数据湖分区介绍:着落区、处理区、表达去、探索区 3. 数据湖实现的技术介绍 4. 数据湖与数据仓库之间的关系 |
第七章:大数据平台的数据架构 1.数据接入大数据平台 —离线数据接入 —实时的数据接入 2.数据处理过程 —数据的ETL —数据分层(ODS、DW和DM等) —数据建模 —数据校验 3.数据应用 —数据离线应用 —数据实时应用 —数据实验室 —数据展示工具(BI工具) |
第八章:HIVE数据仓库集群的多维分析建模应用实践 1. 基于Hadoop的大型分布式数据仓库在行业中的数据仓库应用案例 2. Hive数据仓库集群的平台体系结构、核心技术剖析 3. Hive Server的工作原理、机制与应用 4. Hive数据仓库集群的安装部署与配置优化 5. Hive应用开发技巧 6. Hive SQL剖析与应用实践 7. Hive数据仓库表与表分区、表操作、数据导入导出 8. Hive数据仓库报表设计 9. Hive数据仓库表的文件格式介绍 10. 基于Hive的数据分层实现 (ODS、DW、DWS/B、DM、ST) 11. 公共纬度的设计 12. 杂项纬度的设计 13. 纬度退化的设计 14. 周期快照的设计 15. 拉链表的设计 |
第九章:数据抽取、采集和整合 1. RDBMS导入导出到hadoop数据仓库 2. Sqoop工具介绍和使用 3. DataX工具介绍 4. CDC工具介绍(Oracle OGG和Mysql Binlog) 5. Hadoop数据导出到RDBMS介绍和注意点 6. 实时非结构化数据的采集 7. 从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库 8. 基于Hadoop数据仓库的数据分层(ODS、DW、DWS/B、DM、ST) 9. 数据仓库不同层之间的数据交互和ETL |
第十章:维度模型实时案例分享 1. 维度模型设计步骤 2. 业务主体划分 3. 维度的一致性与一致性维度 4. 客户维度模型 5. 合约维度模型 6. 账户维度模型 7. 机构维度模型 |
第十一章:基于大数据平台数据仓库案例分析 1. 互联网基于大数据的数据仓库建设介绍 2. 金融基于大数据平台建设数据仓库案例分享 |