课程简介
Flink SQL 是基于流处理和批处理的强大工具,通过多表关联、自定义 TableSource 和 Table Sink 等实战,实现数据统计分析。同时,结合 Watermark 和窗口函数处理时间序列数据。此外,Flink 还与 Hive、RDBMS、Kafka、CDC、ES 等集成,满足各种数据源需求。项目实战涵盖了流批一体、Kafka、Elasticsearch、Docker 演示等环境,提供完整的解决方案。
目标收益
培训对象
课程大纲
主流大数据的整体技术架构 |
开源大数据技术架构 开源大数据常用组件之间的依赖关系 离线计算框架介绍 —Mapreduce、Hive、Tez、Impala、Presto 实时查询框架介绍 —NoSQL、Hbase 实时计算框架介绍 —Kafka、Flink、Spark Streaming 内存计算框架介绍 —Spark、SparkSQL、SparkMllib、SparkR 实时OLAP技术介绍 —Clickhouse、StarRocks等 海量日志快速检索架构 —ELK(Elasticsearch、Logstash、Kibana)等 数据湖工具介绍 Hudi、IceBerg |
大数据平台的架构演变 |
数据湖架构案例实战 离线计算大数据平台架构 实时计算应用场景介绍 新一代湖仓一体架构 基于Flink实时数仓数仓解决方案 —Kafka+Flink+clickhouse —Flink CDC+Flink+StarRocks 基于Flink CDC+Flink+Hudi流批一体数据架构解决方案 |
实时数仓和湖仓一体数据架构实战解析 |
数据接入大数据平台 -离线数据接入 -实时的数据接入 数据处理过程 -数据的ETL -数据分层(ODS、DW和DM等) -数据建模 -数据校验 数据应用 -数据离线应用 -数据实时应用 -数据实验室 数据展示工具(BI工具) |
Hadoop开发实战 |
HDFS架构介绍 HDFS原理介绍 NameNode功能详解 DataNode功能详 HDFS HA功能详解 HSFD的fsimage和editslog详解 HDFS的block详解 HDFS的block的备份策略 Mapreduce原理 MapReduce流程 剖析一个MapReduce程序 Mapper和Reducer抽象类详解 Combiner详解 Partitioner详解 |
Hive数仓工具开发实战 |
Hive的作用和原理说明 Hadoop仓库和传统数据仓库的协作关系 Hadoop/Hive仓库数据数据流 Hive的MetaStore详解 Hive的基本用法 Hive的server启动 HQL基本语法 Hive的加载数据本地加载和HDFS加载 Hive的partition详解 Hive的存储方式详解 RCFILE、TEXTFILE和SEQUEUEFILE |
Hbase原理和开发实战 |
NoSQL介绍 NoSQL应用场景 Hbase的架构原理 Hbase核心概念详解(HMaster、HRegionServer、Store、StoreFile、HFile、HLog和MetaStore) Hbase自带的namesapce和Meta表详解 HBase逻辑视图介绍 HBase物理视图介绍 HBase的RowKey设计原则 HBase BloomFilter的介绍 手动设置Split和Compaction操作 Pre-Split的介绍 HBase使用场景介绍 Hbase shell增删改查实战 |
Spark原理和开发实战 |
Spark的编程模型 Spark编程模型解析 Partition实现机制 RDD的特点、操作、依赖关系 Transformation RDD详解 Action RDD详解 Spark容错机制 lineage和checkpoint详解 Spark的运行方式 Spark DataFrame和DateSet介绍 Spark SQL原理 Spark SQL和Hive连接 DataFrame和DataSet架构 Fataframe、DataSet和Spark SQL的比较 SparkSQL parquet格式实战 Spark SQL开发 |
Flink原理和开发实战 |
DataStream API介绍与使用 DataStream编程模型 DataStream类型与转换 Pipeline与StreamGraph转换 Transformation 时间概念与Watermark Windows窗口计算和多流合并 Flink table API原理和使用 Flink SQL原理和使用 TimeStamp与Watermark原理和实战 多表关联实战 与Hive的集成实战 自定义TableSource、Table Sink和Table Factory实战 项目实战:基于Flink SQL实现数据统计分析 |
流批一体项目实战RDBMS +Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战 |
RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战: Docker演示环境介绍 项目需求分析和解决方案设计 流式数仓分层模型设计 Flink CDC mysql实战 Flink CDC postgres实战 Flink CDC Kafka实战 Flink CDC ES实现 Kibana结果展示 RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整项目实战 实操:老师演练项目 |
大数据平台实施和运维 |
大数据平台规划 大数据平台实施的步骤及构建 大数据平台权限认证和授权解决方案 Kerberos+Openldap+sssd+knox+Ranger实现企业级大数据平台安全控制和实操 Yarn资源分配策略详解和实操 yarn replacement rules权限控制和实操 Yarn 队列+Ranger控制详解和实操 HDFS+Ranger权限控制和实操 跨集群数据访问的安全和资源控制案例分享 某大型银行大数据平台深度解析 |
主流大数据的整体技术架构 开源大数据技术架构 开源大数据常用组件之间的依赖关系 离线计算框架介绍 —Mapreduce、Hive、Tez、Impala、Presto 实时查询框架介绍 —NoSQL、Hbase 实时计算框架介绍 —Kafka、Flink、Spark Streaming 内存计算框架介绍 —Spark、SparkSQL、SparkMllib、SparkR 实时OLAP技术介绍 —Clickhouse、StarRocks等 海量日志快速检索架构 —ELK(Elasticsearch、Logstash、Kibana)等 数据湖工具介绍 Hudi、IceBerg |
大数据平台的架构演变 数据湖架构案例实战 离线计算大数据平台架构 实时计算应用场景介绍 新一代湖仓一体架构 基于Flink实时数仓数仓解决方案 —Kafka+Flink+clickhouse —Flink CDC+Flink+StarRocks 基于Flink CDC+Flink+Hudi流批一体数据架构解决方案 |
实时数仓和湖仓一体数据架构实战解析 数据接入大数据平台 -离线数据接入 -实时的数据接入 数据处理过程 -数据的ETL -数据分层(ODS、DW和DM等) -数据建模 -数据校验 数据应用 -数据离线应用 -数据实时应用 -数据实验室 数据展示工具(BI工具) |
Hadoop开发实战 HDFS架构介绍 HDFS原理介绍 NameNode功能详解 DataNode功能详 HDFS HA功能详解 HSFD的fsimage和editslog详解 HDFS的block详解 HDFS的block的备份策略 Mapreduce原理 MapReduce流程 剖析一个MapReduce程序 Mapper和Reducer抽象类详解 Combiner详解 Partitioner详解 |
Hive数仓工具开发实战 Hive的作用和原理说明 Hadoop仓库和传统数据仓库的协作关系 Hadoop/Hive仓库数据数据流 Hive的MetaStore详解 Hive的基本用法 Hive的server启动 HQL基本语法 Hive的加载数据本地加载和HDFS加载 Hive的partition详解 Hive的存储方式详解 RCFILE、TEXTFILE和SEQUEUEFILE |
Hbase原理和开发实战 NoSQL介绍 NoSQL应用场景 Hbase的架构原理 Hbase核心概念详解(HMaster、HRegionServer、Store、StoreFile、HFile、HLog和MetaStore) Hbase自带的namesapce和Meta表详解 HBase逻辑视图介绍 HBase物理视图介绍 HBase的RowKey设计原则 HBase BloomFilter的介绍 手动设置Split和Compaction操作 Pre-Split的介绍 HBase使用场景介绍 Hbase shell增删改查实战 |
Spark原理和开发实战 Spark的编程模型 Spark编程模型解析 Partition实现机制 RDD的特点、操作、依赖关系 Transformation RDD详解 Action RDD详解 Spark容错机制 lineage和checkpoint详解 Spark的运行方式 Spark DataFrame和DateSet介绍 Spark SQL原理 Spark SQL和Hive连接 DataFrame和DataSet架构 Fataframe、DataSet和Spark SQL的比较 SparkSQL parquet格式实战 Spark SQL开发 |
Flink原理和开发实战 DataStream API介绍与使用 DataStream编程模型 DataStream类型与转换 Pipeline与StreamGraph转换 Transformation 时间概念与Watermark Windows窗口计算和多流合并 Flink table API原理和使用 Flink SQL原理和使用 TimeStamp与Watermark原理和实战 多表关联实战 与Hive的集成实战 自定义TableSource、Table Sink和Table Factory实战 项目实战:基于Flink SQL实现数据统计分析 |
流批一体项目实战RDBMS +Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战 RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战: Docker演示环境介绍 项目需求分析和解决方案设计 流式数仓分层模型设计 Flink CDC mysql实战 Flink CDC postgres实战 Flink CDC Kafka实战 Flink CDC ES实现 Kibana结果展示 RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整项目实战 实操:老师演练项目 |
大数据平台实施和运维 大数据平台规划 大数据平台实施的步骤及构建 大数据平台权限认证和授权解决方案 Kerberos+Openldap+sssd+knox+Ranger实现企业级大数据平台安全控制和实操 Yarn资源分配策略详解和实操 yarn replacement rules权限控制和实操 Yarn 队列+Ranger控制详解和实操 HDFS+Ranger权限控制和实操 跨集群数据访问的安全和资源控制案例分享 某大型银行大数据平台深度解析 |