课程简介
时下引领着技术变革的非“大数据”莫属,本课程带你全面掌握Hadoo和Spark开发的核心技能:HDFS 、MapReduce的搭建及框架的应用,了解最火爆最前沿的大数据技术发展趋势。
目标收益
构建大数据生态立体化的知识体系
掌握大数据核心应用技术
从大数据开发者成为具备大数据思维的技术专家
培训对象
课程大纲
Hadoop生态系统概述(1H) |
1. 分布式文件系统HDFS 2. 分布式计算MapReduce 3. 分布式资源管理Yarn 4. 大数据SQL分析引擎Hive 5. 分布式机器学习与数据挖掘Mahout 6. NoSQL引擎HBase 7. 分布式一致性框架ZooKeeper 8. 高性能大数据引擎Spark |
HDFS原理与应用实践(2H) |
1. HDFS高可用可伸缩架构原理分析 2. HDFS配置与部署实践 3. HDFS API编程实践 |
MapReduce原理与应用实践(2H) |
1. MapReduce编程模型与案例分析 2. MapReduce核心组件分析 3. MapReduce计算过程分析 4. MapReduce用户扩展接口编程实践 5. MapReduce部署管理实践 6. MapReduce配置优化与案例分析 |
Hive原理与应用实践(1H) |
1. SQL转换MapReduce原理分析 2. Hive核心组件与处理流程分析 3. Hive部署管理实践 4. 大数据在线分析Hive应用实践 5. Hive SQL优化与配置优化 |
Spark原理与实践(2H) |
1. Spark编程模型及部署模型 2. Spark运行原理及调度机制 3. Spark性能优化及最佳实践 |
Hadoop周边产品讨论(0.5H) |
1. Hadoop基准测试工具Hibench 2. Hadoop性能测试工具HiTune 3. Hadoop性能分析工具Dew |
Hadoop大数据平台架构(1H) |
1. 阿里巴巴大数据平台架构分析 2. 腾讯大数据平台架构分析 3. 百度大数据平台架构分析 |
大数据分析实践(1.5H) |
1. 用户行为数据打点与采集系统架构 2. 互联网大数据分析常用方法 3. 数据分析案例 |
大数据与机器学习(1.5H) |
1. 大数据分类与聚类算法 2. 推荐引擎算法实践 3. 神经网络原理与应用 |
Hadoop生态系统概述(1H) 1. 分布式文件系统HDFS 2. 分布式计算MapReduce 3. 分布式资源管理Yarn 4. 大数据SQL分析引擎Hive 5. 分布式机器学习与数据挖掘Mahout 6. NoSQL引擎HBase 7. 分布式一致性框架ZooKeeper 8. 高性能大数据引擎Spark |
HDFS原理与应用实践(2H) 1. HDFS高可用可伸缩架构原理分析 2. HDFS配置与部署实践 3. HDFS API编程实践 |
MapReduce原理与应用实践(2H) 1. MapReduce编程模型与案例分析 2. MapReduce核心组件分析 3. MapReduce计算过程分析 4. MapReduce用户扩展接口编程实践 5. MapReduce部署管理实践 6. MapReduce配置优化与案例分析 |
Hive原理与应用实践(1H) 1. SQL转换MapReduce原理分析 2. Hive核心组件与处理流程分析 3. Hive部署管理实践 4. 大数据在线分析Hive应用实践 5. Hive SQL优化与配置优化 |
Spark原理与实践(2H) 1. Spark编程模型及部署模型 2. Spark运行原理及调度机制 3. Spark性能优化及最佳实践 |
Hadoop周边产品讨论(0.5H) 1. Hadoop基准测试工具Hibench 2. Hadoop性能测试工具HiTune 3. Hadoop性能分析工具Dew |
Hadoop大数据平台架构(1H) 1. 阿里巴巴大数据平台架构分析 2. 腾讯大数据平台架构分析 3. 百度大数据平台架构分析 |
大数据分析实践(1.5H) 1. 用户行为数据打点与采集系统架构 2. 互联网大数据分析常用方法 3. 数据分析案例 |
大数据与机器学习(1.5H) 1. 大数据分类与聚类算法 2. 推荐引擎算法实践 3. 神经网络原理与应用 |