课程简介
数据分析技能培训的培训时长为2天,培训内容涵盖数据思维的概念、特点、方法论和应用价值,以及基于大数据平台落地数据思维的案例分享。此外,还介绍了数据分析和挖掘流程,包括数据取样、探索、预处理和特征工程构建等。在Python和Spark编程方面,学员将学习Python数据挖掘常用模块、Numpy、pandas和Matplotlib等库,以及Spark编程模型、RDD操作和Spark SQL原理和实践等内容。这些内容将帮助学员掌握数据分析技能,提高数据处理和分析能力,为大数据时代的业务发展打下坚实基础
目标收益
培训对象
课程大纲
数据分析和数据挖掘体系及方法论 |
数据思维的概念 数据思维的特点 数据思维的方法论 数据思维的应用价值 数据思维的应用流程 数据思维的模式 — 全量数据思维 — 容错性思维 — 相关性思维 |
基于大数据平台落地数据思维的案例分享 |
数据采集 数据存储 数据处理 数据建模( 数据指标和维度) 数据分析和可视化 |
数据分析和挖掘流程介绍 |
数据挖掘的基本任务 定义分析和挖掘目标 数据取样 数据探索 单变量数据探索 数据关联性分析 数据预处理 数据特征工程构建和选择 挖掘建模 模型评价 |
Python数据分析库实战 |
Python数据挖掘常用模块 Numpy pandas Matplotlib Python机器学习库:Scikit-learn |
Spark编程模型和解析 |
Spark的编程模型 Spark编程模型解析 Partition实现机制 RDD的特点、操作、依赖关系 Transformation RDD详解 Action RDD详解 Spark的累加器详解 Spark的广播变量详解 Spark容错机制 —lineage和checkpoint详解 Spark的运行方式 Spark的Shuffle原理详解 —Sort-Based原理 —Hash-Based原理 Spark Partition详解 |
Spark SQL原理和实践 |
Spark SQL原理 Spark SQL的Catalyst优化器 Spark SQL内核 Spark SQL和Hive连接 DataFrame和DataSet架构 Fataframe、DataSet和Spark SQL的比较 SparkSQL parquet格式实战 Spark SQL的实例和编程 Spark SQL的实例操作demo Spark SQL的编程 Spark SQL实操演示 |
PySpark原理和基础操作 |
Pyspark实例创建 1.引入库 2.转换实现 pyspark pandas series创建 pyspark pandas dataframe创建 from_pandas转换 Spark DataFrame转换 PySpark Pandas操作 1.读取行列索引 2.内容转换为数组 3.DataFrame统计描述 4.转置 5.排序 按行索引排序 按某列值排序 |
PySpark数据分析营销案例实战 |
一、数据概况分析 • 数据概况 • 数据清洗 二、单变量分析 • 观察样本0、1的平衡性 • 观察均值大小 • 可视化 三、相关性分析和可视化 四、逻辑回归模型的建立和评估 • 模型建立 • 模型评估 • 模型优化 五、业务价值 六、模型管理、发布和调用 七、MLFlow模型管理工具介绍和实战 |
数据分析和数据挖掘体系及方法论 数据思维的概念 数据思维的特点 数据思维的方法论 数据思维的应用价值 数据思维的应用流程 数据思维的模式 — 全量数据思维 — 容错性思维 — 相关性思维 |
基于大数据平台落地数据思维的案例分享 数据采集 数据存储 数据处理 数据建模( 数据指标和维度) 数据分析和可视化 |
数据分析和挖掘流程介绍 数据挖掘的基本任务 定义分析和挖掘目标 数据取样 数据探索 单变量数据探索 数据关联性分析 数据预处理 数据特征工程构建和选择 挖掘建模 模型评价 |
Python数据分析库实战 Python数据挖掘常用模块 Numpy pandas Matplotlib Python机器学习库:Scikit-learn |
Spark编程模型和解析 Spark的编程模型 Spark编程模型解析 Partition实现机制 RDD的特点、操作、依赖关系 Transformation RDD详解 Action RDD详解 Spark的累加器详解 Spark的广播变量详解 Spark容错机制 —lineage和checkpoint详解 Spark的运行方式 Spark的Shuffle原理详解 —Sort-Based原理 —Hash-Based原理 Spark Partition详解 |
Spark SQL原理和实践 Spark SQL原理 Spark SQL的Catalyst优化器 Spark SQL内核 Spark SQL和Hive连接 DataFrame和DataSet架构 Fataframe、DataSet和Spark SQL的比较 SparkSQL parquet格式实战 Spark SQL的实例和编程 Spark SQL的实例操作demo Spark SQL的编程 Spark SQL实操演示 |
PySpark原理和基础操作 Pyspark实例创建 1.引入库 2.转换实现 pyspark pandas series创建 pyspark pandas dataframe创建 from_pandas转换 Spark DataFrame转换 PySpark Pandas操作 1.读取行列索引 2.内容转换为数组 3.DataFrame统计描述 4.转置 5.排序 按行索引排序 按某列值排序 |
PySpark数据分析营销案例实战 一、数据概况分析 • 数据概况 • 数据清洗 二、单变量分析 • 观察样本0、1的平衡性 • 观察均值大小 • 可视化 三、相关性分析和可视化 四、逻辑回归模型的建立和评估 • 模型建立 • 模型评估 • 模型优化 五、业务价值 六、模型管理、发布和调用 七、MLFlow模型管理工具介绍和实战 |