简介:本课中将系统的讲解Spark SQL的核心知识,并以实战的方式,通过分析Nginx访问日志的实战例子,帮助同学们领略SparkSQL强大简便的数据分析能力,洞悉SparkSQL调优方式及其核心思想。
第2章 认识Spark SQL
本章介绍Spark SQL运行原理,DataFrame、DataSet和RDD的相互转化和使用场景,并讲解Parquet的使用。
第3章 DataFrame/DataSet常用操作
本章介绍DataFrame的过滤,分组,排序操作和列值的增删改,以及对Join的优化。
第4章 自定义函数和开窗函数
本章讲解自定义函数的使用,以及开窗函数在分组求TopN中的应用。
第5章 Nginx访问日志分析完整实战
本章会讲解使用Spark SQL分析Nginx访问日志的项目。包括了数据清洗,存储,监控和优化。