QQ在线客服
免费咨询热线
400-615-1233
工作时间-工作日
8:30-17:30
完成教师认证即可享有全部教学资源下载权限
1立封
1平封

Spark技术与应用

需要更多信息,请联系杨 洋
校企合作,以“电量统计”为主线
  • 类  别:数据管理与大数据技术
  • 书  名:Spark技术与应用
  • 主  编:王晓燕 袁帅
  • 定  价:55
  • 开  本:16开
  • 印刷方式:双色
  • 页  数:276
  • 时  间:2025年2月
  • 出  版  社:中国矿业大学出版社
  • 书  号:978-7-5646-6599-9

内容摘要

        全书共分为九个任务,分别是搭建Spark开发环境、项目数据采集、探索Scala编程方法、揭秘弹性分布式数据集、Spark SQL——数据融合分析、Spark Streaming——实时智能分析、数据可视化——让数据说话、基于Spark GraphX 与MLlib 的智能化场景应用以及综合实践——区域用电分析项目。
        本书可作为大数据专业相关课程的教材,也可供大数据爱好者和从业者学习参考。

目录

任务一 搭建Spark 开发环境
一、任务说明 1
(一)学习目标 1
(二)思维导图 2
二、知识引入 2
(一)Spark 概述 2
(二)Spark 整体架构 3
(三)Spark 运行流程 4
(四)Spark 和Hadoop 的对比 5
(五)Spark 发展历程 6
三、任务实现 7
(一)安装虚拟机软件与虚拟机 7
(二)安装远程服务器管理工具 14
(三)安装JDK 17
(四)搭建Hive 环境 19
(五)安装Spark 分布式独立集群 24
四、知识拓展——基于Spark 技术的国家数字化发展战略引擎 31
五、任务考评 32
六、任务实训 33
 
任务二 项目数据采集
一、任务说明 35
(一)学习目标 35
(二)思维导图 36
 二、知识引入 36
(一)数据采集的概念和常用工具 36
(二)数据采集的多元视角与深度实践 37
(三)Sqoop 概述 38
(四)Flume 概述 39
三、任务实现 40
(一)Sqoop 安装 40
(二)获取电力离线数据 42
(三)Flume 安装 45
(四)准备电力实时数据 46
四、知识拓展——数据采集是大数据平台建设的关键数据入口 49
五、任务考评 50
六、任务实训 51
 
任务三 探索Scala 编程方法
一、任务说明 53
(一)学习目标 53
(二)思维导图 54
二、知识引入 54
(一)Scala 简介 54
(二)Scala 基础语法 56
(三)Scala 数据结构 61
(四)面向对象编程 62
(五)模式匹配与样例类 64
三、任务实现 67
(一)Scala 的下载安装 67
(二)统计某日某省电量使用总量 76
(三) 按日对电量使用量分组 78
(四)按照指定日期查询电量使用量 79
四、知识拓展——Scala 语言在大数据开发领域的广泛应用 80
五、任务考评 81
六、任务实训 82
 
任务四 揭秘弹性分布式数据集
一、任务说明 85
(一)学习目标 85
(二)思维导图 86
二、知识引入 86
(一)RDD 技术介绍 86
(二)RDD 算子处理 90
(三) RDD 分区和依赖 96
(四)持久化与容错 101
三、任务实现 104
(一) 以电力数据创建RDD 106
(二) 查询电力使用最多的5 个日期 108
(三)输出电力使用数据的总使用量 111
(四)输出每个日期电力的平均使用量 113
(五) 将汇总后的电力统计数据存储为文本文件 117
四、知识拓展——RDD 作为Spark 架构的基础支持各类应用场景 120
五、任务考评 121
六、任务实训 122
 
任务五 Spark SQL——数据融合分析
一、任务说明 125
(一)学习目标 125
(二)思维导图 126
 二、知识引入 126
(一)Spark SQL 基础 126
(二)DataFrame 基础 128
(三)DataSet 基础 138
(四)常用操作 142
三、任务实现 143
(一)以电力数据创建DataFrame,按字段查询数据 143
(二)使用电力按日使用数据创建DataSet,分组统计省份用电量 146
(三)使用Spark-sql 对电力数据按日期计算用电量,并按日期倒序 149
(四)使用Spark-sql 对电力数据计算单日地市用电量最小值 152
(五)使用Spark-sql 对电力数据计算月份电力使用量,并求出最大使用量 155
(六)使用Spark-sql 对电力数据按地市和日期求和,并保存结果到HIVE 中 158
(七)使用Spark-sql 对电力数据计算按省份月电力使用,并保存到MySQL 161
四、知识拓展——Spark SQL 是大数据离线批量处理的有力工具 165
五、任务考评 165
六、任务实训 167
 
任务六 Spark Streaming——实时智能分析
一、任务说明 169
(一)学习目标 169
(二)思维导图 170
二、知识引入 170
(一)Spark Streaming 基础 170
(二)DStream 基础 172
三、任务实现 180
(一)使用DStream 处理电力使用数据 180
(二)Spark Streaming 对每5 分钟窗口内的实时用电量求和 184
(三)Spark Streaming 接收实时电力数据流,并将处理后的数据保存到HIVE 187
四、知识拓展——国内大厂在实时处理领域大量使用Spark Streaming 实现 192
五、任务考评 192
六、任务实训 193
 
任务七 数据可视化——让数据说话
一、任务说明 195
(一)学习目标 195
(二)思维导图 196
二、知识引入 196
(一)数据可视化基础 196
(二)数据可视化的图表类型 197
(三)图表设计原则 198
(四)数据可视化的常见工具 200
三、任务实现 201
(一)可视化环境搭建 201
(二)各省月度用电量的趋势对比 205
四、知识拓展——数据可视化是国家和企业数据驱动决策的重要手段 212
五、任务考评 213
六、任务实训 214
 
任务八 基于Spark GraphX 与MLlib 的智能化场景应用
一、任务说明 217
(一)学习目标 217
(二)思维导图 218
二、知识引入 218
(一)初识Spark GraphX 218
(二)初识Spark MLlib 221
三、任务实现 223
(一)Spark GraphX 基于人物数据构建人物关系 223
(二)Spark MLlib 之随机森林及其案例 235
四、知识拓展——图计算和机器学习是大数据处理的高级应用方向 239
五、任务考评 241
六、任务实训 242
 
任务九 综合实践——区域用电分析项目
(一)需求分析 245
(二)模拟数据的生成 245
(三)模型设计 251
(四)数据抽取 252
(五)数据计算 253
(六)数据可视化实现 256
 
参考文献
◎王晓燕,副教授,郑州电力高等专科学校,曾多次荣获河南省骨干教师,河南文明教师。获得2021年河南省教学能力大赛二等奖,第二作者身份获得河南省教学成果二等奖1项,主持省级教研项目1项,厅局级科研项目3项,河南省信息化成果获奖8项,发表论文12篇,出版教材多部。

◎袁帅,副教授,郑州电力高等专科学校副院长,全国职业技能大赛裁判、河南省技术能手、河南省青年岗位能手、河南省骨干教师、河南省“双师型”教师。发表论文20余篇,省级、校级教科研课题立结项10余项,获得河南省教学成果二等奖、全国电力职业教育教学成果奖二等奖,主编、参编教材3本。指导学生参加职业技能竞赛、一带一路暨金砖国家技能发展与技术创新大赛、“互联网+”和“挑战杯”创新创业大赛,获国家级、省级以上奖项10余项。
  • 大数据技术基础

    主编:袁帅 冯明卿

    全书共包括12个模块,分别是大数据概论、Hadoop基础知识、HDFS分布式文件系统、YARN资源管理调度框架、MapReduce分布式并行计算框

    ¥45
  • 办公自动化技术可视化教程(第2版) (Windows 7+Office 2010)

    主编:邵杰

    本书全面介绍办公自动化工作中所需要掌握的常用办公软件的操作、常用办公设备的使用与维护,以及网络的有关知识。全书采用详实的图

    ¥66
  • 办公自动化技术可视化教程

    主编:邵杰

    本书为项目案例型教材,根据知识学习规律,精心设计了相应的项目和案例,共分15章,第1~3章介绍了办公自动化概述、常用办公及工具

    ¥49.5
  • 计算机网络技术基础

    主编:陈孟祥

    本书介绍了计算机网络相关知识,重点介绍计算机网络的功能、作用、组成、原理等内容。本书共分为8个模块,内容涵盖了计算机网络的

    ¥58
  • 多媒体技术与应用

    主编:汪绪彪

    本书以多媒体技术应用为主线组织内容,对常用软件的基础知识、使用方法、应用技巧进行了介绍。全书共7个模块,依次对多媒体技术基

    ¥65
  • 计算机网络技术项目化教程

    主编:张敬斋 王晨

    本书系统地介绍了计算机网络的基础知识、相关技术和实际应用。全书共5个项目,主要内容包括:计算机网络基础知识、 局域网及其技

    ¥45
  • 信息安全技术与应用

    主编:丁华

    本书针对信息安全面临的各种威胁、信息安全技术、信息保护方法等方面进行了讲解。本书共分9 章,内容包括信息安全技术概述、数据

    ¥49.9
  • 局域网组网技术

    主编:王鹏

      本书是为高职高专计算机及相关专业编写的教材。  本教材全面而系统地介绍了局域网的基础知识、基本技术和基本应用,主要内容包括:局

    ¥39.8
  • 微机原理与接口技术

    主编:付俊辉

      本书以16位微处理器为核心,追踪Intel主流系列高性能微机的技术发展方向,全面讲述了微机系统的组成、工作原理、硬件接口技术和典型应

    ¥48