QQ在线客服
免费咨询热线
400-615-1233
工作时间-工作日
8:30-17:30
1立封
1平封

Spark技术与应用

需要更多信息,请联系杨 洋
校企合作,以“电量统计”为主线
  • 类  别:计算机系列
  • 书  名:Spark技术与应用
  • 主  编:王晓燕 袁帅
  • 定  价:55
  • 开  本:16开
  • 印刷方式:双色
  • 页  数:276
  • 时  间:2025年2月
  • 出  版  社:中国矿业大学出版社
  • 书  号:978-7-5646-6599-9

内容摘要

        全书共分为九个任务,分别是搭建Spark开发环境、项目数据采集、探索Scala编程方法、揭秘弹性分布式数据集、Spark SQL——数据融合分析、Spark Streaming——实时智能分析、数据可视化——让数据说话、基于Spark GraphX 与MLlib 的智能化场景应用以及综合实践——区域用电分析项目。
        本书可作为大数据专业相关课程的教材,也可供大数据爱好者和从业者学习参考。

目录

任务一 搭建Spark 开发环境
一、任务说明 1
(一)学习目标 1
(二)思维导图 2
二、知识引入 2
(一)Spark 概述 2
(二)Spark 整体架构 3
(三)Spark 运行流程 4
(四)Spark 和Hadoop 的对比 5
(五)Spark 发展历程 6
三、任务实现 7
(一)安装虚拟机软件与虚拟机 7
(二)安装远程服务器管理工具 14
(三)安装JDK 17
(四)搭建Hive 环境 19
(五)安装Spark 分布式独立集群 24
四、知识拓展——基于Spark 技术的国家数字化发展战略引擎 31
五、任务考评 32
六、任务实训 33
 
任务二 项目数据采集
一、任务说明 35
(一)学习目标 35
(二)思维导图 36
 二、知识引入 36
(一)数据采集的概念和常用工具 36
(二)数据采集的多元视角与深度实践 37
(三)Sqoop 概述 38
(四)Flume 概述 39
三、任务实现 40
(一)Sqoop 安装 40
(二)获取电力离线数据 42
(三)Flume 安装 45
(四)准备电力实时数据 46
四、知识拓展——数据采集是大数据平台建设的关键数据入口 49
五、任务考评 50
六、任务实训 51
 
任务三 探索Scala 编程方法
一、任务说明 53
(一)学习目标 53
(二)思维导图 54
二、知识引入 54
(一)Scala 简介 54
(二)Scala 基础语法 56
(三)Scala 数据结构 61
(四)面向对象编程 62
(五)模式匹配与样例类 64
三、任务实现 67
(一)Scala 的下载安装 67
(二)统计某日某省电量使用总量 76
(三) 按日对电量使用量分组 78
(四)按照指定日期查询电量使用量 79
四、知识拓展——Scala 语言在大数据开发领域的广泛应用 80
五、任务考评 81
六、任务实训 82
 
任务四 揭秘弹性分布式数据集
一、任务说明 85
(一)学习目标 85
(二)思维导图 86
二、知识引入 86
(一)RDD 技术介绍 86
(二)RDD 算子处理 90
(三) RDD 分区和依赖 96
(四)持久化与容错 101
三、任务实现 104
(一) 以电力数据创建RDD 106
(二) 查询电力使用最多的5 个日期 108
(三)输出电力使用数据的总使用量 111
(四)输出每个日期电力的平均使用量 113
(五) 将汇总后的电力统计数据存储为文本文件 117
四、知识拓展——RDD 作为Spark 架构的基础支持各类应用场景 120
五、任务考评 121
六、任务实训 122
 
任务五 Spark SQL——数据融合分析
一、任务说明 125
(一)学习目标 125
(二)思维导图 126
 二、知识引入 126
(一)Spark SQL 基础 126
(二)DataFrame 基础 128
(三)DataSet 基础 138
(四)常用操作 142
三、任务实现 143
(一)以电力数据创建DataFrame,按字段查询数据 143
(二)使用电力按日使用数据创建DataSet,分组统计省份用电量 146
(三)使用Spark-sql 对电力数据按日期计算用电量,并按日期倒序 149
(四)使用Spark-sql 对电力数据计算单日地市用电量最小值 152
(五)使用Spark-sql 对电力数据计算月份电力使用量,并求出最大使用量 155
(六)使用Spark-sql 对电力数据按地市和日期求和,并保存结果到HIVE 中 158
(七)使用Spark-sql 对电力数据计算按省份月电力使用,并保存到MySQL 161
四、知识拓展——Spark SQL 是大数据离线批量处理的有力工具 165
五、任务考评 165
六、任务实训 167
 
任务六 Spark Streaming——实时智能分析
一、任务说明 169
(一)学习目标 169
(二)思维导图 170
二、知识引入 170
(一)Spark Streaming 基础 170
(二)DStream 基础 172
三、任务实现 180
(一)使用DStream 处理电力使用数据 180
(二)Spark Streaming 对每5 分钟窗口内的实时用电量求和 184
(三)Spark Streaming 接收实时电力数据流,并将处理后的数据保存到HIVE 187
四、知识拓展——国内大厂在实时处理领域大量使用Spark Streaming 实现 192
五、任务考评 192
六、任务实训 193
 
任务七 数据可视化——让数据说话
一、任务说明 195
(一)学习目标 195
(二)思维导图 196
二、知识引入 196
(一)数据可视化基础 196
(二)数据可视化的图表类型 197
(三)图表设计原则 198
(四)数据可视化的常见工具 200
三、任务实现 201
(一)可视化环境搭建 201
(二)各省月度用电量的趋势对比 205
四、知识拓展——数据可视化是国家和企业数据驱动决策的重要手段 212
五、任务考评 213
六、任务实训 214
 
任务八 基于Spark GraphX 与MLlib 的智能化场景应用
一、任务说明 217
(一)学习目标 217
(二)思维导图 218
二、知识引入 218
(一)初识Spark GraphX 218
(二)初识Spark MLlib 221
三、任务实现 223
(一)Spark GraphX 基于人物数据构建人物关系 223
(二)Spark MLlib 之随机森林及其案例 235
四、知识拓展——图计算和机器学习是大数据处理的高级应用方向 239
五、任务考评 241
六、任务实训 242
 
任务九 综合实践——区域用电分析项目
(一)需求分析 245
(二)模拟数据的生成 245
(三)模型设计 251
(四)数据抽取 252
(五)数据计算 253
(六)数据可视化实现 256
 
参考文献

主编信息

◎王晓燕,副教授,郑州电力高等专科学校,曾多次荣获河南省骨干教师,河南文明教师。获得2021年河南省教学能力大赛二等奖,第二作者身份获得河南省教学成果二等奖1项,主持省级教研项目1项,厅局级科研项目3项,河南省信息化成果获奖8项,发表论文12篇,出版教材多部。
◎袁帅,副教授,郑州电力高等专科学校副院长,全国职业技能大赛裁判、河南省技术能手、河南省青年岗位能手、河南省骨干教师、河南省“双师型”教师。发表论文20余篇,省级、校级教科研课题立结项10余项,获得河南省教学成果二等奖、全国电力职业教育教学成果奖二等奖,主编、参编教材3本。指导学生参加职业技能竞赛、一带一路暨金砖国家技能发展与技术创新大赛、“互联网+”和“挑战杯”创新创业大赛,获国家级、省级以上奖项10余项。

相关图书

  • 大数据技术基础

    主编:袁帅 冯明卿

    全书共包括12个模块,分别是大数据概论、Hadoop基础知识、HDFS分布式文件系统、YARN资源管理调度框架、MapReduce分布式并行计算框

    ¥45
  • 办公自动化技术可视化教程 (第2版)(Windows 7+Office 2010)

    主编:邵杰

    本书全面介绍办公自动化工作中所需要掌握的常用办公软件的操作、常用办公设备的使用与维护,以及网络的有关知识。全书采用详实的图

    ¥66
  • 电力电子技术

    主编:张建国

    本书除绪论外共7章,内容包括晶闸管及单相可控整流电路的应用、三相可控整流电路的应用、有源逆变电路的应用、全控型电力电子器件

    ¥42
  • 单片机技术及应用

    主编:曹月真

    本书共9个课题,包括单片机的初步认知、交通信号灯设计与制作、按键与数码管应用设计、中断系统的应用、LED点阵显示设计、你来我往

    ¥48
  • 数控机床电气控制技术

    主编:高艳平 陈甫

    本书共6个项目,主要内容包括数控机床常用低压电器、数控机床典型控制线路、数控系统及其接口应用、数控机床主传动系统的控制、数

    ¥49
  • 模拟电子技术

    主编:张俊才

    本书按照理实一体化的思想进行编写完善,突出技能训练,更适合职业教育教学需要,以实际项目为中心,以实际工作为引导。全书共分为

    ¥45
  • 信息技术基础(第2版)(WPS版)

    主编:朱利华

    本书内容包括走进信息时代 ——信息技术应用基础、制作 绿色亚运环保骑行 活动方案——文档处理、制作农林牧渔业总产值季度报表

    ¥49.9
  • 信息技术(职业本科版)

    主编:叶莉 胡三宁 彭沛

    本书根据教育部颁布的《高等职业教育专科信息技术课程标准(2021年版)》基础模块进行编写。 全书设计为14个单元,分为基础

    ¥59.8
  • 信息技术与人工智能基础

    主编:王瑞 董娟

    本书共8个模块,内容包括信息技术应用基础、WPS文字应用、WPS表格应用、WPS演示应用、人工智能基础、人工智能的行业应用、AIGC助力

    ¥55
  • 信息技术(WPS Office)

    主编:杨俭 幸荔芸

    本书共包括七个项目,分别是信息技术应用基础、文档处理、电子表格处理、演示文稿制作、信息检索与计算机网络、新一代信息技术概述

    ¥49.9