问题定义
实验内容
使用 Spark 对数据进行处理,并分析双十一的用户交易等信息,用 Scala 语言进行程序编写,最后将处理的数据结果使用 Echarts 进行可视化。
实验环境以及使用的相关应用:
- Spark 2.4.3
- Scala 2.12
- Tomcat 9.0.20
- 可视化工具:ECharts
- Java 包:fastjson
- 系统环境:macOS Mojave 10.14.5
使用 Spark 对数据进行处理,并分析双十一的用户交易等信息,用 Scala 语言进行程序编写,最后将处理的数据结果使用 Echarts 进行可视化。
实验环境以及使用的相关应用:
弹性分布式数据集 (Resilient Distributed Datasets, RDD)
RDD,全称 Resilient Distributed Datasets(弹性分布式数据集),是 Spark 最为核心的概念,是 Spark 对数据的抽象。
RDD 是分布式的元素集合,每个 RDD 只支持读操作,且每个 RDD 都被分为多个分区存储到集群的不同节点上。除此之外,RDD 还允许用户显示的指定数据存储到内存和磁盘中。
对 RDD 的操作,从类型上也比较简单,包括:创建 RDD、转化已有的 RDD 以及在已有 RDD 的基础上进行求值。