本章我们将讨论Spark的限制(不支持实时处理,小文件的问题,没有专门的文件管理系统等)。
Spark与Hadoop的兼容性
1. 目的 Spark与Hadoop兼容,本章将讨论Spark如何与Hadoop兼容。涵盖Hadoop上使用S […]
Spark如何工作
1. 目的 本章将学习Spark如何工作。在Spark中输入代码时,驱动程序(Driver Program)中 […]
有向无环图(DAG)
1. 目的 有向无环图(DAG – Directed Acyclic Graph)是一组顶点和边, […]
内存计算
1. 目的 本章将为您提供有关内存计算的详细说明和Spark中的各种存储策略。 2. 什么是内存计算 数据保存 […]
Map和FlatMap操作
1. 目的 我们将介绍什么是Map操作,什么是FlatMap操作,以及它们之间的区别。Map操作作用于RDD的 […]
RDD血统(Lineage)
1. 目的 在Spark中,RDD之间的所有依赖关系都将记录在一张图表中,这就是我们在Spark中称的血统。我 […]
RDD操作实例
1. RDD操作 RDD支持两种类型的操作:转换(Transformation)和行动(Action)。 2. […]
RDD缓存机制
1. 目的 本节将介绍什么是RDD缓存,RDD缓存策略,Spark中的cache()和persist()方法之 […]