1. 引言 Apache Kafka与Spark Streaming集成是构建实时应用程序的最佳组合,所以在本 […]
检查点(Checkpoint)
1. 目的 本章将讨论什么是检查点,检查点如何帮助Spark实现容错。 2. 检查点(Checkpoint)介 […]
Spark流转换操作(Streaming Transformation Operations)
1. 目的 本章将学习常用的流转换操作:map、flatmap、filter、reduceByKey、coun […]
Spark SQL优化
1. 目的 本章介绍Spark SQL优化框架,为什么使用Catalyst优化器,Catalyst 优化器的基 […]
Spark SQL DataSet
1. 目的 本章将介绍DataSet,Encoder以及它在DataSet中的重要性,为什么需要DataSet […]
Spark SQL DataFrame
1. 目的 本章介绍了Spark RDD的局限性以及DataFrame如何克服这些限制,如何在Spark中创建 […]
Spark SQL介绍
1. 目的 Spark SQL是一个Spark模块,用于简化DataFrame和DataSet抽象的结构化数据 […]
Spark的限制
本章我们将讨论Spark的限制(不支持实时处理,小文件的问题,没有专门的文件管理系统等)。
Spark与Hadoop的兼容性
1. 目的 Spark与Hadoop兼容,本章将讨论Spark如何与Hadoop兼容。涵盖Hadoop上使用S […]