spark学习-SparkSQL-SparkSession与SparkContext-白红宇

spark学习-SparkSQL-SparkSession与SparkContext

阅读量：118 次

发布时间：2019-02-26

本文共 599 字，大约阅读时间需要 1 分钟。

SparkSession：Spark 2.0的全新切入点

SparkSession是Spark 2.0引入的全新概念，为用户提供了统一的切入点，方便学习Spark的各项功能。早期的Spark版本中，SparkContext是主要的切入点，RDD是主要的API，通过SparkContext创建和操作RDD。对于其他功能，如Streaming和SQL，分别需要使用StreamingContext和sqlContext，甚至Hive也有其专门的HiveContext。但随着DataSet和DataFrame API逐渐成为标准，Spark 2.0推出了SparkSession作为统一的切入点。

SparkSession封装了SparkConf、SparkContext和SQLContext，同时为了向后兼容，保留了SQLContext和HiveContext。SparkSession实际上是SQLContext和HiveContext的组合，未来甚至可能还会整合StreamingContext。因此，SQLContext和HiveContext上的API在SparkSession中同样可用。

SparkSession的引入使得操作 DataSet和DataFrame更加便捷，同时兼容了传统的API，减少了学习成本。这种统一的切入点有助于开发者更高效地处理数据，适用于复杂的数据处理任务。

转载地址：http://rblk.baihongyu.com/

你可能感兴趣的文章