本文共 599 字,大约阅读时间需要 1 分钟。
SparkSession:Spark 2.0的全新切入点
SparkSession是Spark 2.0引入的全新概念,为用户提供了统一的切入点,方便学习Spark的各项功能。早期的Spark版本中,SparkContext是主要的切入点,RDD是主要的API,通过SparkContext创建和操作RDD。对于其他功能,如Streaming和SQL,分别需要使用StreamingContext和sqlContext,甚至Hive也有其专门的HiveContext。但随着DataSet和DataFrame API逐渐成为标准,Spark 2.0推出了SparkSession作为统一的切入点。
SparkSession封装了SparkConf、SparkContext和SQLContext,同时为了向后兼容,保留了SQLContext和HiveContext。SparkSession实际上是SQLContext和HiveContext的组合,未来甚至可能还会整合StreamingContext。因此,SQLContext和HiveContext上的API在SparkSession中同样可用。
SparkSession的引入使得操作 DataSet和DataFrame更加便捷,同时兼容了传统的API,减少了学习成本。这种统一的切入点有助于开发者更高效地处理数据,适用于复杂的数据处理任务。
转载地址:http://rblk.baihongyu.com/