Spark Shuffle 详解
定义 有些运算需要将各节点上的同一类数据汇集到某一节点进行计算,把这些分布在不同节点的数据按照一定的规则汇集到一起的过程称为 Shuffle。 下面用一组图例说明什么时候需要 Shuffle —— 下图是 Spark Job 的依赖图: 将对应的 RDD 标注上去后: 对于这一过程,我们分析其中的 Shuffle: 这其中就涉及到 Shuffle 过程...

肖钟城
  • 大数据技术栈
  • Spark
大约 7 分钟
Flink与Spark读写parquet文件全解析
Parquet介绍 Parquet 是一种开源文件格式,用于处理扁平列式存储数据格式,可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它以其高性能的数据压缩和处理各种编码类型的能力而闻名。与基于行的文件(如 CSV 或 TSV 文件)相比,Apache Parquet 旨在实现高效且高性能的平面列式数据存储格...

肖钟城
  • 大数据技术栈
  • Spark
大约 5 分钟
spark SQL配置连接Hive Metastore 3.1.2
Hive Metastore作为元数据管理中心,支持多种计算引擎的读取操作,例如Flink、Presto、Spark等。本文讲述通过spark SQL配置连接Hive Metastore,并以3.1.2版本为例。 通过Spark连接Hive Metastore,需要准备如下文件: hive-site.xml; apache-hive-3.1.2-bin...

肖钟城
  • 大数据技术栈
  • Spark
小于 1 分钟
使用spark/bin目录下beeline连接spark thrift server
在开启spark thrift server之后,通过beeline连接需要使用spark/bin目录下的beeline进行连接,不然会出现以下问题: 而是用spark目录下的beeline则可以: ```java [root@hadoop1 bin]# /usr/hdp/3.1.4.0-315/spark2/bin/beeline -u jdbc:h...

肖钟城
  • 大数据技术栈
  • Spark
大约 2 分钟