spark_shuffle

[toc] 1. 介绍 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

SparkSQL

[toc] 1.前言: SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,但是Shark对H...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

SparkStreaming

[toc] 1.概述 Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

Storm与SparkStreaming

Spark Streaming与Storm的优劣分析 事实上,Spark Streaming绝对谈不上比Storm优秀。这两个框架在实时计算领域中,都很优...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

StructuredStreaming

[toc] 1. 介绍 Structured Streaming是Spark2.0版本提出的新的实时流框架(2.0和2.1是实验版本,从Spark2.2开始为稳定版本),相比于...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

安装与配置

[toc] 注:配置环境时,$SPARK_HOME/sbin一定放在hadoop的sbin前面,因为这两个文件夹中都含有start-all.sh和st...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

简介及原理

[toc] 1. 前言 Apache Spark 是一个围绕速度、易用性和复杂分析构建的大数据处理框架,Spark是用Scala程序设计语言 编写而成,运行于Java虚拟机(JVM...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

命令

注:使用spark时,需要开启HDFS,(如果运行在yarn上还需开YARN) 启动Spark: (hadoop这个命令不起作用了) start-all.sh 启动后主机...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

数据倾斜

[toc] 1.介绍,原理,原因 见 hive中的数据倾斜 2. 解决方案 ++自定义分区++,这需要用户自己继承partition类,指定分区策略,这种方式效果...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1